Сканирование документов - Cканирование документов на бумажной основе


В.Б.Бовин
Опыт сканирования фольклорного рукописного архива Института ЯЛИ КарНЦ РАН1.



      Работы по сканированию рукописных документов выполнялись в рамках проекта по созданию информационной системы фольклорного архива Института языка, литературы и истории КарНЦ РАН. Это не только перевод ручных записей в электронную форму, но и создание архива нового поколения. В связи с этим потребовалась выработка определенной методики и стандартов, связанных с техникой сканирования, что позволило бы как можно грамотнее выполнить поставленные задачи.
      Хранение документов в электронном виде дает выигрыш не только в скорости поиска необходимых записей, но и создает удобство работы с архивом. Отсканированные материалы можно отправлять по электронной почте, публиковать в сети Интернет или распечатывать на принтере. Копирование электронных документов происходит быстро и без потерь в качестве.
      Как правило, исходные документы (фольклорные коллекции) представляют собой различной толщины подшивки, тетради с записями от руки или машинописные листы. Преобразование в электронный вид подразумевает создание такой электронной копии бумажного документа, при печати которой получается документ по качеству не хуже оригинала.
      Существует два вида электронного представления такого рода информации: графическое и текстовое. Под графическим понимают перевод в электронную форму всего изображения документа (раньше таким образом выполняли микрофильмирование книг). Текстовое представление лишь по содержанию повторяет исходный документ, визуально же не имеет ничего общего с первоисточником. Например, при подготовке к печати словаря поморского языка И.М. Дурова преследовались две цели. Первая – компьютерный набор текста словаря. Вторая – сохранение оригинала рукописи в электронном виде. Для целей набора качество картинки должно обеспечить лишь хорошую читаемость букв и слов. Если же потребуется печатать фотографии исходных тетрадей, то такого качества уже недостаточно.
      При планировании работ по сканированию оригиналов рукописного архива Института ЯЛИ, процесс выполнения представлялся четким и ясным. Единицы хранения (листы тетрадей) пропускаются через сканер. Затем, полученные файлы собираются в каталогах жесткого диска компьютера. Наконец, графические файлы записываются на электронные носители, например DVD+R. Однако, позже возникли вопросы, которые потребовалось решать уже в процессе выполнения проекта. По причине того, что страницы тетрадей имеют разный размер, автоматически изменяются и расчетные цифры конечного объема электронного архива. Та же картина возникает в случае, если в тетрадях листы заполнены с обеих сторон. Некоторые страницы, подлежащие сканированию, со временем покоробились и в настоящее время уже не такие ровные и гладкие, а это влечет за собой дополнительное время на подготовку документов к сканированию. Тетрадь в отсканированном виде может потребовать более одного DVD+R диска для размещения электронных страниц, в результате чего количество «болванок» DVD+R возрастет. Сканирование одной страницы при высоком разрешении увеличивает время преобразования документа в электронный вид. Наконец, при многодневной, многочасовой и монотонной работе, неизбежны пользовательские, программные и аппаратные ошибки, поэтому, стоит учитывать обслуживание техники и программного обеспечения. В таких условиях необходимо проявлять ответственный подход и работать добросовестно, так как документы с годами устаревают (истлевают) и настоящая работа по сканированию может оказаться последним шансом сохранить архив.       Сотрудники архива бережно относятся к документам, тем не менее, для качественного сканирования, тетради требуется расшивать. Дело в том, что книгу на стекле планшетного сканера всей поверхностью не разместить. В местах изгиба, сканирование края листа затруднено и будет произведено с потерей резкости. Сканирование всегда производится в цвете для того, чтобы сохранить подлинный вид документа. Если в дальнейшем цвет не потребуется, электронный документ всегда можно обработать в графическом редакторе, убрав цвет. Разрешение (количество точек рисунка по вертикали и горизонтали) для типографской печати обычно составляет 300 dpi (англ. dots per inch - количество точек на дюйм). Для архивных целей, в зависимости от ценности документа можно использовать значения от 600 до 1200 и даже более точек на дюйм. Однако, чем выше значение dpi, тем дольше производится сканирование страницы, тем больше объем графического файла. На практике, в зависимости от значения dpi, сканирование листа формата А4 может занять от 1 до 6 минут.
      Для сканирования можно использовать планшетные сканеры наподобие Mustek ScanExpress A3, Canon CanoScan, Epson Perfection и другие, приемлемые по стоимости. Уровень качества определяется при сканировании специальных тестовых страниц (тестовых мир). При подборе рабочего разрешения ориентируются на результаты, полученные после сканирования миры. Для объемного архива потребуется высокопроизводительный сканер, способный выдержать многочасовую нагрузку. Использование других типов сканеров, например, ручных или же фотографирование качественным цифровым фотоаппаратом не рекомендуется. При закупке компьютера, входящего в состав сканирующего комплекса, необходимо уделить внимание объемам жесткого диска, оперативной памяти и видеопамяти. Во избежание случайных потерь информации и последующего восстановления, создание дисковых массивов типа RAID исключается.
      Сканер поставляется с программным обеспечением для сканирования, в котором присутствуют настройки по умолчанию. Такие настройки рекомендованы заводом-изготовителем для конкретного типа сканеров. Менять их допускается только специалистом. Вообще, всяческая пост-обработка электронного документа должна быть исключена. Документ кладется изображением на стекло сканера, таким образом, чтобы строчки текста были параллельны краям стекла. Это исключит последующее вращение картинки в графическом редакторе, которое обязательно привнесет нежелательные точки в содержимом изображения. Одна из программ сканирования, которую можно порекомендовать – IrfanView (http://irfanview.com).
      При сохранении документов необходимо выбрать тип файла. Электронные архивные документы рекомендуется хранить в неупакованном виде, например, в формате TIFF-Uncompressed (несжатый растровый файл). При незначительном повреждении носителя (в данном случае, диска DVD+R), пропадет лишь часть видимых точек изображения. При использовании графических форматов с потерей качества при сжатии (JPG, PNG, TIF-Compressed), такое повреждение губительно практически для большей части всего файла. Однако, при использовании страховочного фонда применение этих форматов разрешено. Другая сторона вопроса касается быстро меняющейся техники и устаревания форматов. Если формат JPG устареет и исчезнет из пользования, то потребуется искать программу, которая «умеет читать» JPG, иначе доступ к архиву будет невозможен. Несжатые форматы имеют простейшие алгоритмы вывода картинки.
      Чтобы не усложнять выбор типа разрешения, можно порекомендовать JPG с низким коэффициентом сжатия (лучшее качество картинки), но с высокими значениями DPI, от 1200 до 24002. В первую очередь, необходимо провести ряд экспериментов по сканированию исходных материалов и определить потерю качества получающихся документов. Запланировать создание страховочного фонда.
   При формировании электронного архива графическим файлам даются имена, которые набираются латинскими буквами. Это дает безошибочное прочтение файлов программами типа СУБД. Кроме того, файлы с такими именами прочитываются в разных операционных системах всевозможных компьютеров пользовательского класса.       На сегодняшний день формирование структуры файлового дерева Научного Архива ИЯЛИ практически завершено3.
      В электронном архиве не рекомендуется пользоваться основным фондом. Исключение составляют случаи создания резервного копирования и проверки состояния электронных носителей. После того, как архив отсканирован, создается пользовательский фонд. Исходное изображение посредством графического редактора или специальных программ уменьшается до таких размеров, при которых остается возможность свободного прочтения текста. Полученная картинка сохраняется на диск с использованием любых графических форматов, использующих высокие алгоритмы сжатия (рекомендуется JPG). Такими дисками можно пользоваться сотрудникам архива, выдавая документы посетителям. Полученные документы занимают мало места на внешних накопителях, они могут быть использованы при составлении презентаций и публикации на вэб-сайтах. Печать таких документов в типографии почти невозможна из-за низкого значения dpi и низкого качества картинки, что отчасти может служить своеобразной защитой авторского права.
      Наряду с преимуществами электронный архив имеет и недостатки. Во-первых, это недолговечность материала, из которого изготовлен диск DVD+R. Кроме того, информация на диске хранится в рабочем слое, который с двух сторон закрыт бесцветными дисками (пластинами). Если заливка лаком стыка двух пластин произведена некачественно, то вовнутрь диска попадет воздух, кислород в составе которого, может со временем разрушить отражающий слой алюминия. В результате чего, диск перестанет читаться. Во-вторых, высокая чувствительность DVD+R к механическим повреждениям. Продольные (по ходу лазерного луча) царапины на бесцветной пластине ведут к ошибкам во время прочитывания информации.
      Быстрое копирование всего диска решает проблемы, связанные с разного рода износами DVD+R. Учитывая это, необходимо запланировать резервное сохранение всего электронного архива через утвержденное количество лет. Из-за того, что выполнить такую задачу за один-два дня невозможно (в зависимости от объема архива), для электронного архива имеется специальная тетрадь, в которой отмечены даты записи дисков. Например, через 15-30 лет рекомендуется создать дополнительный страховочный фонд путем копирования всех дисков архива. Каждый год диски проверяются на чтение. В зависимости от объема, проверяется либо весь архив, либо по нескольку дисков из всех коллекций. На основании состояния страховочного фонда можно планировать дату следующего резервного сохранения. Оригинальные документы выбрасывать недопустимо, поскольку в случае утраты электронных носителей основного фонда (при отсутствии страховочного), документы потребуется сканировать повторно.
      Методики, рекомендации и принимаемые стандарты важны не только при планировании и выполнении работ по сканированию бумажных документов. Готовый электронный архив необходимо грамотно использовать, преподнести конечному пользователю, подготовить материалы для предстоящей публикации. Полученные сведения заметно облегчают работу, систематизируют данные и позволят сохранить архив будущим поколениям. С рекомендациями по технике сканирования можно ознакомиться в сети Интернет, по адресу http://rst.krc.karelia.ru . На сайте освещаются дополнительные вопросы, требующие детального рассмотрения: проверка сканирующего оборудования, подготовка вычислительной техники, формирование и организация каталогов, именование и запись полученных файлов на диск.

1 Исследование выполнено при финансовой поддержке Российского гуманитарного научного фонда в рамках проекта «Создание информационной системы по фольклорному рукописному архиву Института ЯЛИ КарНЦ РАН», проект № 08-04-12144в.
2 Например, при сканировании документов Научного Архива ИЯЛИ, в силу разных причин, было утверждено разрешение 600dpi.
3 Ссылка - здесь размещены образцы имен файлов и каталогов для отсканированных документов


... позже, мы выяснили интересную деталь - использование в архивных целях формата JPEG-2000 (точнее - "open-jpeg" свободный кодек формата JPEG-2000). По этой причине, часть информации в этой статье претерпела изменения. (продолжение статьи)