Данная статья - это более подробные рекомендации по сканированию архивных документов на бумажной основе. Поскольку предыдущая статья "ушла" на публикацию, то, естественно ничего менять в ней не стал, хотя в некоторых местах желал бы остановиться подробно.
Позвольте извиниться, материал не готов (необходимо закончить статью "о подготовке и создании презентаций"
Оставляю возможность почитать наработки, при этом спешу сообщить следующее:
Выбор конечного формата зависит от наличия средств на носители информации.
Так, если средств достаточно, то выбирается файл JPEG (*.jpg), картинка, отсканированная в разрешении 600 dpi (или, я бы рекомендовал 1200 dpi, но это вдвое увеличит время сканирования). После чего, документы сохраняются на ДВА диска DVD+R. Таким образом, создается страховочный фонд. При порче одного диска, "в живых" остается страховочный, с которого "снимается" копия для восстановления исходного диска.
Если средств на диски DVD+R недостаточно, то документы сканируются в формат Uncompressed TIFF (*.tif), затем сжимаются представленной здесь программой в файл с расширением JP2 (формат openJPEG, он же JPEG2000) и записываются на "болванку" DVD+R. Программа не может сконвертировать JPG в JP2, необходим Uncompressed TIFF (не рекомендуется сканировать и сохранять в качественный JPG, затем преобразовывать в TIF и последним шагом, конвертировать в JP2. Эти действия приведут к утрате оригинального качества картинки). При порче диска, считывание документов производится с помощью специальных программ, типа CDCOPY. Вследствие специфики формата JPEG2000, повреждение документов будет незначительным и диск восстанавливается.
Однако, формат JPEG2000 недостаточно распространен и окончательно нами не протестирован (на разных компьютерах, в разных операционных системах), поэтому не стоит увлекаться им и создавать обе копии в openJPEG. Хочу подчеркнуть, что первый путь предпочтительней, поскольку исключает дополнительную работу по восстановлению данных.
В.Б.Бовин
Размышления и практические опыты.
В конце статьи по сканированию документов на бумажной основе, было сказано, что выяснилась интересная деталь. Дело вот в чем.
В статье предлагалось сохранять документы в формате TIFF Uncompressed, как наиболее устойчивом к повреждениям (например, диск с фотографиями не читается). Остальные форматы уже не несут в себе чистую информацию о точках, поскольку изображение строится с помощью закодированного потока в графическом файле. С другой стороны, при наличии страховочного фонда, допускается применять JPEG-сжатие.
.... да, сканировать необходимо в тех форматах, которые не вносят искажений в исходный рисунок. А вот если все равно, что будет с файлом, то допускается сохранять в lossy, т.е. рисунок с несущественными потерями графической информации и только потом уже, в пользовательских целях, сжимать с еще большими потерями.
На рисунке отчетливо видно, как теряется графическая информация при уничтожении небольшой части файла. Согласно предложенному тестовому рисунку, строилась методика наиболее грамотного сохранения архива. В общем-то ошибок нет. Если "пропадет" технология JPEG2000, сжатые файлы не восстановить, а точки изображения TIFF Uncompressed читаются без декодирования. Поэтому, методику можно использовать, не забывая создавать страховочный фонд. Однако, файл TIFF Uncompressed подвержен утрате, в отличие от JPEG2000.
Где-то в середине октября 2010 года, возникло желание "вспомнить" графический формат JPEG2000. После конвертирования, снова обратился к экспериментам по "кромсанию" файла. Результат оказался очень интересным. При уничтожении трети файла, общий вид картинки все еще возможно прочесть! Причем, наносимые повреждения были существенными (практически губительными для остальных графических форматов). В действительности, можно сказать, что компакт диск просто катали по полу, затем вставили в привод DVD и попытались хоть что-то прочесть. Даже с ошибками. Таким образом, хранение в формате JPEG2000 позволяет сохранить визуальный образ документа.
Ошибки проявляются в том, что в области сбоев картинка размывается. В изображение вносятся посторонние артефакты (вкрапления в рисунок, отсутствовавшие в исходной картинке). К сожалению, сейчас нет времени, чтобы выложить все результаты экспериментов (очень много работы по Фонограммархиву, в частности утверждается методика по составлению файлового дерева изображений электронного рукописного архива). Надеюсь к середине ноября "сделать конфетку", сформировав инструкции.
Известно, что формат JPEG2000 "закрыт". Тем не менее, существует свободный проект - openjpeg. Программа доступна для скачивания, работает превосходно. Интересно, что при низких значениях сжатия (почти LossLess - почти без потерь), файл восстанавливается в исходный вид (прилагается распаковщик). Чего не скажешь о традиционном JPEG.
Файлы *.jp2 просматриваются с помощью IrfanView (есть в каталоге WINDSOFT). Сейчас, работать с кодировщиком неудобно, поскольку запуск на сжатие производится из командной строки. Надеюсь, что в течение пары недель установлю Delphi и напишу простейший .... Итак, программа готова - Frontend. Достаточно скопировать файлы "image_to_j2k.exe" и "ojfront.exe" в каталог с изображениями (*.tif, *.bmp) и нажать старт ;) Мной были встречены определенного рода ошибки оригинального конвертера на отдельных *.TIF файлах, поэтому после конвертирования, полученные *.jp2-картинки рекомендуется повторно просмотреть, хотя бы с помощью IrfanView (лучше открыть на другом компьютере). Формат достаточно редко используется, но хочется верить, что мы тут дров не наломаем.
В JPEG2000, вероятно (опять я гадаю) используется принцип "progressive packing", ибо применяя такой же на PNG и JPG удается повторить "нерушимость" графического файла, лишь отдаленно напоминающую кодирование в JPEG2000.
Всё, спасибо за внимание.
Вся эта информация была к тому, чтобы сотрудники архива, в настоящее время работающие по сканированию документов, имели в виду, что документы рекомендуется сохранять в TIFF LZW (Сжатый TIFF), а затем, можно будет переконвертировать их в JPEG2000. TIFF LZW был выбран для того, чтобы у Вас не улетучилось в миг дисковое пространство. Тип файла JPG можно проигнорировать, ибо он внесет ненужную информацию в результирующий файл, а из этой статьи выходит, что JPEG2000 таких действий не совершает.
Напоследок, приведу несколько сравнительных цифр по сжатию1:
Исходная картинка TIFF Uncompressed - 18 мегабайт
Она же, сжатая в TIFF LZW - 6.6 мегабайт
Сжата в JPEG (без использования Progressive)- 2.7 мегабайт
Сжата в PNG (без использования Progressive) - 8 мегабайт
Сконвертирована в JPEG2000 (OpenJpeg) - 4.7 мегабайт
Файл 3 мегапикселя (2048*1536), это фотография 10 на 15 сантиметров. Таким образом, чтобы получить распечатку на "А4", необходимо 6 мегапикселей. Программа-вьювер изображений Fast Stone Image Viewer выводит такую информацию при просмотре, поэтому при сканировании следует об этих цифрах помнить и желательно их удвоить (если такое возможно.... завтра здесь будет точная цифра).
ТОЧНЫХ цифр пока не нашлось. Полагаю, такую цифру можно получить математически 2048*2 и 1536*2. В результате получается что-то неимоверно ёмкое - 4096*3072 (12 мегапикселей). Не нашлось точного числа по причине разрешения DPI. Сканер ведет измерения в "dpi", а нам нужны точки. Мои эксперименты с точками и DPI уткнулись в тупик. Например, создав картинку 800*600 при 1200dpi можно нарисовать в ней четкую наклонную линию. В Том же размере рисунка, но при 72dpi получаетася ломаная кривая. Пока не будет определа ясность, дальше двигаться не рекомендуется.
Но очевидно одно, при просмотре картинки в программе FastStone Image Viewer (www.faststone.org), выводится необходимая нам информация о точках. Может быть на них и следует ориентироваться, добиваясь 12 mpix?
----------------------------------------------------- 1 Везде применяется "лучшее качество сжатия", например JPEG - сжатие 100%