Дежа Вю

Если вам случалось сканировать книжки, журналы и прочие внушительные объемы текста и графики, то проблема «в чем хранить эти сканы?» вам хорошо знакома. С одной стороны, удобно паковать в jpeg, но только фотографии. В противном случае четкие линии, и текст в их числе, неизменно покрываются неброской вязью пикселей. В такой ситуации обычно предпочитают TIFF. И что же? Получается папка с сотней-другой графических файлов нехилого объема, которые для удобства последующего просмотра еще и пронумеровать надо соответственно!

Конечно, есть и дальнейшие «пути развития». Текст можно распознать и затолкать хотя бы в *.doc, а то и создать *.pdf-файл. Однако все это дело трудоемкое, весьма времязатратное, да еще и требующее некоторых навыков. Мало того, далеко не все любят воспринимать информацию в формате *.pdf из-за его слишком медленной работы даже на современных машинах (помню, на Pentium166MMX чтение *.pdf большого объема вообще было сущим адом). Так что настало время познакомиться с программой, решающей все вышеперечисленные проблемы и неудобства.
Итак — DjVu Solo 3.1. Статус — freeware, разработчик — LizardTech. Работает под операционными системами Windows 95/98/2000/NT 4.0 (+SP 6).


Как заявляют разработчики, эта программа — идеальный инструмент для оцифровки большого количества информации с бумаги. Что же это такое? По сути, DjVu — это специализированный графический формат, основанный на разработках AT&T Labs и позволяющий добиться почти невероятной степени сжатия. При конвертировании обычного файла в формате BMP, GIF, IW44, JPEG, PNM, TIFF или PICT программа выделяет слой участков с четкими края­ми (текст и часть графики) и слой графики с мягкими переходами (фотографии и картинки). Каждый слой запаковывается отдельно, различными методами, благодаря чему мы получаем не только на удивление маленький размер выходного файла, но и четкий текст (без векторов!) и линии в документе!
Кстати о системных требованиях. Минимальным является наличие процессора Pentium 100 МГц и 32 Мбайт памяти, обладатели же систем на базе Pentium 266 МГц со 128 Мбайт памяти и выше могут вообще не беспокоиться.

Загрузив графический файл в программу, можно узнать о нем кое-какую информацию (вроде коэффициента сжатия ratio для jpg), а также полюбоваться на то, как программа делает zoom. Он невелик (всего до 300%), зато картинка так тщательно зализывается, что глаз радуется (похоже на работу плагинов программного увеличения разрешения в Photoshop). Выбираем File->Encode as DjVu, после чего откры­вается любопытное диалоговое окно с возможностью выбора четырех режимов упаковки. Режим Scanned отлично подходит для сканов, где текст и графика густо перемешаны. Качество картинок в этом случае будет неидеальным, но все же очень даже ничего. Режим Photo создан специально для упаковки чистой графики, без текста, поэтому выдает изображение высокого качества (насколько я понял, слой с четкими краями в этом режиме не соз­дается). Режим Clean предназначен для работы с графикой и текстом, созданными на компьютере, и обеспечивает более высокий коэффициент сжатия. Ну и, наконец, режим Bitonal создает четкое двухцветное изображение, что заметно экономит место на диске. Для скучных объемов текста — очень даже выгодное решение!
Выходной файл имеет расширение *.djvu или *.djv, открывается самой DjVu или ACDSee четвертой версии. В просмотрщике DjVu, что интересно, можно менять режимы — Color, Black&White, Foreground, чем можно добиться получения чистой белой страницы с отчетливым черным текстом, без грязного или просто серого фона. Размер *.djvu файла неизменно оказывался меньше на 20-50% (!!!) исходного *.jpg файла, причем даже при использовании самого «качественного» режима — Photo. А как ужимаются книжки…
Стоп! Добрались до самого интересного — DjVu ведь не только размер файлов уменьшает, но и позволяет создавать многостраничные файлы, так что всю вашу папку с кучей отсканированных страничек можно «сшить» вместе! Делается это просто: Edit->Append Page (s). В результате получаем книгу страниц эдак на 200, умещающуюся в 3-6-мегабайтный файл, который резво открывается и отображается (так как, в отличие от pdf, не работает с векторами и заливками). Причем «книгу» можно паковать как в один *.djvu-файл (режим bundled), так и каждый лист отдельно (режим Indirect), причем в последнем случае создается дополнительный файл, при запуске которого вы увидите всю книгу разом, просто хранится на диске она по частям.
Далее, с полученной «книгой» можно производить всякие манипуляции (помните, что в качестве книги может быть, например, просто коллекция фотографий). Во-первых, можно устраивать слайд-шоу, во-вторых, можно включить иконки (thumbnails) каждой страницы внутрь файла, что несомненно увеличит скорость загрузки. Во-вторых, на каждой странице можно создать практически неограниченное количество гиперссылок (hyperlinks) различной формы и способа отображения (например, выпуклости). Ссылки могут содержать как URL, так и ссылку на любую другую страницу книги.
Вот, пожалуй, и все. Но даже этих возможностей, поверьте, с лихвой хватит на решение проблемы сканирования и последующего хранения больших объемов данных. А ведь LizardTech предлагает еще и plug-in для браузеров, но это уже совсем другая история…


Рекомендуем почитать: