Борьба с парообразованием

Нет, не подумайте — разговор сегодня пойдет не про баню, мыло душистое и полотенце пушистое, а про разумное средство облегчения нелегкого труда при разгребании сотен и даже тысяч графических файлов на винте с целью выявить и удалить дубликаты. Приходилось убивать время подобным образом? То-то же…

Обычно проблема заключается в сле­дующем: у вас есть огромное хранилище (архив, склад, бардак, помойка — ненужное вычеркнуть) картинок, а тут друзья еще партию подогнали. Само собой, среди «новых» найдется масса файлов, которые у вас уже и так есть. Как вычислить дубликаты? На первый взгляд, не такая уж это и проблема — искать файлы-дубликаты умеют многие программы. А если картинка одна и та же в двух разных файлах, а отличия разнообразны — разрешение, формат, количество цветов? В крайнем случае — сканы, сделанные разными людьми. Или, например, один файл есть не что иное, как фрагмент другого… Ведь все это, по сути, тоже дубликаты! Бороться с ними вручную и «перебирать» многотысячные архивы — это не Windows одной левой переустанавливать, здесь нужны люди покрепче!
Тем же, кому свое время дороже, рекомендую ознакомиться с программой отечественной выделки ImageDupeless, которая умеет не только искать похожие изображения, но и каталогизировать коллекции изображений для облегчения сравнения вновь поступающих картинок с уже имеющимися.


Последняя доступная версия программы — 1.4, но у автора весьма странные понятие о shareware, в результате чего даже в течение 30-дневного тестового периода комфортно попользоваться программой не удается из-за бесконечных граблей и вил, наставленных практически на каждом углу. Отличия же от более ранней версии, 1.23 (пользоваться которой на порядок удобнее, поскольку ограничений нет), минимальны. При этом размер программы в ходе эволюции вырос в три раза (1.6 Мбайт у версии 1.4), — наверное, инсталлятор «сожрал». Так что, если найдете более раннюю версию — хватайтесь обеими руками!
Работа в ImageDupeless начинается с создания галереи. Для этого задаем нужный каталог (а можно и целый CD), после чего программа специальным образом индексирует информацию о файлах, включая все подкаталоги, и сохраняет миниа­тюры изображений (thumbnails). Размер галереи зависит от количества файлов и составляет до 10 Мбайт в случае, если файлов меньше 1000, далее счет идет на десятки мегабайт. В версии 1.4 от миниа­тюр можно отказаться — удобного мало, зато размер галереи и расход оперативки снижается в 3 раза.
После того, как галерея будет создана, вам предложат сухую статистику и список файлов, посмотреть которые раньше можно было лишь при наличии внешнего просмотрщика (лучше ACDSee, с бесплатной XnView программа общается плохо). В версии 1.4 наконец-то появилась встроенная «смотрелка» и режим просмотра галереи.
Теперь о главном — жмем кнопку «найти дубликаты» и устанавливаем необходимый уровень различия, который выражается в % и варьируется от 0 до 18. Чем больше данный параметр, тем большее количество файлов программа посчитает похожими и наделает вам лишней работы, ведь оценивать найденные пары и решать, что с ними делать, придется именно вам! Исходя из своего опыта, могу сказать, что начиная с 5% результаты получаются неплохие, оптимальным мне кажется 14% (автор сове­тует 11%). Дальше — дело техники, при больших объемах процесс может затянуться на минуты, при титанических — на десятки минут! Зато в результате вы получите полноценную таблицу дубликатов, в каждой строке которой размещаются миниатюры похожих изображений с указанием имени и параметров каждого файла, а также «степени похожести». Естественно, в каждой строке может быть несколько изображений, худшие из которых можно либо удалить сразу, либо пометить для дальнейшего удаления. Если никак не можете решить, который из дублей удалить, а который оставить, стоит воспользоваться окном сравнения двух изображений. Это окно — одна из изюминок программы, поскольку позволяет наглядно оценить преимущества и недостатки каждого изображения, заменить одно изображение другим, удалить ненужный файл. В версии 1.4 добавились так называемые «флаги качества», отображающие результаты сравнения двух файлов — размер файла, площадь картинки, соотношение размер/площадь, а также специальный флаг, который включается в случае полного бинарного соответствия файлов. Словом, засучил рукава и вперед!
Теперь о втором применении программы — облегчении сравнения вновь поступающих картинок с уже имеющимися. Итак, открываем нашу галерею, переходим в режим «сравнить новые изображения с галереей» и указываем папку с новьем. ImageDupeless индексирует новые файлы и автоматически переходит в режим поиска дубликатов. Заметьте, эту операцию можно выполнять даже без файлов, уже учтенных в галерее! Например, картинки давно записаны на CD. В этом случае будет одно неудобство — окно сравнения изображений окажется недосягаемым из-за отсутствия доступа к исходным файлам, придется заниматься редактированием прямо из таблицы дубликатов…
Одним словом, программа практически незаменима и достаточно эффективна. Конечно, есть ряд недостатков: так, иногда из-за изъяна алгоритма непохожие изображения объявляются «дубликатами», но случается это редко.


Рекомендуем почитать: