Google представил OCR-движок с поддержкой русского языка

Компания Google объявила о выпуске третьей версии OCR-движка Tessaract. Новая версия отличается усовершенствованным модулем анализа оформления страниц, поддержкой стандарта hOCR, возможностью использования библиотеки leptonica для выполнения операций, связанных с обработкой изображений. Кроме того, Tessaract 3 поддерживает русский язык, что делает его второй (после CuneiForm) OpenSource OCR-системой, пригодной для использования в нашей стране.
Напомним, что исходный код OCR-движка Tessaract был открыт компанией HP в 2005 году. На тот момент проект был давно заброшен и сильно отставал от конкурентов. После того, как за доработку Tessaract принялся вездесущий Google, положение заметно улучшилось.
В настоящее время Tessaract доступен в виде консольных приложений для Windows и UNIX. Скачать их (а также документацию) можно на официальной странице проекта.


Рекомендуем почитать: