Книга: Linux и все, все, все... Статьи и колонки в LinuxFormat, 2006-2013

Linux и OCR – братья на век

Linux и OCR – братья на век

LinuxFormat, #144 (май 2011)

До недавнего времени Linux не мог похвастаться эффективными средствами для распознавания текстов: резонные люди рекомендовали прибегать к связке из FineReader+Wine.

Да и задача эта не выглядела актуальной: мне казалось, что большая часть «старого» контента уже оцифрована, а новый только в цифровой форме и создаётся. Однако по мере развития своих гуманитарных проектов (геологическго и исторического) я убедился, что был не прав: существует море «неокученных» старых материалов по этой теме. А материалы новые часто легче оцифровать с печатных версий, чем получить «файлы-исходники»: увы, один за другим уходят мамонты советской геологии.

Но действительности со свободными средствами распознавания оказалось «всё не так суицидально, ежли в корень посмотреть»: в 2008 году были открыты исходники OCR Cuneiform, которые тут же портировались на Linux и FreeBSD.

Правда, прямое применение Cuneiform к свежесканированным страницам производило удручающее впечатление. Однако дело оказалось легко поправимо благодаря программам:

   • Scan Tailor (разработка Иосифа Арцимовича) – она выполняет предварительную коррекцию отсканированного документа, и

   • YAGF (создана Андреем Боровским) – это интегрирующая графическая оболочка для Cuneiform, упрощающая её использование и расширяющая возможности.

Связка из этих трёх инструментов даёт результат хотя и не идеальный, но более чем приемлемый. И результат этот можно видеть на сайтах Памяти Советской геологии и Гиштория.

Оглавление книги


Генерация: 1.085. Запросов К БД/Cache: 3 / 1
поделиться
Вверх Вниз