Книга: Linux и все, все, все... Статьи и колонки в LinuxFormat, 2006-2013
Linux и OCR – братья на век
Linux и OCR – братья на век
LinuxFormat, #144 (май 2011)
До недавнего времени Linux не мог похвастаться эффективными средствами для распознавания текстов: резонные люди рекомендовали прибегать к связке из FineReader+Wine.
Да и задача эта не выглядела актуальной: мне казалось, что большая часть «старого» контента уже оцифрована, а новый только в цифровой форме и создаётся. Однако по мере развития своих гуманитарных проектов (геологическго и исторического) я убедился, что был не прав: существует море «неокученных» старых материалов по этой теме. А материалы новые часто легче оцифровать с печатных версий, чем получить «файлы-исходники»: увы, один за другим уходят мамонты советской геологии.
Но действительности со свободными средствами распознавания оказалось «всё не так суицидально, ежли в корень посмотреть»: в 2008 году были открыты исходники OCR Cuneiform, которые тут же портировались на Linux и FreeBSD.
Правда, прямое применение Cuneiform к свежесканированным страницам производило удручающее впечатление. Однако дело оказалось легко поправимо благодаря программам:
•
Scan Tailor (разработка Иосифа Арцимовича) – она выполняет предварительную коррекцию отсканированного документа, и
•
YAGF (создана Андреем Боровским) – это интегрирующая графическая оболочка для Cuneiform, упрощающая её использование и расширяющая возможности.
Связка из этих трёх инструментов даёт результат хотя и не идеальный, но более чем приемлемый. И результат этот можно видеть на сайтах Памяти Советской геологии и Гиштория.
- Как читать Linuxformat
- Парадокс линуксописательства
- Linux от Oracle
- ОС Barrelfish: рыбозасолочный цех
- Linux и OCR – братья на век
- Куда катится мир?
- Волхвы-то кричали с того и с сего
- Linux в «верхнем» образовании
- О LUG’ах и горе Верблюд
- Снова Open Source в науке
- Дети мага Мандрейка
- Как завладеть миром?
- InterBase Classic Server под Linux
- Каталог BIN в InterBase Classic Server для Linux
- Chapter 16. Commercial products based on Linux, iptables and netfilter
- Человек в железной маске
- 1 Введение в Linux
- 4 Файловая система Linux
- ДЖОН ФОН НЕЙМАН: ОДИН ИЗ САМЫХ БЛЕСТЯЩИХ УМОВ XX ВЕКА
- 1.2. Что такое Linux?
- 1.5.1. Red Hat Linux
- 1.5.3. SuSE Linux
- 3.6.1. Адресация в Linux
- Фильтрация в Linux