Максим Бычков, Григорий Кудрявцев. Ноябрьские тезисы о сканировании

---------------------------------------------------------------
Email: bmn@gosreg.adm.yar.ru
Date: 10 Nov 2000
---------------------------------------------------------------

Материалы этой страницы будут регулярно пополняться. Опытом OCR
делятся Максим Бычиков и Григорий Кудрявцев, у них на счету - ПСС Шекспира,
Стейнбека, Диккенс, ... всего около 60Мб подготовленных и вычитанных
электронных текстов.

Установки сканера по яркости

Если материал представлен в виде качественной (желательно высокой)
печати шрифтом 10 и более пунктов, то сканирование в разрешении 300 точек с
ручной установкой яркости дает более чем приемлемые результаты. Количество
ошибок на лист A4 стремится к нулю и колеблется в районе 1-5 неправильно
распознанных знаков. Установку яркости можно подобрать опытным путем, сводя
к минимуму помехи в виде рассыпанной по листу "сыпи", но в основном, яркость
на уровне 42-45% обеспечивает хорошее качество распознавания.

Особо следует отметить ситуацию при сканировании некоторых печатных
изданий изданных в 40-е-60-е годы, в частности это касается многих собраний
сочинений изданных в это время. Несмотря на качественную печать,
использование сложных "многозавитушечных" шрифтов вводит программу
распознавания в искус придумать какое-то свое толкование некоторых знаков,
что существенно снижает качество получаемого текста. Частично разрешить
проблему позволяет повышение разрешения до 400 точек на дюйм - ошибок
становиться заметно меньше. Однако дальнейшее увеличение разрешения не дает
прироста точности распознавания. (Можно поробовать распознавание с
обучением, но это во первых долго и муторно, а во вторых, субъективно, не
дает заметного увеличения качества распознавания)

При сканировании книг с небольшим внутренним полем и "не раскрывающихся
до конца" в клееном переплете приходиться использовать автоматический подбор
яркости чтобы избежать затемнения в области переплета. Однако автоподбор
яркости снижает скорость прохода сканера и отнюдь не способствует лучшему
распознаванию областей текста не лежащих в затемненной части, поэтому лучше
избегать сканирования с автоматическим подбором, кроме самых крайних случаев
(особой ценности издания, и особой узости внутренних полей). (Книжка обычно
после этого становится загубленной.)

К сканированию с разрешением 600 точек на дюйм следует прибегать только
в случаях если оригинал напечатан шрифтом 9 и меньше пунктов.

Maxim mailto:bmn@gosreg.adm.yar.ru

Продолжение следует

О сканерах

Сканнер Fujitsu M4097D. 30-40 страниц в минуту на автоподаче. Стоит около $10к
http://www.fcpa.com/product/prd_product_frame.html
http://www.banctec.com/Products.CFM?Products__IDNumber=36

* ИСПОЛЬЗОВАЛИСЬ В РАБОТЕ СКАНЕРЫ МОДЕЛЕЙ: *

HP ScanJet 4c
Используются в настоящее время:
Mustek 12000 SP Plus
Acer ScanPrisa 640
Umax PowerLook II

HP ScanJet 4c.

Достоинства:
Высокая скорость сканирования (18-22 сек ч/б А4), быстрый откат, лампа
при откате отключается.

Недостатки:
При работе забирает все ресурсы машины, подвешивая все параллельно
работающие приложения. Снят с производства.

Mustek 12000 SP Plus:

Достоинства:
Поддерживается автоматическая настройка яркости, удобно реализован
диалог twain-драйвера сканера. При работе не требователен к мобилизации
ресурсов системы, позволяет одновременно работать другим приложениям.
Единственный допускает параллельно со сканированием прослушивать mp3 с
любым битрейтом.

Недостатки:
Относительно низкая скорость сканирования (30-35 сек ч/б - при работе
через twain-диалог, 40-45 сек при автоматической яркости).
Медленный откат. Лампа горит постоянно.
Отсутствует кнопка "Power". Ненадежное крепление крышки (тонкие
пластмассовые петли).

Acer ScanPrisa 640

Достоинства:
Относительно высокая скорость сканирования (25-30 сек ч/б А4 - при
работе через twain-диалог, 35-38 сек при автоматической яркости), быстрый
откат. Удачно реализовано крепление крышки, предусмотрена возможность съема
оной. На наш взгляд - лучший сканер для работы с текстом в ценовом диапазоне
до 200$.

Недостатки:
Лампа горит постоянно.

Umax PowerLook II

Для сканирования текстов не подходит напрочь, по причине заточенности
под высококачественное сканирование графики. Имеет оптическое разрешение до
1200. На сканирование листа формата А4 затрачивается 60 сек., куда входит 5
секундное прогревание лампы для более точной цветопередачи.

* РАБОТА С ТЕКСТОМ-"СЫРЦОМ" *

Из всех возможных способов сохранить распознанный материал в FR 4.0
рассмотрим два наиболее удобных для обработки текста отсканированной книги:
сохранение текста с "частичным сохранением макета с помощью пробелов" и
"сохранение текста без форматирования". Следует отметить, что каждый из
указанных способов обладает своей спецификой при дальнейшей обработке
текста.

(перед распознаванием в FR 4.0 необходимо убедиться что в "опции" -
"форматирование" - "форматы" - "текст" маркер "сохранять разделение на
строки" снят, а "разделять абзацы пустыми строками" - стоит.

Сохранение текста без форматирования.

Наиболее оптимальный, на наш взгляд, вариант сохранения текста,
поскольку FineReader не пытается рулить сам, а сохраняет как есть.

Абзацы выделяются двумя возвратами каретки.

Один из нас ничтоже сумняшеся запускает макрос, который заменяет < на
", > на ", .- на . - , ,- на , - , !- на ! - , ?- на ? - , "- на " - , )- на
) - , два возврата каретки на один и пять пробелов. После чего запускается
программа textform (прилагается), которая выравнивает правую границу попутно
удаляя переносы и дефисы, которые она считает таковыми :(, образуя
конструкции типа - какнибудь и пр., а также удаляя тире в диалогах. Частично
это лечится глобальной заменой слова нибудь на -нибудь, с последующей
заменой -- на -. Остальные удаленные тире и дефисы приходится вставлять
вручную, но это уже не так страшно, как удалять вручную переносы.

Другой использует более хитрую замену.

Порядок подготовительных замен:

{<} и {>} заменить на {кавычки}

убрать переносы - {дефис} {возврат каретки} заменить на "пусто"

{запятая} заменить на {запятая} {пробел}

{запятая} {пробел} {пробел} заменить на {запятая} {пробел}

Приводим в порядок абзацы:

{точка} {возврат каретки} {возврат каретки} заменить на {%%%}

{восклицательный знак} {возврат каретки} заменить на {$$$}

{вопросительный знак} {возврат каретки} заменить на {###}

{возврат каретки} заменить на {пробел}

{%%%} заменить на {точка} {возврат каретки}
{пробел}{пробел}{пробел}{пробел}{пробел}

{$$$} заменить на {восклицательный знак} {возврат каретки}
{пробел}{пробел}{пробел}{пробел}{пробел}

{###} {вопросительный знак} {возврат каретки}
{пробел}{пробел}{пробел}{пробел}{пробел}

Получаем подготовленный к вычитке полуфабрикат текста с абзацным
отступом пять пробелов, который прогоняем через textform, с получением всех
вышеуказанных глюков. :)

ocr_bychkov_textfmt.rar

Режимы форматирования: !!!!!
Включить форматирование пробелами.
Сохранять в txt-win формате.

Команда: Разметить все блоки

Ручной просмотр всех блоков по тифам, и коректировка блоков.

Пакетный распознаватель.

Мастер сохранение: Постранично - сохранять в txt-win формате.

Склеиваем с нумератором страниц.

Multiedit: Перекодировка в дос, пакетные макросы - перекодировка символов.
Длинное тире... Таблица прилагается.

1. Первичная обработка. Межстраничные разделители, Нумираторы...

Сбитая табуляция... Лечим абзацем. Позиционирование по подозрительным
местам.

2. По бумажному тексту - стилевое выделение.

3. Типовые ошибки. Поиск макросами...

Спеллчек, досовский DC-1991.
Популярность: 7, Last-modified: Sat, 23 Dec 2000 12:14:13 GmT