Надоел медленный Интернет?  Попробуй Ускоритель!
Marketscore - сервис, практически вдвое увеличивающий в Интернете скорость работы вашего браузера. В среднем, скорость загрузки вэбстраниц с графикой и текстом ускоряется на 75%. 
Особенно заметен выигрыш, если у вас медленный модем или вы выходите в Интернет на маленьких скоростях (до 56 Кб/сек).
Подробнее...

реклама у нас

***

Очная ставка

Олег Пилипенко

Для быстрой трансформации бумажного документа в электронную копию потребуется хорошая система оптического распознавания символов. Так кто же сегодня сильнейший среди OCR-систем?

Создание ЭВМ и последующее бурное развитие информационных технологий раскрыло широкие возможности для компьютеризации всех сфер деятельности человека. Например, трансформация бумажного документооборота в электронный, создание электронных библиотек и прочее. Естественно, возникал вопрос: как преобразовать миллионы страниц книг, газет, различных документов в цифровой формат? Набрать все тексты заново на клавиатуре -слишком долго. Логичное решение проблемы - применение специализированной программы, которая могла бы трансформировать изображение, то есть набор точек и символов, в редактируемый текст.

Первая такая программа оптического распознавания символов (OCR -Optical Character Recognition) была создана в 1959 году компанией Intelligent Machine Corporation. Она могла распознавать тексты, набранные только одним шрифтом определенного размера, и использовалась в банковской сфере для обработки документов. Для гарантированной точности распознавания разработали шрифт, в котором была максимально устранена схожесть между подобными символами (например, между l, i и j). В 1966 году в США был стандартизован первый такой шрифт, названный OCR-A, в это же время в Европе стандартизировали шрифт OCR-B.

От шаблонов - к нейронам

В 70-х годах прошлого столетия компания Kurzweil Computer Products представила систему, которую можно было научить распознавать любой шрифт. После нескольких часов обучения результаты тренинга записывались на диск, и программа могла в будущем распознавать этот шрифт без повторного обучающего курса.

Эта и большинство других систем в конце 70-х и начале 80-х годов работали на базе шаблонов. Изображение каждого символа разбивалось на последовательность линий и кривых, после чего для каждого такого векторизованного образа подбирался наиболее похожий шаблон. Этот метод хорошо работал на качественных изображениях, но с трудом справлялся с распознаванием искаженных символов и текста, отпечатанного на фоне.

В 1986 году компания Calera Recognition Systems представила систему, которая могла распознавать сложные страницы, содержащие набор различных шрифтов, без предварительного обучения. В отличие от применявшегося ранее метода распознавания на базе шаблонов, эта система использовала идею программного прообраза искусственного интеллекта, который бы распознавал символы по аналогии с человеком (так называемый метод нейронных сетей). При разработке системы в нее заложили свыше 10 тысяч образцов написания каждой буквы английского алфавита, включая сильно искаженное начертание литер. Программа самостоятельно обобщала начертание каждой буквы, в результате чего она могла распознавать тексты, напечатанные незнакомым ей ранее шрифтом. Кроме того, такая OCR-система значительно лучше справлялась с распознаванием некачественно отпечатанных документов.

Продукты того времени распознавали каждый символ отдельно. Но если провести аналогию с человеком, то по слогам человек читает разве что в первом классе, обычно же он захватывает взглядом целое слово или некоторую его часть, если это слово очень длинное. Такую методику заложили и в OCR-системы - при распознавании применялся анализ нескольких соседних символов (так называемая триграмма). Кроме того, для проверки правильности работы программы использовались орфографические словари. Все это способствовало резкому улучшению качества распознавания.

Экспертный подход

Для того чтобы OCR-системы могли распознавать различные типы текстов с набором разных шрифтов, в начале 90-х стали применять так называемые эксперты, то есть специализированные алгоритмы, предназначенные для решения определенных задач при идентификации символов. Например, один эксперт мог специализироваться на различных начертаниях шрифтов, другой мог указывать на особенности при распознавании неконтрастных изображений, третий проверял правильность идентифицированного слова по словарю.

При работе каждый эксперт "высказывал" свое мнение об интерпретации распознаваемого символа. Побеждал вариант, который набирал больше всего голосов. Однако такой метод обладал существенным недостатком - все эксперты имели одинаковое право голоса, будучи при этом неравнозначными по качеству распознавания.

Выход был найден в объединении экспертных систем и нейронных сетей. В OCR-систему внедряли множество узкоспециализированных экспертов, каждый из которых при идентификации символов выдвигал свою гипотезу об интерпретации рассматриваемой буквы. Все гипотезы поступали к "суперэксперту", который тщательно анализировал их, последовательно перебирал каждый из вариантов, пока не находилось наиболее приемлемое решение.

Как улучшить качество работы OCR-систем

Решающее влияние на успешность распознавания оказывает качество исходного изображения. При сканировании исходного документа рекомендуется установить разрешение не менее 300 dpi для текста, набранного шрифтом размером 10-12 пунктов, и 400 dpi - для более мелкого. Наиболее универсальным является получение изображений в формате 256 градаций серого цвета. Полноцветное сканирование можно применять при необходимости переноса цветных графических изображений в конечном документе. Двухцветный черно-белый формат, который значительно уменьшает размер конечного файла на диске, рекомендуется применять только для качественно отпечатанного черного текста на белом фоне.

Чтобы отсканированное изображение получилось резким, необходимо тщательно прижимать лист документа к планшетному стеклу сканера. В случае сканирования книги это не всегда оказывается возможным - в месте переплета страницы изгибаются и отсканированный текст в этой области получается нечетким. Возможное решение проблемы - расшить книгу и отсканировать каждую страницу отдельно.

Если документ уже преобразован в растровое изображение, можно попытаться улучшить качество распознавания путем изменения настроек самой OCR-системы. Например, некоторые из них позволяют непосредственно указать источник печати в исходном документе (матричный принтер, печатная машинка, факс, лазерный принтер). Кроме того, наиболее продвинутые системы, такие как FineReader, имеют функцию "очистки от мусора" путем удаления лишних точек на изображении. Однако этой командой следует пользоваться осторожно, так как в некоторых случаях она сметает вместе с "мусором" все точки и запятые, присутствующие в тексте.

Также в большинстве OCR-систем есть возможность ручной разметки текста. Это позволяет пользователю самостоятельно отметить текстовые блоки, картинки, разметить таблицы и т. д. Все вышеописанные действия помогают значительно сократить время на конечную доводку распознанного текста.

Чей голос сильнее?

Предположим, что OCR-система состоит всего из трех экспертов. Первый предполагает, что символ, указанный на рисунке, - это буква З, оценивая вероятность этого в 90 %. Второй допускает, что это цифра 3 с вероятностным уровнем 30 %. Третий эксперт с вероятностью в 20 % предполагает, что это буква "З" или с вероятностью 50 %, что это лишь часть другого символа. Пока что возможны три варианта: "З", "3" и часть другого символа. Чтобы выбрать подходящее решение, суперэксперт берет в расчет качество и специализацию каждого из рядовых экспертов. Например, первый оказывается прав в 95 случаях из 100, а второй - только в 85. Первый эксперт специализируется на качественных контрастных изображениях, второй - на "загрязненных", третий - на изображениях с сильно искаженными начертаниями букв в тексте. Рассматриваемый символ, по всей видимости, относится именно к третьему типу.

Для принятия решения суперэксперт рассматривает более широкую часть слова. Как известно, OCR-система разбивает общее растровое изображение на сегменты, представляющие отдельные символы. Это очень важный этап - от правильности сегментации зависит качество распознавания текста. Как видно на рисунке, теперь возможны три варианта разбивки, исходя из чего можно предположить, что это цифры "1", "13" или буква "В".

Чтобы найти единственный правильный вариант, суперэксперт рассматривает все слово целиком, перебирая и анализируя все возможные комбинации, проверяя результаты по орфографическому словарю. Таких комбинаций может быть перебрано несколько сотен и даже тысяч, пока не будет найдено правильное решение - слово СВЯЗИ.

Прогнозы и перспективы

Современные OCR-системы могут распознавать тексты, набранные различным шрифтом, на более чем 100 языках, обеспечивая практически стопроцентную правильность распознавания для высококачественных исходных изображений. Значительный прогресс наблюдается и при распознавании некачественных текстов, например, факс-сообщений и т. д. Хотя здесь еще не все совершенно, погрешность при распознавании может достигать 20 % и более. Проблема в том, что программы распознавания символов пока не могут в полной мере использовать алгоритм, применяемый человеком при чтении. Как известно, человек определяет буквы, воспринимает слова, связывает их в синтаксические конструкции и понимает смысл предложения. OCR-системы же пока выполняют только орфографическую проверку отдельных символов и слов.

Вышеописанная проблема отразилась на практически полном отсутствии программ для распознавания рукописного текста. Пока что есть лишь системы, способные качественно распознавать рукопечатный текст (см. ЧИП 4/2002, с. 56).

При создании приложений, способных распознавать рукописный текст, разработчикам придется решить множество вопросов. Во-первых, почерк каждого человека по-своему уникален. Во-вторых, из-за отсутствия пробелов между буквами одного слова весьма сложно выполнить правильную сегментацию символов. В-третьих, в рукописи человек часто смазывает буквы, делает помарки и т. д. Все эти задачи можно решить только при максимальном приближении программы к способу восприятия текста человеком. Решение таких проблем потребует немалых усилий со стороны разработчиков, поэтому значительного прорыва в данной области можно ожидать лишь через несколько лет.

В этой статье мы протестировали пять OCR-систем, способных распознавать тексты на русском, украинском и английском языках. К сожалению, программа TextBridge Classic, входящая в пакет PaperPort Deluxe 7.0, который был предоставлен для тестирования, не поддерживала распознавание букв кириллицы, поэтому протестировать ее на равных условиях с остальными участниками не удалось.

Лучший из лучших

Пакет для оптического распознавания символов FineReader 6.0 от ABBYY Software Hause отличается интуитивно-понятным интерфейсом и мощными возможностями оптического распознавания символов. Для распознавания можно выбрать любой из 177 языков, при необходимости можно также воспользоваться комбинацией из нескольких языков, например русский-английский, украинский-английский. Это весьма важная функция, ведь в текстах на компьютерную тематику обязательно присутствуют англоязычные термины.

FineReader 6.0 обладает мощными возможностями по предварительной обработке изображений, например, сканированный образ можно повернуть на любой угол. Впрочем, ориентацию страницы программа может выполнить автоматически, и вмешательство пользователя не потребуется. Так, пакет может определить, что строки текста отсканированы вертикально или вообще "вверх дном" и самостоятельно повернет изображение на нужный угол. Если же текст отсканирован с небольшим наклоном, то проблемы тоже не возникнет.

Специальная функция поможет очистить изображение от мусора, что в значительной степени повышает качество распознавания. Если документ содержит сложную структуру, пакет предоставляет инструменты для разметки. Например, можно отдельно указать блок с рисунком, блок таблиц, причем таблицу можно точно поделить на столбцы и строки. По сравнению с предыдущей версией увеличилось число поддерживаемых входных и выходных форматов. Так, FineReader 6.0 теперь поддерживает формат PDF. К сожалению, продукт все еще не работает с файлами, сжатыми по алгоритму LZW, который часто используется для изображений TIFF-формата. Продукт полностью совместим с последними операционными системами MS Windows XP и Windows 2000.

Старшее поколение

Несмотря на выход FineReader 6.0, предыдущая - пятая - версия продукта все еще поставляется. Однако доступен только вариант Professional, конфигурация FineReader 5.0 Office уже не продается. Мощные функциональные возможности и великолепное качество распознавания послужили причиной широкой популярности FineReader 5.0 как в СНГ, так и в мире в целом. По многим параметрам FineReader 5.0 наступает на пятки шестой версии. Так, предыдущий выпуск программы поддерживает 176 языков, имеет встроенную поддержку орфографии для 30 из них. Продукт способен распознавать 6 языков программирования, что позволяет переводить в цифровую форму листинги исходного кода программ.

Подобно FineReader 6.0, данная версия программы не работает с графическими изображениями формата TIFF, скомпрессированными по методу LZW. Кроме того, пятый выпуск не может открывать файлы формата PDF.

В FineReader 5.0 используется контурный классификатор собственной разработки, который позволяет качественно распознавать декоративные шрифты. А к слабым местам обеих версий FineReader, равно как и других OCR-систем, можно отнести низкое качество распознавания текстов с белыми буквами на светлом фоне.

Мал, да удал

Система оптического распознавания символов от бельгийских разработчиков Readiris 7.0 Pro потребляет сравнительно мало вычислительных ресурсов и места на жестком диске и при этом позволяет распознавать 93 языка. При первом запуске системы загружается мастер распознавания OCR-wizard, облегчающий пользователю первые сеансы работы с программой.

Седьмая версия, идеально работающая под Windows 9x, сбоит в Windows XP. Так, на этапе проверки и обучения перестает работать переключение языковых раскладок на клавиатуре.

К достоинствам Readiris 7.0 можно отнести распознавание текстов, содержащих слова нескольких языков, например - английский и русский, украинский и русский. Также, в отличие от обеих версий FineReader, программа Readiris 7.0 способна обрабатывать изображения формата TIFF, скомпрессированных по методу LZW.

Распознает и читает вслух

В 1996 году компания ScanSoft выкупила предприятие Recognita, производителя одноименной OCR-системы. Результатом стал мощный толчок в развитии собственной программы для распознавания символов OmniPage. Последняя версия OmniPage Pro 11 выполнена на основе нового интеллектуального ядра, разработанного на базе интеграции нейронных сетей и экспертной системы. Программа способна распознавать тексты на 114 языках, причем каждый из них обеспечивается орфографическим словарем.

Продукт показал неплохие результаты при распознавании контрастных текстов на белом фоне, особенно на английском языке. Намного хуже OmniPage Pro 11 справлялся с некачественными, "грязными" исходными изображениями. Так, в процессе тестирования программа не смогла идентифицировать ни единого символа при выполнении наиболее сложного задания - распознавании низкокачественной копии факсимильного сообщения на русском и английском языках.

Интересной особенностью OmniPage Pro 11 является способность читать вслух распознанный текст, правда пока это возможно только для английского языка. Достоинством программы также можно назвать способность автоматически определять ориентацию строк исходного текста, наличие мастера распознавания, пакетной обработки и планировщика. Последний позволяет выполнять процесс сканирования и распознавания по запланированному графику без участия пользователя.

К недостатку OmniPage Pro 11 можно также отнести некачественный экспорт результатов при условии сохранения исходного форматирования. OCR-система, как правило, неправильно идентифицировала тип и размер шрифта исходной строки, кроме того, в одном слове могли уживаться буквы разных шрифтов и различного размера.

Старый знакомый

Программа CuneiForm от компании Cognitive Technologies в свое время была одним из главных конкурентов FineReader на рынке СНГ. К сожалению, в последние два года компания не выпустила ни единой новой версии продукта, поэтому тестировать пришлось относительно старую CuneiForm 2000 Pro. Работа с продуктом показала, что несмотря на поддержку нескольких алгоритмов распознавания и неплохие функциональные параметры, CuneiForm 2000 Pro все более отстает от современных OCR-систем.

Среди достоинств CuneiForm 2000 Pro можно отметить экспорт распознанного текста с сохранением исходного форматирования объектов. Кроме того, продукт обладает удобным и наглядным интерфейсом.

А вот слабых сторон у программы больше, чем достоинств. Так, программа не поддерживает файлы форматов PDF и TIFF, скомпрессированные по методу LZW. В последнем случае система просто зависает, не выдавая никаких сообщений. Кроме того, CuneiForm 2000 Pro не определяет автоматически ориентацию строк текста, что требует ручного вмешательства пользователя. Еще одним недостатком программы является отсутствие возможности выбора нескольких языков при распознавании, исключение составляет только языковая пара русский-английский. По указанной причине программа показала низкие результаты при распознавании текстов, содержащих украинские и английские слова одновременно.

Вне конкурса

Помимо продукта OmniPage Pro 11 компания ScanSoft выпускает альтернативную систему распознавания TextBridge. В силу вышеуказанных причин эту OCR-систему пришлось тестировать на англоязычных текстах.

Для этого языка программа показала неплохие результаты. Так, при распознавании книжного текста погрешность была ниже одного процента, однако при распознавании факсимильных сообщений и газетного материала количество неверно распознанных символов было заметно больше и достигало 3-5 %.

Прямо в яблочко: OCR-системы для Apple

Платформа Apple, бывшая одним из главных конкурентов IBM-совместимых ПК в 80-х годах, довольно популярна и в наши дни, особенно в издательской деятельности, а также среди дизайнеров и художников-графиков. Поскольку в вышеупомянутых профессиональных сферах может возникнуть задача распознавания текстов, мы решили протестировать одну из OCR-систем для этой платформы - FineReader Pro 5.0 для Mac.

Первоначальное предположение, что данная программа окажется полной копией FineReader Pro 5.0 для платформы ПК, впоследствии не подтвердилось. По функциональным возможностям и качеству распознавания FineReader Pro 5.0 для Mac несколько отличается от версии для ПК. Так, в программе отсутствует статистика распознавания, а интерфейс в целом менее удобен. Одной из причин этого является специфика платформы Apple iMac, в которой используется однокнопочная мышь, а также особенности оконной структуры операционной системы Mac OS 9.2.

При тестировании распознавания текстов за основу брались те же исходные изображения, что и для платформы ПК. Однако качество распознавания FineReader Pro 5.0 для Mac оказалось несколько ниже, чем у его собрата для ПК. Например, при распознавании англоязычного книжного текста количество неправильно распознанных символов составило свыше 20, для украино- и русскоязычных материалов статистика распознавания также оказалась не такой хорошей, как в той же версии FineReader для платформы ПК. Менее качественно "яблочная" версия FineReader распознавала также и журнальные страницы. С другой стороны, качество распознавания газетного текста было на высоте - число неправильно распознанных символов составило всего несколько символов. По остальным функциональным характеристикам программа FineReader Pro 5.0 для Mac не уступает своему аналогу для ПК.

Редакция благодарит компанию WEGA Distribution за предоставленную платформу Apple iMac для тестирования FineReader Pro 5.0 для Mac

Почему ЧИП рекомендует FineReader 6

Уже второй раз OCR-системы торговой марки FineReader пробеждают в тестировании ЧИПа. FineReader 6.0 превзошел все остальные продукты по точности распознавания, кроме того, он обладает наибольшей функциональностью. Наличие интуитивно понятного русскоязычного интерфейса, подробная документация и мастера распознавания позволяют даже новичку приступить к работе немедленно. Способность выводить распознанный текст в виде, очень близком к исходному экземпляру, разрешают с успехом использовать этот продукт для распознавания документов со сложной многоколоночной версткой.

Цена: 4212.00 руб
Купить программу...
 

Источник: http://chip.ua/articles/

 


Copyright © "Internet Zone"info@izcity.com 
Копирование и использование данных материалов разрешается только в случае указания на журнал "Internet Zone", как на источник получения информации. При этом во всех ссылках обязательно явное указание адреса вэб-сайта http://www.izcity.com/.
При наличии у копируемого материала авторов и источника информации - их также нужно указывать, наряду со ссылкой на нас. Подробнее условия использования материалов смотрите здесь.