|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Опознание без понятых |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Для быстрого получения электронных копий бумажных документов без профессиональной программы распознавания текста не обойтись. Но прежде, чем ее использовать, нужно знать, какие же характеристики распознавания должны учитываться? При расширяющемся распространении персональных компьютеров работа с различными документами ведется в основном в электронном виде. Но так как существуют и бумажные документы, то их необходимо переводить в электронную форму, чтобы в дальнейшем использовать систему электронного документооборота или, в крайнем случае, получить возможность обработки на компьютере. Чтобы реализовать такой перевод, необходимо выполнить сканирование бумажных документов и распознавать их содержимое с помощью специальной программы, называемой системой оптического распознавания символов (Optical Character Recognition - OCR). Принцип работы OCR-системы Большинству программ распознавания приходится работать с изображением документов, которое получено через факс-модем или сканер. С точки зрения действий над изображением, OCR-система должна разбить страницу на блоки, представляющие собой текстовое содержимое, графику, таблицы и другие элементы. Понятно, что наиболее сложный и трудоемкий процесс распознавания связан с текстом, так как при его идентификации нужно учитывать особенности выравнивания текста, наличия нескольких колонок и другие элементы форматирования. Cобственно процесс распознавания изображения документа начинается с обнаружения текста, который представляет собой набор элементарных связанных областей (букв), имеющих приблизительно одинаковый размер и располагающихся на плоскости вдоль параллельных прямых. После распознавания текстового блока он разбивается на строки. Это не такая простая задача, так как на практике неизбежно имеет место перекос изображения страницы. Даже небольшой наклон приводит к тому, что левый край текущей строки окажется ниже правого края следующей строки, особенно при маленьком межстрочном интервале. В связи с этим возникает задача, к какой строке из двух отнести данный элементарный фрагмент изображения - связанную область. Следует отметить, что связанная область - это не обязательно буква. Например, i и j состоят из двух элементарных фрагментов, кроме этого, каждая буква может оказаться разбитой на несколько элементарных областей в результате дефектов печати и сканирования. То есть, если где-то между двумя строками оказалась отдельная связанная область, это может быть оторвавшаяся часть буквы верхней строки, или точка над i, или часть буквы нижней строки.
После распознавания строк производится их разбиение на слова. На первый взгляд, достаточно проанализировать расстояние между соседними символами (связанными областями) в строке, выбрать пороговую величину, и если расстояние между соседними символами превышает это значение, то считать, что в этом месте пробел. Однако на практике имеют место и такие ошибки, как "слипание" разных слов и разрыв одного слова (особенно, если в строке присутствует слово с разреженным интервалом между символами). Поэтому очень часто отказываются от единого порогового значения для всей строки, и производится вычисление локального порога применительно к нескольким соседним символам. И наконец, необходимо решить задачу распознавания символов. Она осложняется тем, что из-за непропечаток символов и их слипания в слове невозможно найти отдельные символы без применения разных способов распознавания. Способы распознавания В настоящее время в OCR-системах используется несколько способов (алгоритмов) распознавания символов. В общем виде алгоритм распознавания - это последовательное выдвижение и проверка гипотез, причем порядок выдвижения последующих гипотез зависит от результатов проверки предыдущих. В алгоритмах распознавания OCR-систем каждая гипотеза имеет числовую оценку или результат операции сравнения. Обычно гипотезы выдвигаются последовательно, объединяются в список и сортируются на основе предварительной оценки. Окончательный выбор гипотезы делается в рамках контекста, с привлечением, возможно, дополнительных источников знания.
Наиболее простым способом является сравнение распознанных символов с имеющимися шаблонами. После распознавания нескольких слов OCR-система определяет основное используемое начертание и ищет соответствующие пары символов только с этим начертанием. В некоторых случаях применяются численные значения частей символа (пропорции), чтобы определить новый шрифт. Это может улучшать эффективность распознавания для других стилей печати, например курсивного или жирного начертания слова, найденного на странице. В чистом виде шаблонное описание может применяться только для распознавания печатных символов. В середине 70-х годов появился структурный подход к распознаванию - анализ признаков каждого символа осуществляется без сравнения с записанным изображением шрифта. Чтобы быть универсальным, алгоритм распознавания не должен настраиваться на индивидуальное начертание, а в его основе должен лежать процесс нахождения общих специфических особенностей символов. При структурном подходе в изображении символов ведется поиск лишь определенных форм округлостей, угловых и линейных соотношений, пропорций между продольными и поперечными линиями, а также пробелов. Поскольку эти геометрические особенности символов сохраняются в подавляющем большинстве типов шрифтов, то этот способ пригоден для идентификации всех типов шрифтов, а не только некоторых. Поэтому этот способ назван омни-шрифтовым (всешрифтовым).
Использующие его OCR-программы содержат разные экспертные системы, которые в действительности являются только алгоритмами идентификации определенного количества различных символов: верхнего и нижнего регистра, записи чисел и символов пунктуации. Каждая из этих экспертных систем ищет особенности начертаний типа "островов", "полуостровов", точек, прямых и дуг. Экспертные системы также рассматривают горизонтальные и вертикальные проекции оттисков буквы и обращают внимание на основные особенности в созданных кривых, подсчитывая в них число темных точек. Кроме того, при реализации структурного способа распознавания OCR-систему можно обучить способностям распознавания: неправильно определенные символы исправляются пользователем и автоматически заносятся во встроенный словарь, а программа учитывает приобретенные знания в будущих процессах распознавания. Такой способ особенно актуален при распознавании рукописного текста. И все же, несмотря на возможности обучения и омни-шрифтовость, OCR-программы справляются не со всеми особенностями типографской печати. Поэтому существуют и способы распознавания, которые разработаны на основе аналогии с человеческим мозгом, принцип функционирования которого базируется на нейронных сетях. Как известно, в нейронных сетях обработка информации происходит в соответствии с законами нечеткой логики.
Эта логика учитывает тот факт, что в размышлениях используются такие вербальные понятия, как "довольно", "почти" или "значительно", а не конкретные числовые значения. Результаты исследования "экспертов" низшего уровня, применяемых при анализе признаков, сначала преобразуются в нечеткие, так называемые лингвистические переменные, над которыми и выполняются дальнейшие операции. Точность определения символа можно представить в виде функции принадлежности, изменяющейся в пределах от 0 до 1. Если несколько таких нечетких величин, которые могут быть получены из различных экспертных проверок, связать между собой операторами логики, то вероятность правильного заключения повышается. И наконец, если программа распознавания должна приближаться к качеству восприятия текста человеком, то, скорее всего, она может успешно использовать алгоритм, применяемый человеком при чтении. Как известно, читая предложение, человек узнает буквы, воспринимает слова, связывает их в синтаксические конструкции и понимает смысл предложения. Конечно, OCR-системы пока так не работают, но после распознавания отдельных символов и целых слов они выполняют орфографическую проверку, тем самым повышая точность распознавания. Распознавание символов Основное назначение OCR-систем состоит в анализе растровой информации (отсканированного символа) и присвоении точечному изображению соответствующего символа. После завершения процесса распознавания OCR-системы должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику (нераспознаваемые картинки), штрих-коды и т. д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF. Работа с OCR-системами, как правило, не вызывает особых затруднений. Большинство таких систем имеет простейший автоматический режим "сканируй и распознавай" (Scan&Read), который реализуется после щелчка на соответствующей кнопке. Кроме того, они поддерживают и режим распознавания изображений из файлов. Однако для того, чтобы достигнуть лучших из возможных для данной системы результатов, желательно (а нередко и обязательно), предварительно вручную настроить ее на конкретный вид текста, а точнее, на способ и качество начертаний букв и других символов.
Очень важным при работе с OCR-системой является удобство выбора языка распознавания и типа распознаваемого материала (пишущая машинка, факс, матричный принтер, газета и т. д.), а также интуитивная понятность пользовательского интерфейса. При распознавании текстов, в которых использовано несколько языков, эффективность распознавания зависит от умения OCR-системы формировать группы языков. В то же время в некоторых системах уже имеются комбинации для наиболее часто используемых языков, например, русский-английский. Отчет о результатах распознавания Распознавая тексты, пользователю желательно иметь статистику (отчет) о результатах распознавания. Но при этом важно понимать, какие данные предоставляют OCR-системы, если они поддерживают такую возможность. По окончании процесса распознавания предоставляется информация о неуверенно распознанных и нераспознанных словах и символах, а также может вычисляться точность распознавания (в процентах). В этом случае важно помнить о том, что нераспознанных или неуверенно распознанных символов и слов на странице может быть несколько, а точность распознавания определяется только для неопознанных символов. Те высокие значения точности распознавания (более 99 %), которые можно увидеть в окне статистики некоторых OCR-систем, следует подвергать сомнению, так как эти цифры несколько завышены. Нужно учитывать, что даже когда OCR-система сообщает, что все символы распознаны, а есть только неуверенно распознанные слова, все равно предстоит дополнительная работа по проверке этих слов. Некоторые
особенности При распознавании документов очень важно, чтобы OCR-система могла обучаться на неуверенно распознаваемых и нераспознаваемых символах. Это свойство особенно актуально при распознавании большого количества страниц одного документа - обучив систему один раз, можно ускорить процесс распознавания. Причем для конкретных документов можно производить обучение по сочетанию букв (лигатурам).
Как бы эффективны ни были алгоритмы распознавания, используемые в OCR-системе, при низком качестве изображения избежать ошибок практически невозможно. Поэтому необходима проверка орфографии распознанных слов. Для коррекции отдельных ошибок следует организовать взаимодействие системы проверки орфографии и OCR-системы таким образом, чтобы обеспечить подбор вариантов символов, которые вероятнее всего были распознаны с ошибкой, и таким образом добиться орфографической корректности слова. Как правило, OCR-системы поддерживают большое количество языков, а вот поддержка орфографии обеспечивается лишь для их части. При этом важно, чтобы имелась возможность пополнения словарей вручную пользователем. Говоря о скорости распознавания, можно отметить тот факт, что современные ПК (с процессорами Pentium и Celeron c тактовой частотой 500-800 МГц и оперативной памятью 64 МБ) выполняют распознавание страницы формата А4 с текстовым наполнением за 1-3 сек, а при наличии графических объектов - 20-25 сек. Поэтому для эффективной работы по распознаванию важнее все же точность, так как выигрыш по времени будет "с лихвой проглочен" временными затратами на устранение ошибок распознавания. На этом теоретические основы алгоритмов распознавания и их воплощения в конкретные программные решения заканчиваются. Далее будут представлены результаты тестирования популярных OCR-систем, которые уже на практике показывают свое умение распознавать тексты. Сергей Зелинский FineReader 5 Office
Удобная и мощная программа, обеспечивающая высокую точность распознавания любы текстов на белом фоне Проверка результата распознавания и воссоздание оформления исходного документа, пожалуй, наилучшим образом решены в FineReader 5, показавшей лучшие результаты в четырех из пяти номинаций тестирования. Данная OCR-система поддерживает наибольшее количество языков (176) и имеет встроенную проверку орфографии для 30 из них. Это единственная программа, которая поддерживает распознавание языков программирования. В FineReader 5 используется структурно-дифференциальный классификатор, который работает на близких парах символов, а новый контурный классификатор улучшает распознавание декоративных шрифтов. Также усовершенствовано использование контекста - в сравнении участвует значительно больше слов, чем раньше, и в результате этого улучшилось распознавание текстов плохого качества печати. Кроме повышения точности распознавания, улучшено и качество анализа документа, причем процессы анализа документа и его распознавания объединены, что достаточно революционно. FineReader 4
Professional
Достаточно эффективная OCR-система, которая уже не поставляется разработчиком Успех пятой версии RineReader, победительницы этого теста, был заложен в предыдущей версии, которая была первой из OCR-систем, имеющих высокую точность распознавания документов плохой печати (распечатки с матричных принтеров, пишущих машинок, ксерокопии, факсимильные сообщения). Простота работы и мощные возможности по распознаванию сложных документов с таблицами, цветными картинками в любой ориентации, которые выполняются с помощью мастера Scan&Read, делают эту программу простым инструментом в руках даже начинающих пользователей.FineReader 4 распознает документы на 53 языках, а также многоязычные документы. С ней поставляется полнофункциональная система коррекции орфографии ABBYY Morphology для 21 языка, которая уменьшает время на поиск и исправление ошибок. Поддерживается режим фонового распознавания, при котором распознавание и редактирование происходит одновременно, что позволяет максимально эффективно использовать ресурсы процессора. Recognita Plus 5
Мощная система распознавания с удобной системой статистики и не совсем продуманным интерфейсом пользователя Система Recognita Plus 5 достаточно хорошо распознает документы с текстами, напечатанными на темно-серых или цветных фонах. Поддерживает достаточно большое количество языков (114), в том числе и все кириллические. Recognita Plus 5 анализирует расположение каждой страницы и может сохранять первоначальное форматирование, однако текст может быть отформатирован и по желанию пользователя. Обеспечивает достаточно точное распознавание таблиц. Содержит полезные кнопки панели инструментов и простые меню, но в то же время интерфейс пользователя отличается от большинства существующих OCR-систем и несколько неудобен. Результаты распознавания могут быть удобно проверены и отредактированы непосредственно в самой программе. Интеллектуальное средство проверки позволяет непрерывно сравнивать результаты распознавания с первоначальным исходным изображением, хотя этот процесс скрыт от пользователя. Достаточно хорошо распознает документы на украинском языке. CuneIForm 2000 Master
Программа, поддерживающая несколько алгоритмов распознавания, но в то же время требующая некоторой доработки В этой версии OCR-системы, выпущенной около полутора лет назад, в качестве алгоритмического обеспечения использован не один, а целая совокупность алгоритмов. Применено принципиально новое ядро распознавания, внутри которого работает экспертная система, позволяющая проводить анализ оценок альтернатив, получаемых на выходе от каждого алгоритма, и выбирать оптимальный вариант. Одной из ее особенностей является высокая точность воссоздания формы исходного документа, включая таблицы и иллюстрации. Встроенные мастера позволяют быстро получить необходимый результат. Имеющийся текстовый редактор позволяет редактировать документы на 15 языках, на которых можно выполнять распознавание. Но, несмотря на все эти нововведения, эта OCR-система показала не очень высокие результаты в точности распознавания. Также есть некоторые неудобства в настройках и выборе режимов работы, отсутствует возможность создания группы языков для многоязычных документов и проверка орфографии. TextBridge 9 Pro
Business Edition
Достаточно оригинальная и высокопроизводительная система для распознавания англоязычных текстов Данная программа наилучшие результаты показывает при распознавании текстов на английском языке, чего нельзя сказать о русском и украинском. Для этих целей имеется специальная кнопка на панели инструментов, запускающая процедуру распознавания документа. Встроенный планировщик позволяет составлять расписание работ по сканированию и обработке документов. TextBridge 9 Pro достаточно хорошо распознает тексты на фоне и позволяет редактировать таблицы в процессе распознавания документов. Имеющийся агент обучающей программы (маленькая летающая сова) предоставляет в распоряжение пользователя интерактивную систему обучения, которая, например, показывает, как выполнять различные действия по сканированию, распознаванию и сохранению документов. После этого пользователь может выполнить те же действия. TextBridge 9 Pro Business Edition может сохранять распознанные документы в форматах PDF и HTML и при этом полностью будет сохранена разметка страницы.
Источник: CHIP, http://www.chip.com.ua
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Copyright © "Internet Zone", info@izcity.com | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Копирование и использование данных материалов разрешается только в случае указания на журнал "Internet Zone", как на источник получения информации. При этом во всех ссылках обязательно явное указание адреса вэб-сайта http://www.izcity.com/. При наличии у копируемого материала авторов и источника информации - их также нужно указывать, наряду со ссылкой на нас. |