| ||
ПослесканиеО "Шиве" и "шине" или как правильно работать с журналом. Сергей Голубицкий Выполняю данное две недели назад обещание и рассказываю о тестировании программы AfterScan. Как я писал в «Новом маркетинговом слове»: AfterScan возник из модуля проверки орфографии редактора Иероглиф, который вышел из-под пера Михаила Морозова. Напомню читателям о том, как этот модуль работал: если в процессе печатанья вы совершали ошибку, справа от курсора тут же выскакивал список со всеми возможными вариантами исправления, так что достаточно было просто выбрать клавишей стрелки нужный вариант и нажать Enter! С самого начала было ясно, что новый модуль орфографической проверки — довольно оригинальный ход в обстоятельствах (офисные приложения), которые, казалось, давно уже не оставляют никаких шансов для новаторства — так обстоятельно все вылизали и обскребли по сусекам редмондские умельцы. Однако никак нельзя было предположить, что Михаилу Морозову и Сергею Москалеву удастся развернуть эту курицу таким боком, что она начнет нести уж совсем неожиданные золотые яйца. Тем не менее, это факт: из небольшого модуля родилась программа, помеченная родимым пятном новаторства на сей раз уж по всему лбу. Так что неровен час и авторам AfterScan'а тоже вручат премию мира. Судите сами. AfterScan автоматизирует работу по обработке больших текстовых объемов, введенных как вручную, так и при помощи программ сканерного распознавания (OCR). Именно — обрабатывать, а не просто проверять орфографию, потому что алгоритмы AfterScan существенного отличаются от того, что делают традиционные спелл-чекеры. Как искренне верят авторы, AfterScan — это программа следующего поколения. Предполагается, что традиционный спелл-чекер находит ошибки в знакомых ему словах, тогда как AfterScan анализирует даже незнакомые ему конструкции. Установив AfterScan на своем компьютере, я с замиранием сердца прочитал в описании программы, что она «исправляет ошибки, основываясь на вероятностных и эмпирических знаниях о структуре языка и при этом придерживается принципа "не навреди"». Как только я это прочитал, так меня сразу холодный пот и прошиб: похоже — влип! Ничего более ужасного и представить себе нельзя: компьютерная программа будет сама за меня решать, что является ошибкой, а что нет! Вот они — благие намерения, которыми умостили сами знаете какую дорогу. Отступать было поздно, поэтому с опаской и оглядкой взялся за дело. Для начала решил испытать AfterScan не на группе файлов, а на одном, но заковыристом: индуистском трактате с множеством нерусских (однако — неанглийских!) слов. Все это — в формате HTML. Надо сказать, что AfterScan представлен в нескольких версиях: базовый Express, издательский вариант Professional, Antique для обработке старорусской орфографии и ее перевода в новое написание и WebMaster — пакетная обработка большого числа документов (например, целиком веб-сайтов). Я тестировал именно ВебМастер, способный автоматически обнаруживать HTML-таги и скрипты в тексте. После загрузки файла программа предлагает выбрать автоматический или интерактивный режим. «Гулять, так гулять!» — махнул я рукой и выбрал полный автомат. Шаманство запустилось и я едва успевал следить за тем, что творила программа: сначала AfterScan отыскал все URL, затем — математические символы и химические формулы, новые слова, сокращения и прочие чудаковатости текста. Затем AfterScan взялся за правку: удалил лишние (как ему казалось) символы, обработал знаки препинания, восстановил длинные тире, исправил переносы, скобки, русские и английские слова, составил список неопознанных слов и множественных вариантов. После всего этого перешел в очень интересный двухоконный режим: редактора и журнала исправлений. Безусловно, журнал исправлений — изюминка метода AfterScan. В одном месте собраны все изменения, самостоятельно произведенные программой, а также неопознанные слова, так называемые аномалии (как правило, такими «странностями» оказались отдельно стоящие буквы), новые слова и множественные варианты. Даже если бы новаторство AfterScan ограничилось журналом, этого бы за глаза хватило для похвалы: вместо того, чтобы тратить часы на перелистывание сотен страниц текста и поиск обнаруженных ошибок, теперь достаточно просто пройтись по списку журнала и внести ручные исправления прямо в нем. При этом текст в редакторе будет исправляться автоматически! Что можно сказать по поводу исправлений орфографии, произведенных AfterScan самовольно? Честно сказать: ожидал чего-то более страшного. На самом деле AfterScan произвел деликатную правку. Ясное дело — с ошибками, потому как слова подобрались уж очень специфические: ну разве можно винить программу за изменение «Сурьи» на «Суры», а «Шивы» на «шину»? Главное, что AfterScan не утаил свои проделки и вывел их в журнале, где легко и быстро я все вернул на свои места. В списке не узнанных слов вполне оправданно оказался «Аум», «Шабда», «Бриндавана» и тому подобные индийскости. Правда туда же попались и самые заурядные английские «claimed», «copyrights», «place» и «are». Полагаю, сбой возник из-за кодировок, с которыми в моем Windows XP чуть ли не каждый день творятся сущие чудеса. В окне самого редактора очень удобным показалась мне система цветных разметок: черным выделен весь нетронутый текст, темно-синим — исправления, для которых был найден единственно правильный вариант, голубым — исправления с множественными вариантами, зеленым — неизвестное слово, которое несколько раз повторялось в тексте, зелено-голубым — аббревиатуры, наконец, красным — неисправленные и неопознанные слова. Не менее удобна опция удаления и восстановления этих разметок выбором соответствующих опций в меню. Резюме: AfterScan — монстрюга. Особенно я это почувствовал, запустив пакетную обработку сотен документов смешанного типа — чистого текста и HTML. Конечно, после работы программы пришлось основательно поковыряться ручками, но сэкономленное время (кстати, указанное в отчете программы) исчисляется многими и многими часами. Источник - SoftТерра, http://www.softerra.ru
| ||
Copyright © "Internet Zone", http://www.izcity.com/, info@izcity.com |