изменение структуры
словарных баз: в предыдущих
версиях она была достаточно
жесткой и тем самым
ограничивала объем хранимой
грамматической информации. В
версии XT это ограничение снято -
открытая архитектура словарных
баз данных позволила уже
разработать и разрабатывать в
будущем более сложные
алгоритмы, использующие эту
информацию;
в связи с
этим пользователи получили
дополнительные возможности
работы со словарями системы;
большее
внимание было уделено синтезу
русского языка, т.е. не только
правильному анализу исходных
структур, но и по возможности
более точной передаче их при
переводе (что требовало бы
меньшей корректировки при пост-редактировании
- и в целом улучшало бы
понимание перевода);
появилась
возможность интерактивного
управления переводом (на уровне
синтеза);
Генеральный
словарь системы увеличился на 35
000 единиц.
Оригинальный
английский текст |
Перевод PROMT XT Office |
Перевод PROMT 2000 |
The graduate programs in Language
Technologies draw on
CMU's longstanding accomplishments
in natural language processing. The curricula of the graduate
programs are based on a
set of approved courses that cover linguistic and
statistical approaches, basics of computer science,
and in-depth coverage of applied areas
of language technology. Machine
translation, information retrieval, and speech
recognition are strongly emphasized.
|
Программы специализации
по Лингвистическим
технологиям привлекают
давнишние достижения университета
Карнеги-Меллона в
обработке естественного
языка. Учебные планы программ
специализации базируются
на наборе одобренных курсов,
которые охватывают
лингвистические и
статистические подходы,
основы информатики, и глубокий
охват прикладных областей лингвистической
технологии. Машинному
переводу, информационному
поиску, и распознаванию
речи придают особое
значение. |
Программы дипломированного
специалиста в Технологиях
Языка влекут давнишние
достижения CMU'S в
обработке естественного
языка. Учебные планы программ
дипломированного
специалиста основаны на
наборе одобренных курсов,
которые охватывают
лингвистические и
статистические подходы,
основы информатики, и глубокого
охвата прикладных областей
технологии языка. Машинный
перевод, информационный
поиск, и признание речи настоятельно
подчеркнуты. |
Тема |
Исходный текст |
Перевод PROMT XT Office |
Перевод PROMT 2000 |
Комментарий |
1. Разрывные
обороты
|
1) That would be enough to drive him bananas.
2) I dropped him a line |
1) Это было бы достаточно,
чтобы свести его с ума
2) Я написал ему |
1) Это было бы достаточно,
чтобы вести его бананы.
2) Я понизил его линия |
Реализация
технологии обработки «разрывных
оборотов» (глагольных
сочетаний с варьирующейся
вставкой) предоставляет
возможность корректного
перевода устойчивых
фразеологизмов. |
2. Изменение
перевода глагола в
зависимости от объекта
|
1) He made a great impression upon me.
2) I don't entertain any hope of
publication. |
1) Он произвел большое
впечатление на меня.
2) Я не лелею никакой
надежды на публикацию |
1) Он сделал большое
впечатление на меня.
2) Я не развлекаю никакую
надежду относительно
публикации. |
Развитие
семантических алгоритмов
стало тем направлением,
движение по которому
обеспечивает значительное
улучшение качества перевода
и придает тексту перевода
большую осмысленность. |
3. Алгоритмы,
анализирующие ing-форму
|
1) I accuse you of being the greatest liar on
earth!
2) This was the result of his vowing not
to drink today. |
1) Я обвиняю Вас в том, что
Вы самый большой лгун на
земле!
2) Это было результатом
того, что он клялся не пить
сегодня |
1). Я обвиняю Вас в
являющийся самым большим
лгуном на земле!
2) Это было результат его
клянущееся, чтобы не пить
сегодня |
Обработка
форм на -ing - одна из
сложнейших проблем не только
при машинном, но и при “человеческом”
переводе, так как здесь
особенно хорошо видна
асимметрия языков. |
4. Алгоритмы,
обрабатывающие пассивные
конструкции
|
1) Christ was believed in throughout the
world.
2) Heavy bombing was also reported
near the city. |
1) В Христа верили
во всем мире.
2) О тяжелой
бомбежке также сообщали около
города. |
1). Христос верил
в во всем мире.
2)Тяжело бомбежка
была также сообщена
около города. |
При переводе
пассивных конструкций
проблема также состоит в
асимметрии языков - поэтому
для адекватного перевода
необходим механизм
трансформаций. |
5. Новые
алгоритмы по обработке
временных конструкции/
Конструкции с цифрами/Имен
|
1) By mid September, Russia and Australia
will be ready to sign a contract.
2) Stocks had been 13 per cent lower at
midday
3) I am particularly interested in the stories Kipling
wrote about the Punjab. |
1) К середине
сентября, Россия и Австралия
будут готовы подписать
контракт.
2) Акции были на 13
процентов ниже в полдень 3) Я
особенно интересуюсь
историями, которые Киплинг
написал о Пенджабе |
1) Серединой
сентября, Россия и Австралия
будут готовы подписать
контракт.
2). Акции были 13
процентов ниже в полдень 3) Я
особенно заинтересован
историями Kipling, написал о
Пенджабе |
Адекватная
передача временных
конструкций, конструкций с
использованием цифр и
обработка всевозможных имен
собственных особенно важно
для понимания текста. |
6. Улучшение
обработки грамматических
омонимов
|
1) Attempts to bomb or burn synagogues have
also been reported in Moscow and Rostov-on-Don. |
1) О попытках
бомбить или жечь синагоги
также сообщили в Москве и
Ростове-на-Дону |
1). Пытается бомбить
или гореть, синагоги также
были сообщены в Москве и
Ростове-на-Дону. |
Английский
язык характеризуется большим
количеством совпадающих по
написанию слов, относящихся к
различным частям речи.
Правильное определение части
речи для таких омографов –
одна из главных задач для
всех систем МП. |