Машинный перевод
Машинный перевод - перевод с одного естественного языка на другой с использованием специальной компьютерной системы, а также область исследований компьютерной лингвистики, связанных. с построением подобных систем. Различают следующие методы машинного перевода:
- прямой перевод - метод, при котором исходный текст на языке-источнике преобразуется в текст на целевом языке в результате нескольких этапов замен слов (словосочетаний) исходного языка на его словарные эквиваленты на выходном языке; такой метод всегда привязан к паре конкретных языков;
- перевод с использованием трансфера - некоторого “промежуточного” представления, приспособленного к структуре предложения выходного языка; в таких системах существуют отдельные модули для анализа исходного текста и синтеза выходного текста;
- перевод с использованием языка посредника - в таких системах между структурами входного и выходного языков находится один или несколько промежуточных языков; в качестве языка-посредника могут выступать как семантико-синтаксическое глубинное представление предложения, так и языки глубинного семантического представления, приближающиеся к концептуальному представлению в категориях теории знаний. Последний подход послужил толчком к развитию отдельного направления - созданию “универсального семантического языка”, например, Универсального словаря концептов (UDC), также именуемого словарём UNL. Он является частью более широкого международного проекта по разработке семантического языка-посредника UNL (Universal Networking Language). Многие системы требуют предредактированием (когда человек устраняет возможные неоднозначные прочтения, упрощает и размечает текст), постредактирования (требует дополнительной редакции челокека), а также иногда интерредактирование.
- В настоящее время широкое применение получили системы так назывемого автоматизированного перевода. При нем программа просто помогает человеку переводить тексты.
История машинного перевода
Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы, этот эксперимент получил широкий резонанс: начались исследования в других странах; в том же 1954 году и в СССР. К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:
- MARK (в Департаменте иностранной техники ВВС США);
- GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).
Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме. В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).
Статистический машинный перевод
Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.
Выходные данные:
- Просмотров: 1988
- Комментариев: 0
- Опубликовано: 08.11.2011
- Версий: 9 , текущая: 9
- Статус: экспертная
- Рейтинг: 100.0
Автор:
Толдова Светлана Юрьевна
- старший научный сотрудник; кандидат филологических наук
Соавторы:
Ссылки отсюда
Персоны:
Ссылки сюда
Категории: