Зарегистрироваться

Машинный перевод

Категории Прикладная лингвистика | Под редакцией сообщества: Филология

Машинный перевод - перевод с одного естественного языка на другой с использованием специальной компьютерной системы, а также область исследований компьютерной лингвистики, связанных. с построением подобных систем. Различают следующие методы машинного перевода:  

  • прямой перевод - метод, при котором исходный текст на языке-источнике преобразуется в текст на целевом языке в результате нескольких этапов замен слов (словосочетаний) исходного языка на его словарные эквиваленты на выходном языке; такой метод всегда привязан к паре конкретных языков;
  • перевод с использованием трансфера - некоторого “промежуточного” представления, приспособленного к структуре предложения выходного языка; в таких системах существуют отдельные модули для анализа исходного текста и синтеза выходного текста;
  • перевод с использованием языка посредника - в таких системах между структурами входного и выходного языков находится один или несколько промежуточных языков; в качестве языка-посредника могут выступать как семантико-синтаксическое глубинное представление предложения, так и языки глубинного семантического представления, приближающиеся к концептуальному представлению в категориях теории знаний. Последний подход послужил толчком к развитию отдельного направления - созданию “универсального семантического языка”, например, Универсального словаря концептов (UDC), также именуемого словарём UNL. Он является частью более широкого международного проекта по разработке семантического языка-посредника UNL (Universal Networking Language). Многие системы требуют предредактированием (когда человек устраняет возможные неоднозначные прочтения, упрощает и размечает текст), постредактирования (требует дополнительной редакции челокека), а также иногда интерредактирование.
  • В настоящее время широкое применение получили системы так назывемого  автоматизированного перевода. При нем программа просто помогает человеку переводить тексты.

История машинного перевода

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы, этот эксперимент получил широкий резонанс: начались исследования в других странах; в том же 1954 году и в СССР. К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

  1. MARK (в Департаменте иностранной техники ВВС США);
  2. GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

 

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме. В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Статистический машинный перевод

Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Эта статья еще не написана, но вы можете сделать это.