Зарегистрироваться

Генерация текстов на Естественном Языке (ГЕЯ)

Категории Прикладная лингвистика | Под редакцией сообщества: Филология

Генерация текстов на Естественном Языке (ГЕЯ) – это область исследований в рамках направления Автоматическая Обработка Текстов (АОТ), изучающая вопросы автоматического порождения текстов на естественных языках (ЕЯ) из некоторого формального представления информации. Входным представлением таких систем могут быть, например, таблицы баз данных (БД), формальные спецификации программ, метеорологические карты. Создаваемые системами ГЕЯ тексты – это обычно типовые документы, такие как отчеты, разъяснения и справочная информация.

В настоящее время в Ассоциации по компьютерной лингвистике ACL действует группа по интересам, Special Interest Group on GENeration (SIGGEN), объединяющая ученых, занимающихся ГЕЯ. Раз в два года под эгидой SIGGEN проводятся научные конференции INLG, посвященные ГЕЯ. В июле 2004 года в Великобритании прошла третья международная конференция INLG 2004.

Наиболее простые системы осуществляют генерацию текстов на основе шаблонов: использует готовые реплики или комбинирует готовые фрагменты текста. Они либо просто вставляют фрагменты текста в шаблоны без их дополнительной обработки ( ср., например, реплика системы: «Не могу найти my1.txt, my2.txt файл(ы)!»). Более сложные шаблонные системы дополнительно проводят ограниченную лингвистическую и риторическую обработку результата: осуществляют грамматические преобразования исходных лексем, которые вставляются в шаблон, анафорические замены и т.п. или комбинировать шаблонные высказывания в связный текст, используя определенные лексические и грамматические знания о ЕЯ. К последнему типу относятся, в частности, системы, помогающие менеджерам писать деловые характеристики на сотрудников. Например, система Employee Appraiser (производитель Austin-Haynes).

Лингвистически-мотивированные "предназначены для создания текстов, имеющих относительно свободное содержание, которое не может быть заранее задано в виде готовых фрагментов текста. Источником содержания являются данные, представленные в виде БД, БЗ, или в виде выражений на формализованных языках, например, SQL. Тип входных данных не всегда предсказывает тип выходного текста, поэтому тип текста определяется из-вне"[1].

Традиционно генерацию разделяют на три этапа:

  • Макропланирование – построение структуры текста,
  • Микропланирование – построение планов предложений
  • Языковое оформление – реализация построенных планов предложений соответствующими грамматическими структурами.

В реальных прикладных системах генерации выделяется шесть устойчивых промежуточных представлений данных:

Объектная структура содержания текста - концептуальная структура содержания текста, построенная в соответствии со структурами предметной области (ПО) из объектов и отношений ПО.

  1. Структура текста – структура дискурсных отношений, организующая сообщения в текст (в частности, риторическая структура);
  2. Сообщения - элементарные предикативные фреймы с объектами и отношениями ПО,
  3. Семантические представления предложений текста (в частности, SPL);
  4. Лексикализованные грамматические конструкции предложений текста.
  5. Ссылки

    1. Болдасов М.В., Соколова Е.Г. Генерация текстов на естественном языке – теории, методы, технологии// НТИ. Сер. 2. Информационные процессы и системы. 2006.  ↑ 1

Эта статья еще не написана, но вы можете сделать это.