Разрешение анафоры
Важным элементов технологической цепочки обработки текста является разрешение анафоры (anaphora resolution), или референциальный анализ. В текстах нередко используются языковые выражения, которые не могут быть проинтерпретировны без обращения к предыдущему контексту. В первую очередь это анафорические местоимения, такие как, например, местоимения третьего лица он, he. Установление того, к какому языковому выражению (антецеденту) из предыдущего текста относится анафорическое местоимение, к какой сущности реального мира (референту) местоимение и его антецедент отсылает, важно как для понимания всего текста, так и для правильного построения синтаксического представления текста. В конце 20в. проблема разрешения анафорических связей являлась одной из центральных в различных моделях понимания естественного языка. Для анализа анафоры требуется привлечение данных всех языковых уровней. Правильная интерпретация анафорического местоимения требует выхода за рамки одного предложения, привлечения прагматического анализа всего текста, моделирования структуры текста (дискурса). Данное языковое явление обращения к моделированию когнитивных механизмов порождения и анализа речи. Прикладные системы разрешения анафоры, как правило, базируются на результатах обработки текстов на морфологическом и синтаксическом уровне, а также на различных теориях структуры дискурса. Простейшие системы разрешения анафоры учитывают линейное расстояние до возможного кандидата. Основные подходы, используемые в более сложных системах это
- (а) синтаксически ориентированный подход, в рамках которого анафорическим отношеним связываются узлы синтаксического дерева, алгоритм разрешения анафоры учитывает, главным образом, синтаксические правила (например, атецедент возвратного местоимения себя должен обладать синтаксическим приоритетом, например, являться подлежащим),
- (б) в основе дискурсивного подхода лежит та или иная модель структуры дискурса, например, отношения между предикациями, анафорические средства часто рассматриваются в таких моделях в ряду других средств обеспечения связанности текста
- (в) многофакторный подход предполагает построение некоторой математической модели расчета весов различных факторов, влияющих на степень “активации” референта, т.е. на его роль в текущий момент дискурса.
В последнее время широко распространены системы разрешения анафоры, основанные на методах машинного обучения. В последнем случае создается корпус текстов, в котором размечены анафорические связи. На этом корпусе происходит обучение математической модели. Параметрами для таких систем могут служить все те же факторы, что и в вышеупомянутых системах: синтаксические позиции местоимения и его антецедента, синтаксическая структура предложения, структура дискурса
Выходные данные:
- Просмотров: 1822
- Комментариев: 0
- Опубликовано: 08.11.2011
- Версий: 10 , текущая: 10
- Статус: экспертная
- Рейтинг: 100.0
Автор:
Бонч-Осмоловская Анастасия Александровна
- кандидат филологических наук
Соавторы:
Ссылки отсюда
Детализирующие понятия:
Ссылки сюда
Категории: