Автоматический морфологический анализ
Автоматический морфологический анализ - специальный модуль автоматического анализа языка, обеспечивающий анализ словоформ на морфологическом уровне.
Анализ, осуществяемый морфологическим модулем автоматической обработки естественного ящзыка, может заключаться в следующем:
- нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме);
- стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "пседвооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательного фотографический и существительного фотография, так как пользовательскому запросу будут удовлетворять и документы со словосочетанием фотографический портрет и со словосочетанием портретная фотография)
- частеречный тэгинг (pos-tagging), т.е. указание части речи для каждой словоформы в тексте)
- полный морфологический анализ - приписывание грамматических характеристик словоформе
Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь), а также существование новых, редких слов или окказионализмов. Ряд
Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.
Большинство вероятностно-статистических алгоритмов [Linda Van Guilder, 1995] использует два источника информации:
Словарь словоформ языка, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом:
well noun 4 occurences in corpus
well adverb 1567 occurences in corpus
well adjective 6 occurences in corpus
well interjection 1 occurences in corpus
Информацию о встречаемости всех возможных последовательностей лексико-грамматических классов. В зависимости от того, как представлена данная информация, разделяют биграмную, триграмную и квадриграмную модели. В биграмной модели используется информация о всех возможных последовательностях из двух кодов:
неопр.артикль + сущ.ед.ч 35983 occurences in corpus
неопр.артикль + сущ.мн.ч 7494 occurences in corpus
опр.артикль + сущ.ед.ч 13838 occurences in corpus
неопр.артикль + сущ.мн.ч 47 occurences in corpus
неопр.артикль + глагол 3 л., ед.ч 0 occurences in corpus
глагол 3 л., ед.ч + предлог 3744 occurences in corpus
В триграмной модели модели используется соответственно информация о всех возможных последовательностях из 3-х словоформ.
Данная информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова [Linda Van Guilder, 1995] для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Алгоритмы, основанные на продукционных правилах, используют правила собранные автоматически с корпуса текстов [Brill, 1995], либо подготовленные квалифицированными лингвистами [Tapanainen and Voutilainen, 1994]. Примером могут быть следующие правила:
Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Оба подхода дают примерно одинаковый результат [Samuelsson and Voutilainen, 1997] [Volk and Schneider, 1998]. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализа текста вручную также имеет определенную погрешность (0,5-2 %) согласно сведениям, предоставленным создателями Penn Treebank), можно считать, что точность лексико-грамматического анализа в автоматическом режиме достигла практически точности лексико-грамматического анализа в ручном режиме.
Выходные данные:
- Просмотров: 2866
- Комментариев: 0
- Опубликовано: 08.11.2011
- Версий: 12 , текущая: 12
- Статус: экспертная
- Рейтинг: 100.0
Автор:
Толдова Светлана Юрьевна
- старший научный сотрудник; кандидат филологических наук
Ссылки отсюда
Детализирующие понятия: