Корпус (лингвистический)
(Лингвистический) корпус – это некоторый филологически-компетентный массив языковых данных (как правило, множество текстов):
- отобранных в соответствии с некоторой исследовательской задачей;
- специально подготовленных, размеченных, структурированных, представленных в унифицированном виде;
Как правило, он снабжен специальным поисковым интерфейсом, позволяющим искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)
Сейчас корпуса создаются и размещаются в электронном виде.
Лингвистический корпус является одним из центральных понятий корпусной лингвистики, а также используется как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск), для обучения языку и в лексикографических целях. Как массив языковых данных, корпус противостоит электронной библиотеке. В отличие от текстов электронной библиотеки, тексты в корпусе являются не полноценными произведениями, а образцами текстов. Благодаря наличию разметки и поискового интерфейса корпус позволяет создавать выборки для последующего анализа их с помощью статистических методов.
Корпусы текстов делятся:
– по модусу (на письменные, речевые и смешанные),
– по языку текстов (на русские, английские и т.п.),
– по параллельности (на одноязычные, двуязычные и многоязычные),
– по доступности (на свободно доступные, коммерческие, закрытые),
– по назначению (на исследовательские, иллюстративные),
– по динамичности (на динамические (мониторные) и статические),
– по объёму текстов (на полнотекстовые и «фрагментнотекстовые»),
– на синхронические и диахронические.
Корпусы, представляющие некоторую часть языка (стиль, жанр, язык определённого писателя и т.п.) или созданные специально для изучения конкретной проблемы или проверки гипотезы, называются проблемными.
Единицами хранения в корпусе могут являться литературные тексты, дискурсивные слова, рекламные слоганы и многое другое.
Примеры корпусов:
– Национальный корпус русского языка http://ruscorpora.ru/,
– British National Corpus http://www.natcorp.ox.ac.uk/,
– International Corpus of English http://ice-corpora.net/ice/,
– Чешский национальный корпус http://ucnk.ff.cuni.cz/.
Редактор статьи Архипов Александр Владимирович, кандидат филологических наук, доцент филологического факультета МГУ.
Выходные данные:
- Просмотров: 3470
- Комментариев: 0
- Опубликовано: 08.11.2011
- Версий: 12 , текущая: 12
- Статус: экспертная
- Рейтинг: 100.0
Автор:
Толдова Светлана Юрьевна
- старший научный сотрудник; кандидат филологических наук
Соавторы:
Ссылки отсюда
Ссылки сюда
Категории:Детализирующие понятия: