Зарегистрироваться

Корпус (лингвистический)

Категории Корпусная лингвистика | Под редакцией сообщества: Филология

Эта версия статьи от 23 Сентябрь 2010 12:40, редактировал Архипов Александр Владимирович
Список всех версий Перейти к списку версий
Перейти к последней версии

(Лингвистический) корпус – это некоторый филологически-компетентный массив языковых данных (как правило, множество текстов):

  • отобранных в соответствии с некоторой исследовательской задачей;
  • специально подготовленных, размеченных, структурированных, представленных в унифицированном виде;

Как правило, он снабжен специальным поисковым интерфейсом, позволяющим искать необходимые фрагменты текста по заданным параметрам (например, множество текстов одного жанра или автора, множество строчек или предложений, в которых встретилось конкретное слово или словосочетание, множество существительных в родительном падеже и т.п.)

Сейчас корпуса создаются и размещаются в электронном виде.

Лингвистический корпус является одним из центральных понятий корпусной лингвистики, а также используется как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск), для обучения языку и в лексикографических целях. Как массив языковых данных, корпус противостоит электронной библиотеке. В отличие от текстов электронной библиотеки, тексты в корпусе являются не полноценными произведениями, а образцами текстов. Благодаря наличию разметки и поискового интерфейса корпус позволяет создавать выборки для последующего анализа их с помощью статистических методов.

Корпусы текстов делятся:

– по модусу (на письменные, речевые и смешанные),

– по языку текстов (на русские, английские и т.п.),

– по параллельности (на одноязычные, двуязычные и многоязычные),

– по доступности (на свободно доступные, коммерческие, закрытые),

– по назначению (на исследовательские, иллюстративные),

– по динамичности (на динамические (мониторные) и статические),

– по объёму текстов (на полнотекстовые и «фрагментнотекстовые»),

– на синхронические и диахронические.

Корпусы, представляющие некоторую часть языка (стиль, жанр, язык определённого писателя и т.п.) или созданные специально для изучения конкретной проблемы или проверки гипотезы, называются проблемными.

Единицами хранения в корпусе могут являться литературные тексты, дискурсивные слова, рекламные слоганы и многое другое.

 

Примеры корпусов:

– Национальный корпус русского языка http://ruscorpora.ru/,

British National Corpus http://www.natcorp.ox.ac.uk/,

– International Corpus of English http://ice-corpora.net/ice/,

– Чешский национальный корпус http://ucnk.ff.cuni.cz/.

Эта статья еще не написана, но вы можете сделать это.