Skip to main content

Что такое текстовый корпус?

Текстовый корпус представляет собой набор текстов, устных или письменных, который является основой для исследования корпусной лингвистики. Хранение этих больших банков текстов позволяет исследователям анализировать различные аспекты любого языка. Текстовый корпус - это эффективный способ проведения исследований, поскольку после сбора материала его можно использовать для изучения различных языковых проблем, включая морфологию, синтаксис, лексику и прагматику. В отличие от более старых методов проведения лингвистических исследований, текстовый корпус позволяет исследователям смотреть на язык в соответствии с тем, как он фактически используется в контексте, а не с тем, как его можно гипотетически использовать. Лингвисты, как правило, имеют доступ к гораздо большим выборкам данных, чем когда им приходилось ограничиваться данными, которые они могли собирать самостоятельно в течение ограниченного периода времени при ограниченных финансовых ресурсах.

Корпорации обычно хранятся на компьютере, поэтому для облегчения исследований можно создавать компьютерные программы. Одним из распространенных способов использования текстового корпуса является подсчет общего количества слов в текстах, а затем подсчет и ранжирование числа появлений определенных слов. Соотношение, которое создается между количеством общих слов и конкретных слов, известно как закон Ципфа. Это соотношение помогает объяснить частоту слов в языке. Понимание закона Ципфа помогает программистам разрабатывать компьютерные программы, отвечающие требованиям определенного языка. Они могут посчитать и предсказать, как часто определенные слова и фразы будут использоваться в качестве входных данных.

Другой способ использования текстового корпуса - пометить в нем определенные элементы, которые исследователь хочет изучить. Примером того, как это можно использовать, является подсчет того, сколько раз пассивный голос появляется в разных текстовых жанрах. Маркировка также была полезна при создании компьютерных программ, которые помогают людям в их повседневной жизни. Частичная речевая метка имеет решающее значение для разработки программного обеспечения для распознавания голоса. Например, в английском языке одно и то же слово может иметь более одной части речи. Многосложные слова часто подчеркиваются по-разному, чтобы указать, какая часть речи используется. Существительное «объект» переносит ударение на первый слог, а глагол «объект» ударяет на второй слог. Пометка формы существительного «объект» помогает компьютерной программе правильно читать ее вслух и распознавать, когда человек говорит «объект».

Текстовые корпуса полезны как для человеческой лингвистики, так и для компьютерной лингвистики. Они позволяют проводить исследования, которые помогают людям лучше понять язык, который используют люди, что, в свою очередь, помогает развивать язык, который используют компьютеры. Большие успехи были сделаны в технологии распознавания голоса, позволяя потребителям устно контролировать компьютеры в своих офисах, домах и транспортных средствах. Дальнейшие достижения позволят людям общаться с компьютерами так же естественно, как и друг с другом.