Co je to textový korpus?

Textový korpus je sbírka textů, mluvených nebo psaných, což je základ pro výzkum lingvistiky corpus. Ukládání těchto velkých bank textů umožňuje vědcům analyzovat různé aspekty jakéhokoli jazyka. Textový korpus je efektivní způsob, jak provádět výzkum, protože jakmile se materiál shromáždí, lze jej použít k prozkoumání různých jazykových problémů, včetně morfologie, syntaxe, slovní zásoby a pragmatiky. Na rozdíl od starších metod provádění lingvistického výzkumu umožňuje textový korpus vědcům dívat se na jazyk podle toho, jak se skutečně používá v kontextu, spíše než jak by mohlo být hypoteticky použity. Lingvisté obvykle mají přístup k mnohem větším vzorkům dat, než když se museli omezit na data, která by se mohli v omezeném časovém období s omezeným finančním zdrojům shromažďovat.

Corpora jsou obvykle uloženy v počítači, takže počítačové softwarové programy lze vytvořit pro usnadnění výzkumu. Jeden běžný způsob použití textu CorpuS je spočítat celkový počet slov do textů, poté spočítat a hodnotit počet, kolikrát se objevila určitá slova. Poměr, který je vytvořen mezi počtem celkových slov a specifických slov, je známý jako Zipfův zákon. Tento poměr pomáhá vysvětlit frekvenci slov v jazyce. Pochopení zákona ZIPF pomáhá počítačovým programátorům navrhovat počítačový software, který splňuje požadavky daného jazyka. Mohou počítat a předpovídat, jak často budou určitá slova a fráze použity jako vstup.

Dalším způsobem, jak používat textový korpus, je označit konkrétní prvky v něm, které chce výzkumný pracovník studovat. Příkladem toho, jak by se to použilo, je spočítat, kolikrát se pasivní hlas objeví v různých textových žánrech. Označování bylo také užitečné při vytváření počítačových programů, které pomáhají lidem v jejich každodenním životě. Část označování řeči bylo rozhodující pro vývoj softwaru pro rozpoznávání hlasu. V enGlish například stejné slovo může mít více než jednu část řeči. Multisyllabická slova jsou často zdůrazněna odlišně, aby signalizovaly, která část řeči se používá. Podstatné jméno „objekt“ nese svůj stres na první slabiku, ale na druhé slabice je zdůrazněn sloveso „objekt“. Označování substantického formuláře „Object“ pomáhá počítačovému programu správně číst nahlas a rozpoznat jej, když člověk říká člověk.

textové korpusy jsou užitečné jak pro lidskou lingvistiku, tak pro výpočetní lingvistiku. Umožňují provádění výzkumu, který pomáhá lidem lépe porozumět jazykovému, který lidé používají, což zase pomáhá rozvíjet jazykové počítače. Velké skoky byly provedeny v technologii rozpoznávání hlasu, což spotřebitelům umožňuje slovně ovládat počítače v jejich kancelářích, domech a vozidlech. Pokračující pokroky umožní lidem komunikovat s počítači tak přirozeně jako spolu navzájem.

JINÉ JAZYKY

Pomohl vám tento článek? Děkuji za zpětnou vazbu Děkuji za zpětnou vazbu

Jak můžeme pomoci? Jak můžeme pomoci?