Was ist ein Textkorpus?
Ein Textkorpus ist eine Sammlung von gesprochenen oder geschriebenen Texten, die die Grundlage für die Forschung der Korpus -Linguistik sind. Durch die Speicherung dieser großen Banken von Texten können Forscher verschiedene Aspekte jeder Sprache analysieren. Ein Textkorpus ist eine effiziente Methode zur Durchführung von Forschungen, da nach dem Sammeln des Materials eine Vielzahl von Sprachproblemen untersucht werden kann, darunter Morphologie, Syntax, Wortschatz und Pragmatik. Im Gegensatz zu älteren Methoden zur Durchführung sprachlicher Forschung ermöglicht ein Textkorpus den Forschern, die Sprache entsprechend der Art und Weise zu betrachten, wie sie tatsächlich im Kontext verwendet wird, und nicht, wie sie hypothetisch verwendet werden kann. Linguisten haben in der Regel Zugriff auf viel größere Datenproben, als sie sich auf die Daten beschränken mussten, die sie sich in begrenzter Zeit mit begrenzten finanziellen Ressourcen sammeln konnten.
Korpora werden normalerweise in einem Computer gespeichert, sodass Computersoftwareprogramme erstellt werden können, um die Forschung zu erleichtern. Eine häufige Möglichkeit, eine Textkorpu zu verwendenS soll die Gesamtzahl der Wörter in den Texten zählen, dann zählen und die Anzahl der angegebenen Wörter bewerten. Das Verhältnis, das zwischen der Anzahl der Gesamtwörter und bestimmten Wörtern erzeugt wird, wird als Zipf -Gesetz bezeichnet. Dieses Verhältnis erklärt die Worthäufigkeit in einer Sprache. Das Verständnis des ZIPF -Gesetzes hilft Computer -Programmierern, Computersoftware zu entwerfen, die den Anforderungen einer bestimmten Sprache entspricht. Sie können zählen und vorhersagen, wie oft bestimmte Wörter und Phrasen als Eingabe verwendet werden.
Eine andere Möglichkeit, einen Textkorpus zu verwenden, besteht darin, bestimmte Elemente darin zu markieren, die der Forscher studieren möchte. Ein Beispiel dafür, wie dies verwendet werden würde, besteht darin, zu zählen, wie oft die passive Stimme in verschiedenen Textgenres erscheint. Das Markieren war auch nützlich, um Computerprogramme zu erstellen, die Menschen in ihrem täglichen Leben helfen. Das Sprech-Tagging war für die Entwicklung von Spracherkennungssoftware von entscheidender Bedeutung. In enZum Beispiel könnte das gleiche Wort mehr als einen Teil der Sprache haben. Multisyllabische Wörter werden oft anders betont, um zu signalisieren, welcher Teil der Sprache verwendet wird. Das Substantiv „Objekt“ trägt die erste Silbe, aber das Verb „Objekt“ wird auf der zweiten Silbe betont. Das Markieren der Substantivform des „Objekts“ hilft dem Computerprogramm, es beide richtig vorzulesen und zu erkennen, wenn ein Mensch „Objekt“ gesagt wird.
Textkorpora sind sowohl für die menschliche Linguistik als auch für die Berechnung der Linguistik nützlich. Sie ermöglichen die Durchführung von Forschungen, die den Menschen hilft, die Sprache, die Menschen verwenden, besser zu verstehen, was wiederum dazu beiträgt, die Verwendung der Sprachcomputer zu entwickeln. Es wurden große Sprünge in der Spracherkennungstechnologie gemacht, mit der die Verbraucher Computer in ihren Büros, Häusern und Fahrzeugen verbal kontrollieren können. Durch kontinuierliche Fortschritte können Menschen so natürlich mit Computern kommunizieren wie miteinander.