Was ist ein Textkorpus?
Ein Textkorpus ist eine Sammlung gesprochener oder geschriebener Texte, die die Grundlage für die Korpuslinguistikforschung bildet. Durch das Speichern dieser großen Textbänke können Forscher verschiedene Aspekte einer Sprache analysieren. Ein Textkorpus ist eine effiziente Methode für die Recherche, da das Material nach dem Sammeln zur Untersuchung einer Vielzahl von sprachbezogenen Themen wie Morphologie, Syntax, Wortschatz und Pragmatik verwendet werden kann. Im Gegensatz zu älteren Methoden der Sprachforschung können Forscher mit einem Textkorpus die Sprache danach betrachten, wie sie tatsächlich im Kontext verwendet wird, anstatt wie sie hypothetisch verwendet werden könnte. Linguisten haben normalerweise Zugriff auf viel größere Datenmengen, als wenn sie sich auf die Daten beschränken müssten, die sie mit begrenzten finanziellen Mitteln in einem begrenzten Zeitraum selbst sammeln könnten.
Korpora werden normalerweise in einem Computer gespeichert, sodass Computersoftwareprogramme erstellt werden können, um die Recherche zu erleichtern. Eine gebräuchliche Methode, einen Textkorpus zu verwenden, besteht darin, die Gesamtzahl der Wörter in den Texten zu zählen und dann zu zählen und zu bewerten, wie oft bestimmte Wörter aufgetaucht sind. Das Verhältnis, das zwischen der Anzahl der Gesamtwörter und bestimmten Wörtern erstellt wird, wird als Zipf-Gesetz bezeichnet. Dieses Verhältnis hilft bei der Erklärung der Worthäufigkeit in einer Sprache. Das Verständnis des Zipf-Gesetzes hilft Computerprogrammierern beim Entwerfen von Computersoftware, die den Anforderungen einer bestimmten Sprache entspricht. Sie können zählen und vorhersagen, wie oft bestimmte Wörter und Phrasen als Eingabe verwendet werden.
Eine andere Möglichkeit, einen Textkorpus zu verwenden, besteht darin, bestimmte Elemente darin zu markieren, die der Forscher untersuchen möchte. Ein Beispiel dafür ist, zu zählen, wie oft die passive Stimme in verschiedenen Textgenres vorkommt. Das Markieren war auch bei der Erstellung von Computerprogrammen hilfreich, die Menschen in ihrem täglichen Leben unterstützen. Part-of-Speech-Tagging war für die Entwicklung von Spracherkennungssoftware von entscheidender Bedeutung. Im Englischen kann ein Wort beispielsweise mehr als eine Wortart enthalten. Mehrsilbige Wörter werden oft unterschiedlich betont, um zu signalisieren, welcher Teil der Sprache verwendet wird. Das Substantiv „Objekt“ betont die erste Silbe, das Verb „Objekt“ dagegen die zweite Silbe. Das Markieren der Substantivform von "Objekt" hilft dem Computerprogramm, es sowohl richtig vorzulesen als auch zu erkennen, wenn "Objekt" von einem Menschen gesagt wird.
Textkorpora sind sowohl für die menschliche Linguistik als auch für die Computerlinguistik nützlich. Sie ermöglichen die Durchführung von Forschungsarbeiten, mit deren Hilfe die Menschen die von ihnen verwendete Sprache besser verstehen und die von Computern verwendete Sprache besser entwickeln können. In der Spracherkennungstechnologie wurden große Fortschritte erzielt, die es Verbrauchern ermöglichen, Computer in ihren Büros, Wohnungen und Fahrzeugen mündlich zu steuern. Kontinuierliche Fortschritte werden es den Menschen ermöglichen, auf natürliche Weise mit Computern zu kommunizieren.