Wat is een tekstcorpus?

Een tekstcorpus is een verzameling teksten, gesproken of geschreven, dat is de basis voor Corpus Linguistics Research. Door deze grote banken van teksten op te slaan, kunnen onderzoekers verschillende aspecten van elke taal analyseren. Een tekstcorpus is een efficiënte manier om onderzoek te doen, omdat het een zodra het materiaal is verzameld, kan worden gebruikt om een verscheidenheid aan taalgerelateerde kwesties te onderzoeken, waaronder morfologie, syntaxis, vocabulaire en pragmatiek. In tegenstelling tot oudere methoden voor het uitvoeren van taalkundig onderzoek, stelt een tekstcorpus onderzoekers in staat om naar taal te kijken op basis van hoe het daadwerkelijk wordt gebruikt in de context, in plaats van hoe het hypothetisch kan worden gebruikt. Taalkundigen hebben doorgaans toegang tot veel grotere datamonsters dan wanneer ze zich moesten beperken tot de gegevens die ze zichzelf in een beperkte periode konden verzamelen met beperkte financiële middelen.

corpora worden meestal opgeslagen in een computer, zodat computersoftwareprogramma's kunnen worden gemaakt om onderzoek te vergemakkelijken. Een veel voorkomende manier om een tekstcorpu te gebruikenS is om het totale aantal woorden in de teksten te tellen, en vervolgens het aantal keren te tellen en te rangschikken dat bepaalde woorden verschenen. De verhouding die wordt gemaakt tussen het aantal totale woorden en specifieke woorden staat bekend als de wet van ZIPF. Deze verhouding helpt de woordfrequentie in een taal te verklaren. Inzicht in de wet van ZIPF helpt computerprogrammeurs computersoftware te ontwerpen die voldoet aan de eisen van een bepaalde taal. Ze kunnen tellen en voorspellen hoe vaak bepaalde woorden en zinnen als invoer worden gebruikt.

Een andere manier om een tekstcorpus te gebruiken, is door specifieke elementen te taggen die de onderzoeker wil bestuderen. Een voorbeeld van hoe dit zou worden gebruikt, is om te tellen hoe vaak de passieve stem in verschillende tekstgenres verschijnt. Tagging is ook nuttig geweest bij het maken van computerprogramma's die mensen in hun dagelijks leven helpen. Part-of-of-speech-tagging is van cruciaal belang geweest voor de ontwikkeling van spraakherkenningssoftware. In enGlish, bijvoorbeeld, hetzelfde woord kan meer dan één deel van de spraak hebben. Multifllabische woorden worden vaak anders benadrukt om aan te geven welk deel van spraak wordt gebruikt. Het zelfstandig naamwoord "object" draagt zijn stress op de eerste lettergreep, maar het werkwoord "object" is benadrukt op de tweede lettergreep. Het taggen van de zelfstandig naamwoordvorm van "object" helpt het computerprogramma om het zowel hardop te lezen als het herkennen wanneer "object" door een mens wordt gezegd.

Tekst corpora is nuttig voor zowel menselijke taalkunde als computationele taalkunde. Ze maken het mogelijk om onderzoek te doen dat mensen helpt de taal die mensen gebruiken beter te begrijpen, wat op hun beurt helpt bij het ontwikkelen van het gebruik van taalcomputers. Er zijn grote sprongen gemaakt in spraakherkenningstechnologie, waardoor consumenten computers in hun kantoren, huizen en voertuigen verbaal kunnen besturen. Doorgaande vooruitgang zal mensen in staat stellen om met computers net zo natuurlijk te communiceren als met elkaar.

Wat is een tekstcorpus?

ANDERE TALEN