Hvad er et tekstkorpus?
Et tekstkorpus er en samling tekster, talt eller skrevet, der er grundlaget for korpussprogforskning. Opbevaring af disse store banker af tekster giver forskere mulighed for at analysere forskellige aspekter af ethvert sprog. Et tekstkorpus er en effektiv måde at udføre forskning på, da når først materialet er samlet, kan det bruges til at undersøge forskellige sprogrelaterede spørgsmål, herunder morfologi, syntaks, ordforråd og pragmatik. I modsætning til ældre metoder til udførelse af sproglig forskning giver et tekstkorpus forskere mulighed for at se på sprog efter, hvordan det faktisk bruges i sammenhæng, snarere end hvordan det hypotetisk kunne bruges. Sprogkundskaber har typisk adgang til meget større dataprøver, end da de måtte begrænse sig til de data, de kunne indsamle sig selv i en begrænset periode med begrænsede økonomiske ressourcer.
Corpora er typisk lagret på en computer, så computersoftwareprogrammer kan oprettes for at lette forskning. En almindelig måde at bruge et tekstkorpus på er at tælle det samlede antal ord i teksterne, derefter tælle og rangordne antallet af gange, der optrådte visse ord. Det forhold, der oprettes mellem antallet af samlede ord og specifikke ord, kaldes Zipfs lov. Dette forhold hjælper med at forklare ordfrekvensen på et sprog. Forståelse af Zipfs lov hjælper computerprogrammører med at designe computersoftware, der opfylder kravene til et givet sprog. De kan tælle og forudsige, hvor ofte bestemte ord og sætninger vil blive brugt som input.
En anden måde at bruge et tekstkorpus er at mærke specifikke elementer i det, som forskeren ønsker at studere. Et eksempel på, hvordan dette ville blive brugt, er at tælle, hvor mange gange den passive stemme vises i forskellige tekstgenrer. Tagging har også været nyttigt til at skabe computerprogrammer, der hjælper mennesker i deres daglige liv. Deltagelse af tale har været kritisk for udvikling af stemmegenkendelsessoftware. På engelsk kan for eksempel det samme ord have mere end en del af talen. Multisyllabiske ord understreges ofte forskelligt for at signalere, hvilken del af talen der bruges. Navnet "objekt" bærer sin stress på den første stavelse, men verbet "objekt" er stresset på den anden stavelse. Mærkning af substantivformen "objekt" hjælper computerprogrammet med både at læse det højt korrekt og genkende det, når "objekt" siges af et menneske.
Tekstkorpora er nyttige til både menneskelig sprogvidenskab og computervingvistik. De giver mulighed for, at der udføres forskning, der hjælper folk med bedre at forstå det sprog, mennesker bruger, hvilket igen hjælper med at udvikle det sprog, computeren bruger. Der er gjort store spring inden for stemmegenkendelsesteknologi, der giver forbrugere mulighed for mundtligt at kontrollere computere på deres kontorer, hjem og køretøjer. Fortsatte fremskridt giver mennesker mulighed for at kommunikere med computere så naturligt som de gør med hinanden.