Hva er et tekstkorpus?
Et tekstkorpus er en samling tekster, snakket eller skrevet, som er grunnlaget for korpuslingvistikkforskning. Lagring av disse store tekstbankene gjør det mulig for forskere å analysere forskjellige aspekter av ethvert språk. Et tekstkorpus er en effektiv måte å utføre forskning på fordi det når materialet er samlet, kan brukes til å undersøke en rekke språkrelaterte spørsmål, inkludert morfologi, syntaks, ordforråd og pragmatikk. I motsetning til eldre metoder for å drive språklig forskning, tillater et tekstkorpus forskere å se på språk i henhold til hvordan det faktisk brukes i sammenheng, snarere enn hvordan det hypotetisk kunne brukes. Lingvistikere har typisk tilgang til mye større dataprøver enn når de måtte begrense seg til dataene de kunne samle selv i løpet av en begrenset periode med begrensede økonomiske ressurser.
Corpora lagres vanligvis på en datamaskin, så dataprogrammer kan lages for å lette forskning. En vanlig måte å bruke et tekstkorpus på er å telle det totale antall ord i tekstene, for så å telle og rangere antall ganger visse ord dukket opp. Forholdet som opprettes mellom antall totale ord og spesifikke ord, er kjent som Zipfs lov. Dette forholdet er med på å forklare ordfrekvens på et språk. Å forstå Zipfs lov hjelper dataprogrammerere med å designe dataprogramvare som oppfyller kravene til et gitt språk. De kan telle og forutsi hvor ofte visse ord og uttrykk vil bli brukt som input.
En annen måte å bruke et tekstkorpus på er å merke spesifikke elementer i det som forskeren ønsker å studere. Et eksempel på hvordan dette vil bli brukt er å telle hvor mange ganger den passive stemmen vises i forskjellige tekstgenrer. Merking har også vært nyttig i å lage dataprogrammer som hjelper mennesker i deres daglige liv. Del-av-tale-tagging har vært avgjørende for utvikling av programvare for stemmegjenkjenning. På engelsk kan for eksempel det samme ordet ha mer enn en del av talen. Multisyllabiske ord blir ofte stresset annerledes for å signalisere hvilken del av talen som blir brukt. Substantivet "objekt" bærer sin belastning på den første stavelsen, men verbet "objektet" er stresset på den andre stavelsen. Merking av substantivformen "objekt" hjelper dataprogrammet med både å lese det riktig og gjenkjenne det når "objekt" blir sagt av et menneske.
Tekstkorpora er nyttige for både menneskelig språkvitenskap og beregningsspråkvitenskap. De åpner for forskning som hjelper mennesker med å bedre forstå språket mennesker bruker, som igjen er med på å utvikle språket datamaskiner bruker. Det har blitt gjort store sprang innen stemmegjenkjenningsteknologi, slik at forbrukere kan verbalt kontrollere datamaskiner på kontorer, hjem og kjøretøy. Fortsatte fremskritt vil tillate mennesker å kommunisere med datamaskiner like naturlig som de gjør med hverandre.