Hva er Corpus Linguistics?
Corpus lingvistikk studiet av språk ved bruk av virkelige eksempler. Det er ikke en gren av språkvitenskap, men en metodikk eller tilnærming. Corpus , det latinske ordet for "kropp", refererer til kroppen av naturlige tekster, og tilnærmingen innebærer å oppdage mønstre for språkbruk gjennom analyse av korpuset. Corpus linguistics opplever comeback, da dataprogrammer har revolusjonert tilnærmingen.
Foreldresdagbøker for et barns tale når han først skaffer seg språk, er et enkelt eksempel på et korpus som deretter kan studeres for å lære språkmønstre. Undervisning i fremmedspråk i første halvdel av 1900-tallet brukte ofte korpora av målspråket for å sette sammen ordlister for studenter. Den eminente språklisten Noam Chomsky anså ikke bruken av korpora som et gyldig verktøy, ettersom han mente at språkkompetanse var viktigere enn resultatdata. Tidlig korpuslingvistikk var i stor grad basert på antagelsen om at det er et begrenset antall setninger på et naturlig språk, og at disse setningene kan samles og evalueres.
Etter å ha falt utenfor fordelene på 60- og 70-tallet, opplever korpuslingvistikk en vekkelse på grunn av metodisk bruk av datamaskinen. Konkordanseprogrammet er navnet på programvaren som oftest brukes av lingvister. Mens det å søke mønstre i et korpus på millioner av ord vil ta for mye tid for et menneske, og resultatene ville være mindre enn nøyaktige, kan en datamaskin søke og hente informasjon på bare sekunder. Den kan beregne frekvens, sortere data og utnytte corpora på måter som var umulige i fortiden.
Corpus-basert analyse kan se på hvordan register påvirker språk; mønstre for språkbruk, for eksempel hvordan menn og kvinner bruker forskjellig tag-spørsmål; i hvilken grad språkmønstre brukes; og faktorene som påvirker variasjonen i språkbruken. Undervisning kan dra nytte av korpuslingvistikk i utformingen av pensum, utvikling av materialene som brukes og typen aktiviteter som brukes i klasserommet. Studentene kunne dra nytte av tilnærmingen ved å kunne bestemme tydeligere de forskjellige bruksområdene og betydningene av vanlige ord, forskjellene som ligger i skriftlig og muntlig språk, og uttrykk og kollokasjoner de kunne gjøre bruk av. Datagrunnlaget som er korpus blir kontinuerlig oppdatert og er et produkt av sosiale interaksjoner i det virkelige liv. Dermed er corpora naturalistiske data som lett kan nås, og funnene kan generaliseres.