Hvad er Corpus Linguistics?
Corpus lingvistik studiet af sprog ved hjælp af eksempler i det virkelige liv. Det er ikke en sproggren, men en metode eller tilgang. Corpus , det latinske ord for "krop", henviser til kroppen af naturlige tekster, og fremgangsmåden involverer at opdage sprogbrugsmønstre gennem analyse af korpuset. Corpus lingvistik oplever et comeback, da computerprogrammer har revolutioneret tilgangen.
Forældredagbøger om et barns tale, når han først erhverver sprog, er et simpelt eksempel på et korpus, der derefter kan studeres for at lære sprogmønstre. Fremmedsprogundervisning i første halvdel af det 20. århundrede brugte ofte korpora af målsproget til at udarbejde ordforrådslister for studerende. Den fremtrædende sprogforsker Noam Chomsky anså ikke brugen af corpora som et gyldigt værktøj, da han mente, at sprogkompetence var vigtigere end præstationsdata. Tidlig korpussprogvidenskab var stort set baseret på antagelsen om, at der er et begrænset antal sætninger på et naturligt sprog, og at disse sætninger kan indsamles og evalueres.
Efter at have faldet ude af fordel i 60'erne og 70'erne, oplever korpussprogvidenskab en genoplivning på grund af den metodiske brug af computeren. Konkordanseprogrammet er navnet på den software, der oftest bruges af lingvister. Mens søgning i mønstre i et korpus på millioner af ord tager for meget tid for et menneske, og resultaterne ville være mindre end præcise, kan en computer søge og hente information på kun få sekunder. Det kan beregne frekvens, sortere data og udnytte corpora på måder, der tidligere var umulige.
Corpus-baseret analyse kan undersøge, hvordan register påvirker sprog; mønstre for sprogbrug, såsom hvordan mænd og kvinder bruger forskellig tag-spørgsmål; i hvilken udstrækning sprogmønstre bruges og de faktorer, der påvirker variationen i sprogbrug. Undervisning kan drage fordel af korpussprogvidenskab ved design af pensum, udvikling af de anvendte materialer og typen af aktiviteter, der bruges i klasseværelset. Studerende kunne drage fordel af fremgangsmåden ved at være i stand til mere klart at bestemme de forskellige anvendelser og betydninger af almindelige ord, forskellene i det skriftlige og det talte sprog og sætninger og kollokationer, de kunne gøre brug af. Datagrundlaget, der er korpus, opdateres konstant og er produktet af virkelige sociale interaktioner. Virksomhederne er således naturalistiske data, der let kan fås adgang til, og resultaterne kan generaliseres.