Hva er beregningsmessig språkvitenskap?
Computational Linguistics er et generelt felt som omfatter mange aspekter av psykologi, lingvistikk, logikk og informatikk. Det er opptatt av å hjelpe datamaskiner med å forstå språklige problemer for å bli bedre til å automatisere aspekter ved oversettelse, generasjon, tale og forståelse.
Beregnelig språkvitenskap ble født etter en rekke mislykkede forsøk på automatisert oversettelse. På slutten av 1940-tallet så den amerikanske regjeringen et behov for maskinhåndtert oversettelse av tekster, særlig russiske tekster. Det ble antatt, gitt datamaskiner som var tilpasset å håndtere matematiske problemer, at det ville være en enkel sak å lære dem å oversette språk. Det viste seg imidlertid raskt at problemet var mye vanskeligere, og disiplinen for beregningsspråkvitenskap ble opprettet.
I de første dagene av datalinguistikk ble feltet dominert av informatikere. Siden 1970-tallet har det imidlertid vist seg hvor komplekst språk faktisk er, og moderne beregningsspråklig kunnskap bruker eksperter fra en rekke felt.
Maskinoversettelse har alltid vært et hovedmål i beregningsspråklingen, og et felt der har gjort enorme fremskritt. Oppgaven er veldig kompleks, og krever identifisering av deler av talen, forståelse av grammatikk, et omfattende ordforråd og mekanismer for å håndtere kollokvialismer og slang. Maskinoversettelse er langt fra perfekt, men med hvert år blir oversettelsene mer nøyaktige og mindre tvungne.
Talegjenkjenning er et annet område i beregningsspråklighet som har sett mye offentlig interesse. Etter noen få abortforsøk på vanlig programvare for talegjenkjenning på midten av 1990-tallet, gikk feltet stille for en tid. På begynnelsen av det 21. århundre kom imidlertid en rekke nye programvarepakker for talegjenkjenning på markedet med omfattende læringssystemer og høy grad av nøyaktighet. Dette har ført til en fornyet interesse for talegjenkjenningsprogramvare fra allmennheten og en tilhørende økning i finansiering og forskning.
Talegenerering er et beslektet felt innen datalinguistikk som har hatt en jevn utvikling siden 1980-tallet. Å nå en naturlig klingende lesing av skrevet tekst er et veldig vanskelig problem, men det har enorme potensielle fordeler. For ikke-seende brukere kan programvare for talegenerering være avgjørende for å kunne nyte fruktene av den digitale tidsalderen.
Beregnelig språkvitenskap spiller også en stor rolle i automatiserte grammatikkorreksjonssystemer, for eksempel de som er integrert i mest populære tekstbehandlere. En nøyaktig grammatikkontroll krever en sofistikert evne til å identifisere taledeler og en omfattende liste over grammatiske regler og unntak. Mens de fleste mainstream grammatikkontrollere fremdeles har mange problemer, blir de allerede uunnværlige for mange i den nye generasjonen.
Computational Linguistics er en spennende felttegning fra et bredt spekter av fagområder. Problemene den må løse er mange, og ingen er enkle. De futuristiske visjonene den ser frem til, gjør det imidlertid til en kamp vel verdt å gjøre. Fra drømmen om en universell oversetter til ord-perfekt talegjenkjenning, kan ikke datamaskinens språkvitenskapens mål hjelpe med å fremkalle en følelse av undring.