Hva er naturlig språkbehandling?
Natural Language processing (NLP) er en måte å oversette mellom dataspråk og menneskespråk. Målet med dette feltet er å la datamaskiner forstå hva en tekst sier uten å få presise verdier og ligninger for dataene som teksten inneholder. I hovedsak automatiserer naturlig språkbehandling oversettelsesprosessen mellom menneskelige og dataspråk. Mens mye av dette feltet er avhengig av statistikk og modeller for å bestemme sannsynlige betydninger av en frase, er det og har vært mange forskjellige tilnærminger til dette problemet. Funn på dette feltet har anvendelser innen tale anerkjennelse, oversettelse av menneskelig språk, innhenting av informasjon og til og med kunstig intelligens.
Utviklingen ut fra en bakgrunn innen informatikk og språkvitenskap, møter naturlig språkbehandling mange problemer fordi språket ikke alltid er konsistent og ikke alle ledetråder til mening er inneholdt i selve språket. Selv en komplett redegjørelse for hele grammatikken til et språk, inkludert alle unntak, tillater ikke alltid en datamaskin å analysere informasjonen i en tekst. Noen setninger er syntaktisk tvetydige, ord har ofte mer enn én betydning, og noen kombinasjoner av lyder eller symboler endrer mening avhengig av ordens grenser - alt dette kan være problemer for en datamaskin som ikke forstår kontekst. Enda viktigere er at mye av språket avhenger av en forbindelse til det fysiske og sosiale universet - noen setninger, for eksempel talehandlinger, formidler ikke informasjon så mye som handler om verden. Selv om en datamaskin har en perfekt forståelse av menneskespråksyntaks og semantikk, må teksten som skal analyseres være fri for menneskelige enheter, for eksempel sarkasme eller passiv aggresjon, for datamaskinen å korrekt finne ut hva teksten betyr.
Ideologisk er naturlig språkbehandling et system for interaksjon mellom mennesker og datamaskiner som styres av ideen om at de fleste databrukere er mer komfortable med å jobbe med datamaskiner på et menneskelig språk de allerede kjenner enn å tilpasse seg datamaskinens språk. Det utnytter også det faktum at mye av menneskelig kunnskap allerede er kodet i menneskelig språk, og tekstene som inneholder denne kunnskapen kan oversettes til logiske strukturer som kan strømlinjeformes for en datamaskin. Mens mange prosjekter på dette feltet jobber for å trekke ut datamaskinlesbare data fra menneskelige språktekster, brukes også naturlig språkbehandling for å generere menneskelig lesbare tekster fra datadata. Både disse forståelses- og generasjonsfasilitetene kan brukes av den samme teknologien, for eksempel når det gjelder applikasjoner som oversetter fra et menneskelig språk til et annet ved først å avkode teksten til et dataspråk, og deretter kode det på et annet menneskespråk. Innovasjonene som er oppnådd innen naturlig språkbehandling, er også påfallende anvendelige for kunstig intelligensprosjekter på grunn av i hvilken grad menneskelignende intelligens er definert av en beherskelse av kompleksitetene i menneskets språk.