Hvad er naturlig sprogbehandling?
Natural sprogbehandling (NLP) er en måde at oversætte mellem computersprog og menneskesprog på. Målet med dette felt er at give computere mulighed for at forstå, hvad en tekst siger, uden at have givet præcise værdier og ligninger for de data, teksten indeholder. I det væsentlige automatiserer sprogbehandling automatisk oversættelsesprocessen mellem menneskelige og computersprog. Mens meget af dette felt er afhængig af statistikker og modeller for at bestemme sandsynlige betydninger af en sætning, er der og har været mange forskellige tilgange til dette problem. Fund på dette felt har anvendelser inden for taleegenkendelse, oversættelse af menneskeligt sprog, indhentning af information og endda kunstig intelligens.
Udviklingen ud fra en baggrund inden for datalogi og sprogvidenskab står naturlige sprogbehandling over for mange problemer, fordi sproget ikke altid er konsistent, og ikke alle ledetråde til betydning findes i selve sproget. Selv en fuldstændig redegørelse for hele grammatikken på et sprog inklusive alle undtagelser tillader ikke altid en computer at analysere oplysningerne i en tekst. Nogle sætninger er syntaktisk tvetydige, ord har ofte mere end én betydning, og nogle kombinationer af lyde eller symboler ændrer deres betydning afhængigt af grænserne for ordene - som alle kan være problemer for en computer, der ikke forstår kontekst. Vigtigere er det, at meget af sproget afhænger af en forbindelse til det fysiske og sociale univers - nogle sætninger, såsom talehandlinger, formidler ikke så meget information som handlinger i verden. Selv hvis en computer har en perfekt forståelse af menneskelig sprogsyntaks og semantik, skal teksten, der skal analyseres, være fri for menneskelige enheder, såsom sarkasme eller passiv aggression, for at computeren korrekt kan konstatere, hvad teksten betyder.
Ideologisk er behandling af naturligt sprog et system for interaktion mellem mennesker og computere, der styres af ideen om, at de fleste computerbrugere er mere komfortable med at arbejde med computere på et menneskeligt sprog, de allerede kender, end at tilpasse sig en computers sprog. Det udnytter også det faktum, at meget af menneskelig viden allerede er kodet i menneskeligt sprog, og teksterne, der indeholder denne viden, kan oversættes til logiske strukturer, der kan strømline til en computer. Mens mange projekter på dette felt arbejder på at udtrække computerlæsbare data fra menneskelige sprogtekster, bruges naturligt sprogbehandling også til at generere menneskelæsbare tekster fra computerdata. Både disse forståelses- og genereringsfaciliteter kan bruges af den samme teknologi, såsom i tilfælde af applikationer, der oversætter fra et menneskeligt sprog til et andet ved først at afkode teksten til et computersprog og derefter kode det på et andet menneskeligt sprog. Innovationerne, der opnås i naturlige sprogbehandlingsbestræbelser, er også påfaldende anvendelige til kunstig intelligensprojekter på grund af den grad, i hvilken menneskelignende intelligens er defineret ved en beherskelse af det sproglige kompleksitet.