Wat is natuurlijke taalverwerking?
Natuurlijke taalverwerking (NLP) is een manier om te vertalen tussen computertalen en menselijke talen. Het doel van dit veld is om computers te laten begrijpen wat een tekst zegt zonder precieze waarden en vergelijkingen te krijgen voor de gegevens die de tekst bevat. In wezen automatiseert natuurlijke taalverwerking het vertaalproces tussen menselijke en computertalen. Hoewel veel van dit veld afhankelijk is van statistieken en modellen om waarschijnlijke betekenissen van een zin te bepalen, zijn en zijn er veel verschillende benaderingen van dit probleem geweest. De bevindingen op dit gebied hebben toepassingen op het gebied van spraakherkenning, vertaling van de menselijke taal, het ophalen van informatie en zelfs kunstmatige intelligentie.
Voortkomend uit een achtergrond in de informatica en taalkunde, heeft de verwerking van natuurlijke taal veel problemen, omdat taal niet altijd consistent is en niet alle aanwijzingen voor betekenis in de taal zelf aanwezig zijn. Zelfs een volledig overzicht van de gehele grammatica van een taal, inclusief alle uitzonderingen, staat een computer niet altijd toe de informatie in een tekst te parseren. Sommige zinnen zijn syntactisch dubbelzinnig, woorden hebben vaak meer dan één betekenis en sommige combinaties van geluiden of symbolen veranderen hun betekenis afhankelijk van de grenzen van de woorden - allemaal problemen voor een computer die de context niet begrijpt. Wat nog belangrijker is, is dat veel van de taal afhankelijk is van een verbinding met het fysieke en sociale universum - sommige zinnen, zoals taalhandelingen, brengen niet zoveel informatie over als op de wereld. Zelfs als een computer een perfect begrip heeft van de syntaxis en semantiek van de menselijke taal, moet de te analyseren tekst vrij zijn van menselijke apparaten, zoals sarcasme of passieve agressie, zodat de computer correct kan vaststellen wat de tekst betekent.
Idealiter is natuurlijke taalverwerking een systeem van mens-computer interactie dat wordt beheerst door het idee dat de meeste computergebruikers comfortabeler werken met computers in een menselijke taal die ze al kennen dan zich aan te passen aan de taal van een computer. Het speelt ook in op het feit dat veel van de menselijke kennis al in menselijke taal is gecodeerd, en de teksten die die kennis bevatten, kunnen worden vertaald in logische structuren die kunnen worden gestroomlijnd voor een computer. Hoewel veel projecten op dit gebied werken om computerleesbare gegevens uit menselijke taalteksten te extraheren, wordt natuurlijke taalverwerking ook gebruikt om voor mensen leesbare teksten uit computergegevens te genereren. Zowel deze begrip- als genereerfaciliteiten kunnen door dezelfde technologie worden gebruikt, zoals in het geval van toepassingen die van de ene menselijke taal naar de andere vertalen door eerst de tekst in een computertaal te decoderen en vervolgens in een andere menselijke taal te coderen. De innovaties verkregen in natuurlijke taalverwerkingsinspanningen zijn ook opvallend toepasbaar op kunstmatige intelligentieprojecten vanwege de mate waarin mensachtige intelligentie wordt gedefinieerd door beheersing van de complexiteit van menselijke taal.