Hva er Word Sense disambiguation?

Word sense disambiguation (WSD) ligger i kjernen av programvare designet for å tolke språk. Tvetydige ord eller setninger kan forstås på flere måter, selv om bare en mening er ment. Dis ambiguuation søker å dechiffrere den tiltenkte betydningen av ord og setninger. Dette området er ekstremt utfordrende for programmerere som har til oppgave å designe nøyaktige grensesnitt for å bygge bro mellom talt og skriftspråk, og datamaskingenererte oversettelser.

Programvare designet for å konvertere tale-til-tekst kan "lytte" til en bruker som snakker til en mikrofon og oversette talte ord til typede setninger. Brukeren dikterer tegnsetting, interjecting ord som "komma" og "periode" der det er aktuelt. Dette høres ganske greit ut bortsett fra at mange ord høres nøyaktig like ut.

For eksempel kjenner og ingen eller jeg og øye er fonetisk ikke skille ut. Ordfornemmelse er med på å oversette "jeg burde vite det i løpet av neste uke," ordentlig ved å bruke det som i utgangspunktet er et sett med "hvis, da" -regler som tar ordplassering og tilstøtende ord i betraktning som indikatorer for det tiltenkte ordet. Denne typen disambiguation of word sense er kjent som "grunt tilnærming", og er ganske nøyaktig, men kan ikke alltid stole på.

En annen tilnærming er å anvende ”verdenskunnskap”, eller det datalinguistikken kaller den ”dype tilnærmingen.” Denne tilnærmingen er avhengig av leksikoner som ordbøker og tesaurus for å bestemme ordets rette forstand. Dessverre er det ikke en lett oppgave å designe en dyp tilnærmelsesdatabase som er omfattende nok til å gi bedre nøyaktighet enn den grunne tilnærmingen.

Programvare som leser tekst høyt (tekst til tale) krever også disambiguation av ordfølelse. Ordet bass , for eksempel, kan bety et musikkinstrument, et notat eller en fisk. I sistnevnte tilfelle uttales det annerledes, og overlater det til WSD for å utlede hvilken uttale du skal bruke. Hvis den skrevne setningen tilfeldigvis er "Bassen er tung", kan bare en skanning av omliggende setninger avdekke ledetråder, for eksempel å finne ordene "fiske", "båt", "dock" eller omvendt "band", " musikk "eller" sang. "Hvis programmets disambiguation av ordfølelse ikke er robust nok, eller hvis flere ledetråder er fraværende, kan programmet gjøre feil i oversettelsen.

I tillegg til "hvis, da" -regler for den grunne tilnærmingen, brukes algoritmer også for å bestemme riktige tolkninger. I eksemplet over kan en algoritme finne stikkord i hele dokumentet som tydelig peker på en musikalsk tolkning, eller visa versa. Andre tilnærminger brukes også i WSD som i utgangspunktet er forbedringer eller utvidelser av disse grunnleggende tilnærmingene.

Ordforståelse er også viktig i verbale kommandogrensesnitt designet for å erstatte tastaturet - ikke bare for å videresende enkle operativsystemkommandoer, men i så komplekse oppgaver som å forske på nettet. Andre områder der WSD spiller en rolle inkluderer utvikling av Semantic Web og forbedrede kunstige intelligensmodeller. Faktisk vil ethvert vitenskapelig område som er avhengig av en språklig bro mellom menneske og maskin, bruke ordfølelse-disambiguering.

ANDRE SPRÅK

Hjalp denne artikkelen deg? Takk for tilbakemeldingen Takk for tilbakemeldingen

Hvordan kan vi hjelpe? Hvordan kan vi hjelpe?