Hvad er Word Sense disambiguation?
Word sense disambiguation (WSD) ligger i kernen i softwareprogrammer designet til at fortolke sprog. Tvetydige ord eller sætninger kan forstås på flere måder, skønt kun en mening er beregnet. Dis- ambiguering søger at dechiffrere den tilsigtede betydning af ord og sætninger. Dette område er ekstremt udfordrende for programmerere, der har til opgave at designe nøjagtige grænseflader til at bygge bro mellem talte og skriftlige sprog og computergenererede oversættelser.
Software designet til at konvertere tale til tekst kan "lytte" til en bruger, der taler til en mikrofon og oversætte talte ord til indtastede sætninger. Brugeren dikterer tegnsætning, interjecterer ord som “komma” og “periode”, hvor det er relevant. Dette lyder ret ligetil, bortset fra at mange ord lyder nøjagtigt ens.
For eksempel ved og ingen eller jeg og øje kan fonetisk ikke skelnes. Ordfornemmelseshæmmelse hjælper med at oversætte ”Jeg burde vide det i næste uge” korrekt ved at bruge det, der dybest set er et sæt ”hvis, så” -regler, der tager ordplacering og tilstødende ord i betragtning som indikatorer for det tilsigtede ord. Denne type ordfornemmelse er kendt som "lav tilgang" og er ret nøjagtig, men kan ikke altid regnes med.
En anden tilgang er at anvende ”verdensviden”, eller hvad datalingvistik kalder ”dyb tilgang”. Denne tilgang er afhængig af leksikoner som ordbøger og synonymordbøger for at hjælpe med at bestemme et ords rette forstand. Desværre er det ikke en nem opgave at designe en dyb tilgangsdatabase, der er omfattende nok til at give bedre nøjagtighed end den lave tilgang.
Software, der læser tekst højt (tekst-til-tale) kræver også disambiguering af ordfølelse. Ordet bas , for eksempel, kan betyde et musikinstrument, en note eller en fisk. I sidstnævnte tilfælde udtales det forskelligt, hvilket overlades til WSD for at afgøre, hvilken udtale der skal bruges. Hvis den indtastede sætning tilfældigvis er, ”Bassen er tung”, kan kun en scanning af omgivende sætninger afsløre spor, såsom at finde ordene “fiskeri”, “båd”, “dock” eller omvendt “band”, “ musik ”eller“ sang. ”Hvis programmets disambiguation af ordfølelse ikke er robust nok, eller hvis der ikke er flere spor, kan programmet lave fejl i oversættelsen.
Foruden "hvis, så" -reglerne for den lave tilgang, bruges algoritmer også til at bestemme korrekte fortolkninger. I ovenstående eksempel kan en algoritme muligvis finde nøgleord i hele dokumentet, der tydeligt peger på en musikalsk fortolkning eller visa versa. Andre tilgange anvendes også i WSD, der dybest set er forbedringer eller udvidelser af disse basale tilgange.
Ordfornemmelse er også vigtig i verbale kommandogrænseflader designet til at erstatte tastaturet - ikke kun ved videresendelse af enkle operativsystemkommandoer, men i så komplekse opgaver som undersøgelse af Internettet. Andre områder, hvor WSD spiller en rolle, inkluderer udvikling af det semantiske web og forbedrede kunstige intelligensmodeller. Faktisk vil ethvert videnskabsområde, der er afhængig af en sproglig bro mellem menneske og maskine, anvende ordfornemmelse.