Hva er de forskjellige teknikkene for talegjenkjenning?

Flere talegjenkjenningsteknikker brukes til å fange talte ord og konvertere dem til data som kan brukes av et program. Det er tre brede måter å analysere tale i et forsøk på å finne ut hva som blir sagt. Det første kalles diskret tale, noe som betyr at bare et enkelt ord blir talt om gangen. Det andre er kjent som tilkoblet tale, og ord må snakkes på en viss måte for å bli forstått. Til slutt er det kontinuerlig tale, som er slik folk flest snakker.

Den vanligste algoritmen som brukes til alle typer talegjenkjenningsteknikker er Hidden Markov Model (HMM). Dette systemet innebærer store datatrær av fonemer, eller grunnleggende lyder og stavelser, som er delt med den statistiske sannsynligheten for at en lyd følger en annen. Ved å sammenligne hvert fonem med en nod i datatreet for lyder, kan det faktiske fullførte ordet bestemmes med en høy grad av nøyaktighet på relativt kort tid.

Et problem som er vanskelig å overvinne med noen talegjenkjenningsteknikker, er å isolere der et ord starter og slutter. Denne oppgaven er komplisert av bakgrunnsstøy i rommet og det faktum at noen stavelser har en lydsignatur som ligner et brudd mellom ord. Av denne grunn er diskrete og tilkoblede talegjenkjenningsteknikker de mest nøyaktige.

En annen faktor som skiller forskjellige teknikker for talegjenkjenning, er spørsmålet om programvareordforråd. Programvare som tolker tale, kan enten ha et veldig begrenset ordforråd med høy nøyaktighet, eller et stort ordforråd som må tilpasses en bestemt brukers individuelle talemønstre. Når et program bruker HMM-metoden for å sette sammen ord, jo færre antall ord som blir forstått, desto mer nøyaktig kan programmet være. Dette er metoden som de fleste automatiserte telefonsystemer bruker for å dechiffrere nummer eller svar på spørsmål.

Teknologi for talegjenkjenning som forstår et stort ordforråd er vanligvis designet for å samhandle med svært få eller bare en bruker. Dette er fordi programmet må trenes for å forstå talemønsteret til personen som snakker. Opplæringen innebærer å lese ferdiglagde avsnitt av tekst til programvaren. Ordene som leses er kjent, så programmet er i stand til å bygge en statistisk modell av fonemer spesifikke for brukeren. Dette gir programmet en mye bedre sjanse for å forstå brukeren, men det kan også hindre programmets forståelse av mennesker det ikke har trent med.

Den vanskeligste av talegjenkjenningsteknikker er å tolke kontinuerlig eller naturlig tale. Mange mennesker har en tendens til å føre ord sammen og snakke i forskjellige hastigheter, så nøyaktigheten til programmer som oversetter kontinuerlig tale er lavere enn for de andre metodene. Fortsatt eksisterer det programmer som kan oversette denne typen tale, noen av dem bruker uklar logikk og nevrale nettverk for å hjelpe til med å gjenkjenne mønstre og isolere ord.

Hva er de forskjellige teknikkene for talegjenkjenning?

Hjalp denne artikkelen deg?