Hva er robust talegjenkjenning?

Robust talegjenkjenning kan tilstrekkelig oppdage tale under ugunstige forhold som støyende miljøer eller i skrapete innspillinger. Dette kan ha viktige bruksområder på en rekke områder, for eksempel rettshåndhevelse eller utforming av høreapparat, for eksempel. Forskning og utvikling i dette emnet skjer ved akademiske institusjoner, private selskaper og veldedige organisasjoner med interesse for dette feltet over hele verden. Karrierer på dette feltet er åpne for personer som lydingeniører, dataprogrammerere og audiologer.

Konvensjonell talegjenkjenning lider av problemet med å ha blitt designet for ideelle miljøer. En algoritme kan gjenkjenne tale hvis den forekommer i et stille miljø med liten eller ingen bakgrunnsstøy, og hvis høyttaleren tydelig artikulerer ordene. Slike programmer kan slite med aksenter som de ikke har lært, og de har også en tendens til å bryte sammen i miljøer med mye bakgrunnsstøy. Verden er ofte støyende, og dermed slikt utstyrKan være av begrenset bruk i noen innstillinger uten robust talegjenkjenning.

I diktering, for eksempel, er de fleste systemer avhengige av en mikrofon som er brukt nær munnen, for å la talerens stemme dominere slik at programmet nøyaktig kan behandle talen. Talegjenkjenning som brukes i applikasjoner som fjernlytting for lovhåndhevelse, design av høreapparat og restaurering av historiske innspillinger kan også ha vanskeligheter med bakgrunnsstøy. Robust talegjenkjenning innebærer utvikling av algoritmer som kan behandle og forkaste denne støyen for å etterlate bare talen.

Dette krever komplekse databehandlingsevner. Støyende miljøer kan inneholde et bredt utvalg av lyder, noe som gjør det vanskelig å bare lage et passfilter som ville kutte ut en rekke støy. Filteret fanger kanskje ikke alle problemstøyene, og kan potensielt forstyrre talen også. I robust talegjenkjenning, progRammers jobber for å utvikle programmer som kan identifisere tale og skille det ut fra andre lydspor. Når den er skilt, kan det bli utsatt for en annen passering for å rydde opp i signalet, slik at programmet kan kjøre en normal talegjenkjenningsalgoritme for å bestemme hva som blir sagt.

Nøyaktig talegjenkjenning kan være viktig for automatiserte menyer, diktat og andre sanntidsapplikasjoner. Utviklingen av robust talegjenkjenning kan også hjelpe med å skape høreapparater og programvare som og finne menneskelige stemmer i en brum av annen støy, og overføre bare disse til lytteren. Dette gjør talegjenkjenning mer nyttig i miljøer som overfylte fester og hendelser der flere lyder kan konkurrere, og potensielt drukne stemmer for lyttere som er avhengige av talegjenkjenning.

Hva er robust talegjenkjenning?

ANDRE SPRÅK