Hvad er robust talegenkendelse?

Robust talegenkendelse kan tilstrækkeligt opdage tale under ugunstige forhold som støjende miljøer eller i ridseroptagelser. Dette kan have vigtige anvendelser på en række områder, såsom retshåndhævelse eller design af høreapparater, for eksempel. Forskning og udvikling af dette emne forekommer på akademiske institutioner, private virksomheder og velgørende organisationer med interesse for dette felt over hele verden. Karrierer på dette område er åbne for mennesker som lydingeniører, computerprogrammerere og audiologer.

Konventionel talegenkendelse lider af problemet med at være designet til ideelle miljøer. En algoritme kan genkende tale, hvis den forekommer i et roligt miljø med lidt til ingen baggrundsstøj, og hvis taleren tydeligt artikulerer ordene. Sådanne programmer kan kæmpe med accenter, som de ikke har lært, og de har også en tendens til at bryde sammen i miljøer med masser af baggrundsstøj. Verden er ofte støjende, og dermed sådan udstyrKan være til begrænset brug i nogle indstillinger uden robust talegenkendelse.

I diktatet er for eksempel de fleste systemer afhængige af en mikrofon, der er båret tæt på munden, for at lade højttalerens stemme dominere, så programmet nøjagtigt kan behandle talen. Talegenkendelse, der bruges i applikationer som fjernlyttelse til retshåndhævelse, design af høreapparat og restaurering af historiske optagelser, kan også have svært ved baggrundsstøj. Robust talegenkendelse involverer udvikling af algoritmer, der kan behandle og kassere denne støj for at forlade bare talen.

Dette kræver komplekse computerfærdigheder. Støjende miljøer kan indeholde en lang række lyde, hvilket gør det svært at blot oprette et pasfilter, der ville skære en række støj ud. Filteret fanger muligvis ikke alle de problemlyde og kan potentielt også forstyrre talen. I robust talegenkendelse, progRammers arbejder for at udvikle programmer, der kan identificere tale og adskille den fra andre lydspor. Når det er adskilt, kan det udsættes for en anden pasning for at rydde op i signalet, så programmet kan køre en normal talegenkendelsesalgoritme for at bestemme, hvad der bliver sagt.

Præcis talegenkendelse kan være vigtig for automatiserede menuer, diktat og andre realtidsapplikationer. Udviklingen af robust talegenkendelse kan også hjælpe med oprettelsen af høreapparater og software, der og præciserer menneskelige stemmer i en brum af anden støj og overfører bare disse til lytteren. Dette gør talegenkendelse mere nyttig i miljøer som overfyldte fester og begivenheder, hvor flere lyde kan konkurrere, potentielt drukne stemmer for lyttere, der er afhængige af talegenkendelse.

Hvad er robust talegenkendelse?

ANDRE SPROG

RELATEREDE ARTIKLER

Hvordan kan vi hjælpe?