Vad är robust taligenkänning?
Robust taligenkänning kan på ett adekvat sätt upptäcka tal under negativa förhållanden som bullriga miljöer eller i skrapande inspelningar. Detta kan ha viktiga tillämpningar på ett antal områden, till exempel brottsbekämpning eller utformning av hörapparater, till exempel. Forskning och utveckling i detta ämne sker på akademiska institutioner, privata företag och välgörenhetsorganisationer med intresse för detta område över hela världen. Karriärer inom detta område är öppna för människor som ljudingenjörer, datorprogrammerare och audiologer.
konventionellt taligenkänning lider av problemet med att ha utformats för idealiska miljöer. En algoritm kan känna igen tal om det förekommer i en lugn miljö med lite till inget bakgrundsbrus, och om högtalaren tydligt formulerar orden. Sådana program kan kämpa med accenter som de inte har lärt sig, och de tenderar också att bryta ner i miljöer med massor av bakgrundsbrus. Världen är ofta bullriga, och därmed sådan utrustningkan vara av begränsad användning i vissa inställningar utan robust taligenkänning.
i diktat, till exempel, de flesta system förlitar sig på en mikrofon som bärs nära munnen för att låta talarens röst dominera så att programmet exakt kan bearbeta talet. Taligenkänning som används i applikationer som fjärrlyssning för brottsbekämpning, design av hörapparater och återställande av historiska inspelningar kan också ha svårigheter med bakgrundsbrus. Robust taligenkänning innebär utveckling av algoritmer som kan bearbeta och kasta detta brus för att bara lämna talet.
Detta kräver komplexa datorförmågor. Bullriga miljöer kan innehålla ett brett utbud av ljud, vilket gör det svårt att helt enkelt skapa ett passfilter som skulle skära ut ett antal ljud. Filtret kanske inte fångar alla problem och kan också störa talet. I robust taligenkänning, progRammers arbetar för att utveckla program som kan identifiera tal och separera det från andra ljudspår. När den har separerats kan det utsättas för en annan pass för att rensa upp signalen, vilket gör att programmet kan köra en normal taligenkänningsalgoritm för att avgöra vad som sägs.
Noggrant taligenkänning kan vara viktigt för automatiserade menyer, diktering och andra realtidsapplikationer. Utvecklingen av robust taligenkänning kan också hjälpa till med skapandet av hörapparater och programvara som och fastställer mänskliga röster i en brum av annat brus och överför just dessa till lyssnaren. Detta gör taligenkänning mer användbart i miljöer som trånga fester och evenemang där flera ljud kan tävla och potentiellt drunkna röster för lyssnare som förlitar sig på taligenkänning.