Skip to main content

Melyek a különféle beszédfelismerési technikák?

Számos beszédfelismerési technikát alkalmaznak a beszélt szavak rögzítésére és azokat olyan adatokká alakítják, amelyeket egy szoftverprogram használhat.Három széles módszer van a beszéd elemzésére annak érdekében, hogy meghatározzuk, mit mondanak.Az elsőt diszkrét beszédnek hívják, vagyis egyszerre csak egyetlen szót beszélnek.A másodikot összekapcsolt beszédnek nevezik, és a szavakat bizonyos módon kell beszélni, hogy megérthessék.Végül, folyamatos beszéd van, így a legtöbb ember általában beszél.Ez a rendszer magában foglalja a fonémák nagy adatfáit, vagy az alapvető hangokat és a szótagokat, amelyeket az egyik hang statisztikai valószínűségével osztunk meg.Az egyes fonémák összehasonlításával a hangfák csomópontjával, a tényleges kitöltött szó viszonylag rövid idő alatt magas pontossággal határozható meg.Elkülönítve, ahol egy szó kezdődik és végződik.Ezt a feladatot bonyolítja a szobában lévő háttérzaj, és az a tény, hogy egyes szótagok olyan audio aláírással rendelkeznek, amely a szavak közötti szünethez hasonlít.Ezért a diszkrét és összekapcsolt beszédfelismerési technikák a legpontosabbak.A beszédet értelmező szoftverek vagy nagyon korlátozott szókincs lehet, nagy pontossággal, vagy nagy szókincs, amelyet egy adott felhasználó egyedi beszédmintáinak kell egyeztetni.Amikor egy program a szavak összeszerelésének HMM módszerét használja, annál kevesebb a megértett szavak száma, annál pontosabb lehet a program.Ez a módszer, amelyet a legtöbb automatizált telefonrendszer a számok vagy a kérdésekre adott válaszok megfejtésére használ.Ennek oka az, hogy a programot fel kell képezni a beszélő személy beszédmintáinak megértésére.A képzés magában foglalja az előre elkészített szöveges bekezdések elolvasását a szoftvernek.Az olvasott szavak ismertek, így a program képes felépíteni a felhasználó számára jellemző fonémák statisztikai modelljét.Ez sokkal jobb esélyt biztosít a programnak a felhasználó megértésére, de akadályozhatja a programok megértését is, akikkel még nem képzett.

A beszédfelismerési technikák legnehezebb a folyamatos vagy természetes beszéd értelmezése.Sokan hajlamosak a szavakat együtt futtatni és különböző sebességgel beszélni, tehát a folyamatos beszédet lefordító programok pontossága alacsonyabb, mint a többi módszernél.Ennek ellenére olyan programok léteznek, amelyek lefordíthatják az ilyen típusú beszédeket, néhányuk homályos logikát és ideghálózatokat alkalmaz a minták felismerésére és a szavak elkülönítésére.