Jaké jsou různé techniky rozpoznávání řeči?
Několik technik rozpoznávání řeči se používá k zachycení mluvených slov a jejich převodu na data, která lze použít softwarovým programem. Existují tři široké způsoby, jak analyzovat řeč ve snaze určit, co se říká. První se nazývá diskrétní řeč, což znamená, že se najednou mluví pouze jediné slovo. Druhá je známá jako propojená řeč a slova musí být mluvena určitým způsobem, aby bylo možné pochopit. Konečně existuje kontinuální řeč, což je to, jak většina lidí normálně mluví. Tento systém zahrnuje velké datové stromy fonémů nebo základní zvuky a slabiky, které jsou děleny statistickou pravděpodobností jednoho zvuku po druhém. Porovnáním každého fonému s uzlem ve stromu zvuků lze skutečné dokončené slovo určit s vysokou mírou přesnosti v relativně krátkém časovém období.
Jeden problém, který je obtížné oveROMES s některými technikami rozpoznávání řeči je izolační tam, kde slovo začíná a končí. Tento úkol je komplikován šumem na pozadí v místnosti a skutečností, že některé slabiky mají zvukový podpis, který se podobá zlomu mezi slovy. Z tohoto důvodu jsou nejpřesnější techniky rozpoznávání řeči diskrétní a propojené.
Dalším faktorem, který odděluje různé techniky rozpoznávání řeči, je problém softwarové slovní zásoby. Software, který interpretuje řeč, může mít buď velmi omezenou slovní zásobu s vysokou přesností, nebo velkou slovní zásobu, která musí být přizpůsobena jednotlivým vzorcům řeči konkrétního uživatele. Když program používá metodu sestavení slov HMM, tím méně počtu slov, která jsou pochopena, může být program přesnější. Toto je metoda, kterou většina automatizovaných telefonních systémů používá k dešifrování čísel nebo odpovědí na otázky.
řeč recoTechniky gniti, které chápou velkou slovní zásobu, jsou obvykle navrženy tak, aby interagovaly s velmi málo nebo pouze jedním uživatelem. Je to proto, že program musí být vyškolen, aby porozuměl řečovým vzorcům mluvící osobě. Školení zahrnuje čtení předem vytvořených odstavců textu k softwaru. Čtená slova jsou známa, takže program je schopen vytvořit statistický model fonémů specifických pro uživatele. To dává programu mnohem větší šanci na porozumění uživateli, ale také by to mohlo bránit pochopení lidí, s nimiž se nevycvičil.
Nejobtížnější z technik rozpoznávání řeči je interpretace kontinuální nebo přirozené řeči. Mnoho lidí má tendenci řídit slova společně a mluvit různými rychlostmi, takže přesnost programů, které překládají nepřetržitou řeč, je nižší než u jiných metod. Stále však existují programy, které mohou tento typ řeči překládat, některé z nich využívají fuzzy logiku a neuronové sítě, aby pomohly rozpoznat PatRány a izolujte slova.