Jaké jsou různé techniky rozpoznávání řeči?

Několik technik rozpoznávání řeči se používá k zachycení mluvených slov a jejich konverzi na data, která lze použít v softwarovém programu. Existují tři široké způsoby, jak analyzovat řeč ve snaze určit, co se říká. První se nazývá diskrétní řeč, což znamená, že najednou se mluví pouze jedno slovo. Druhá je známa jako propojená řeč a slova musí být mluvena určitým způsobem, aby byla pochopena. Konečně, existuje nepřetržitá řeč, což je to, jak většina lidí normálně mluví.

Nejběžnějším algoritmem používaným pro všechny typy technik rozpoznávání řeči je skrytý Markovův model (HMM). Tento systém zahrnuje velké datové stromy fonémů nebo základních zvuků a slabik, které jsou rozděleny statistickou pravděpodobností jednoho zvuku za druhým. Porovnáním každého fonému s uzlem v datovém stromu zvuků lze skutečné dokončené slovo určit s vysokou mírou přesnosti v relativně krátkém časovém období.

Jedním z problémů, který je obtížné překonat pomocí některých technik rozpoznávání řeči, je izolovat, kde slovo začíná a končí. Tento úkol je komplikován šumem v místnosti a skutečností, že některé slabiky mají zvukový podpis, který se podobá přestávce mezi slovy. Z tohoto důvodu jsou nejpřesnější techniky diskrétního a propojeného rozpoznávání řeči.

Dalším faktorem, který odděluje různé techniky rozpoznávání řeči, je otázka softwarové slovní zásoby. Software, který interpretuje řeč, může mít buď velmi omezenou slovní zásobu s vysokou přesností, nebo velkou slovní zásobu, která musí odpovídat individuálním vzorům řeči konkrétního uživatele. Pokud program používá metodu sestavování slov HMM, čím menší počet slov je pochopen, tím přesnější může být program. Toto je metoda, kterou většina automatizovaných telefonních systémů používá k dešifrování čísel nebo odpovědí na otázky.

Techniky rozpoznávání řeči, které rozumí velké slovní zásobě, jsou obvykle navrženy tak, aby komunikovaly s velmi malým nebo pouze jedním uživatelem. Je to proto, že program musí být vyškolen, aby porozuměl vzorcům řeči mluvené osoby. Školení zahrnuje čtení předem připravených odstavců textu do softwaru. Čtená slova jsou známá, takže program je schopen vytvořit statistický model foném specifických pro uživatele. To dává programu mnohem lepší šanci porozumět uživateli, ale také to může bránit porozumění programu lidem, s nimiž se necvičil.

Nejobtížnější z technik rozpoznávání řeči je interpretace nepřetržité nebo přirozené řeči. Mnoho lidí má tendenci běžet slova společně a mluvit různými rychlostmi, takže přesnost programů, které překládají nepřetržitou řeč, je nižší než přesnost ostatních metod. Stále existují programy, které dokážou přeložit tento typ řeči, některé z nich využívají fuzzy logické a neuronové sítě, které pomáhají rozpoznávat vzory a izolovat slova.

JINÉ JAZYKY

Pomohl vám tento článek? Děkuji za zpětnou vazbu Děkuji za zpětnou vazbu

Jak můžeme pomoci? Jak můžeme pomoci?