Jaké jsou nejčastější problémy s rozpoznáváním řeči?
Software pro rozpoznávání řeči od svého prvního vynalézání značně pokročil, ale stále má několik velkých problémů, které brání tomu, aby bylo použito výhradně jako metoda transkripce. Mezi problémy rozpoznávání řeči, které je obtížné řešit, patří variace ve výslovnosti slov, individuální přízvuky, homonyma a nežádoucí okolní zvuky. Další sada problémů rozpoznávání řeči zahrnuje typ hardwaru použitého ke skutečnému vstupu zvuku, protože výsledky mohou mít velký dopad na to, jak software interpretuje řeč. Je zde také problém neznalost kontextu mluvených slov, což může vést k textu, který nemá interpunkci nebo nepřesná hláskování.
Jedním z nejzákladnějších problémů rozpoznávání řeči je kvalita použitých vstupních zařízení. Pokud mikrofon není dostatečně citlivý - nebo je příliš citlivý -, může vytvořit zvukové informace, které je pro software obtížné rozluštit. To platí zejména v případě, že je mikrofon tak citlivý, že řeč je zdeformovaná, takže rozpoznávací software je téměř zbytečný. Podobný problém pramení z šumu v pozadí, který může být problematický při oddělování od hlavní řeči a může způsobit nepřesné překlady, pokud je zahrnut do zpracování řeči.
Rozdíly ve výslovnosti, akcentech a mluvené kadenci se spojují do jednoho z více prostupujících problémů s rozpoznáváním řeči. Pokud lze jedno slovo vyslovit několika způsoby, software může být zmatený a špatně interpretovat, co se říká. Totéž může nastat, když člověk mluví pomaleji nebo rychleji, než program očekává. Existuje několik dílčích řešení, jako je školení softwaru v řečových vzorcích jediného uživatele a použití dynamických časově deformujících algoritmů pro přizpůsobení řeči databázi vzorků, ale nevyřeší všechny problémy.
Nejsložitějším problémem rozpoznávání řeči je identifikace kontextu mluvených slov. Počítačový software není schopen identifikovat zamýšlený význam souboru slov, což vede k řadě problémů s přepisovaným textem. Slova, která mají podobný zvuk, například „jejich“ a „tam“, lze přesně vyslovit, pouze pokud je znám kontext použití. Ze stejného důvodu je přesná interpunkce téměř nemožná, aby software mohl být umístěn pouze na základě znalosti posloupnosti slov. Existuje funkční transkripční software, který se používá v oborech, jako je medicína, ale výsledkem je často blok slov bez jakéhokoli oddělování, což znamená, že k úpravě dokumentu a vytvoření čitelné konečné kopie je stále zapotřebí lidský transkripční pracovník.