Co je rozpoznávání hlasu?
Rozpoznávání hlasu se může vztahovat na jeden ze dvou typů informatiky: forenzní identifikace hlasu nebo schopnost převodu textu na text. Tento článek se zabývá poslední definicí.
Rozpoznávání hlasu nebo rozpoznávání řeči je v tomto případě počítačová technologie, která využívá audio vstup pro zadávání dat spíše než z klávesnice. Například při mluvení do mikrofonu se dosáhne stejného výsledku jako při ručním psaní slov pomocí klávesnice. Jednoduše řečeno, software pro rozpoznávání hlasu je navržen s interní databází rozpoznatelných slov nebo frází. Program porovnává zvukový podpis řeči s odpovídajícími položkami v databázi.
Ačkoli přeměna řeči na text může znít snadno, je to nesmírně obtížný úkol. Problém spočívá v prakticky nekonečném spektru individuálních řečových vzorů a akcentů, které se umocňují přirozenou lidskou tendencí spojovat slova.
Ilustrace vlastních výzev softwaru pro rozpoznávání hlasu se objevuje na tričku vytvořeném vědci Apple. Košile zní: „Pomohl jsem Apple zničit pěknou pláž.“ Když jsem mluvil nahlas, znělo to, že jsem Appleovi pomohl rozpoznat řeč.
Různé modely softwaru pro rozpoznávání hlasu se používají pro celou řadu aplikací, od osobního diktátu po komerční automatické směrování hovorů, od pomoci zdravotně postiženým až po titulky sportovních a zpravodajských událostí. Každý model se chová odlišně a má své vlastní schopnosti a hranice.
Programy rozpoznávání hlasu, které vyžadují, aby uživatel „trénoval“ software, aby rozpoznával jejich konkrétní stylizované vzory řeči, se nazývají systémy závislé na reproduktorech . Jednotlivci běžně používají tyto typy programů doma nebo v kanceláři. E-mail, poznámky, dopisy, data a text lze zadávat mluvením do mikrofonu.
Některé systémy rozpoznávání hlasu, nazývané diskrétní řečové systémy, vyžadují, aby uživatel mluvil jasně a pomalu a aby oddělil slova. Kontinuální řečové systémy jsou navrženy k pochopení přirozenějšího způsobu mluvení.
Pro směrování služeb zákazníkům jsou široce používány diskrétní systémy rozpoznávání hlasu. Systém je nezávislý na mluvčím , ale rozumí pouze malému souboru slov nebo frází. Volající má možnost odpovědět na otázku, obvykle s „ano“ nebo „ne“. Po přijetí odpovědi systém eskaluje volajícího na další úroveň. Pokud volající odpoví jedinečnou odpovědí, automatická odpověď je obvykle „Promiňte, nerozuměl jsem vám; zkuste to znovu“, opakujte otázku a dostupné odpovědi. Tento typ rozpoznávání hlasu je také označován jako rozpoznávání gramatiky.
Nepřetržitá řeč je sofistikovanější formou softwaru pro rozpoznávání hlasu, kde volající může mluvit přirozeně, aby vysvětlil problém nebo požádal o službu. Tento program je navržen tak, aby vybral klíčová slova nebo fráze a učinil statistický přehled o tom, co zákazník chce. Jednoduše řečeno pomáhá rozpoznávání hlasu při identifikaci potřeby. Tento typ systému má mnohem intenzivnější databázi než diskrétní řečové systémy a označuje se také jako rozpoznávání přirozeného jazyka.
Automatické rozpoznávání řeči (ASR) je model rozpoznávání hlasu určený pro diktování. Tento software se liší od předchozích modelů tím, že se nesnaží pochopit, co se říká, pouze identifikovat vyslovená slova. Protože mnoho slov v anglickém jazyce zní stejně, chyby se snadno dělají. Velké společnosti, jako je Microsoft, však investují do rozpoznávání hlasu a vlastní predikce Billa Gatese má ASR pochopení nepřetržité řeči do roku 2011. Software ASR se často nachází u digitálních hlasových záznamníků.
Dominantními hráči v softwaru pro rozpoznávání hlasu byly ScanSoft a Nuance, přičemž první společnost je získala. Mezi menší hráče patří mimo jiné Fonix Speech, Aculab a Verbio, přičemž do této technologie investují také velké společnosti jako IBM a výše uvedený Microsoft. Ačkoli mnozí stále cítí, že je obtížnější trénovat software a opravovat chyby, než jednoduše používat klávesnici, nastává čas, kdy software pro rozpoznávání hlasu tuto mezeru pravděpodobně uzavře. Rozšíření klávesnic s rozlišovací schopností používat řeč bude pravděpodobně samozřejmostí.
Software pro rozpoznávání hlasu získává na popularitě, protože se stává sofistikovanější. Je to zvláště užitečné v podnikání, kde může nahradit živého operátora, který volá cesty, šíří informace, přijímá objednávky a vykonává další vysoce užitečné funkce. Získává však také laskavost jako desktopová aplikace, kterou pomáhá také známý software jako ScanSoft's, DragonNaturallySpeaking a IBM ViaVoice .