Co je rozpoznávání hlasu?

Rozpoznávání hlasu se může odkazovat na jeden ze dvou typů informatiky: forenzní identifikace hlasu nebo schopnost řeči k textu. Tento článek se zabývá posledně uvedenou definicí.

Rozpoznávání hlasu nebo rozpoznávání řeči v tomto případě je počítačovou technologií, která využívá zvukový vstup pro zadávání dat spíše než na klávesnici. Například v rozhovoru do mikrofonu vytváří stejný výsledek jako psaní slov ručně s klávesnicí. Jednoduše řečeno, software pro rozpoznávání hlasu je navržen s interní databází rozpoznatelných slov nebo frází. Program odpovídá zvukovému podpisu řeči s odpovídajícími položkami v databázi.

Ačkoli přeměna řeči na text může znít snadno, je to nesmírně obtížný úkol. Problém spočívá v prakticky nekonečném škálu jednotlivých vzorů řeči a akcentů, které se skládá přirozenou lidskou tendencí spustit slova dohromady.Atted by Apple vědci. Košile zní: „Pomohl jsem Apple zničit pěknou pláž.“ Když se mluví nahlas, zní to jako, Pomohl jsem Apple rozpoznat řeč.

Různé modely softwaru pro rozpoznávání hlasu se používají pro řadu aplikací, od osobního diktátu po komerční automatizované směrování hovorů, od pomoci po deaktivovaném a zpravodajské události. Každý model se chová odlišně a má své vlastní schopnosti a hranice.

programy rozpoznávání hlasu, které vyžadují, aby uživatel „trénoval“ software, aby rozpoznal své konkrétní stylizované vzory řeči, se nazývají reproduktory závislé systémy . Jednotlivci běžně používají tyto typy programů doma nebo v kanceláři. E -mail, poznámky, dopisy, dopisy, data a text mohou být vstup do mikrofonu.

Některé systémy rozpoznávání hlasu, nazývané diskrétní řeč , vyžadují, aby uživatel mluvil jasně a snízké a oddělit slova. Systémy kontinuální řeči jsou navrženy tak, aby porozuměly přirozenějšímu způsobu mluvení.

Diskrétní systémy rozpoznávání hlasu řeči se široce používají pro směrování zákaznických služeb. Systém je reproduktory nezávislý , ale chápe pouze malou skupinu slov nebo frází. Volající má na výběr odpovědět na otázku, obvykle s „ano“ nebo „ne“. Po obdržení odpovědi systém eskaluje volajícího na další úroveň. Pokud volající odpoví s jedinečnou odpovědí, automatizovaná odpověď je obvykle: „Promiň, nerozumím ti; zkuste to znovu,“ s opakováním otázky a dostupnými odpověďmi. Tento typ rozpoznávání hlasu je také označován jako gramatické rozpoznávání.

Nepřetržitá řeč je sofistikovanější formou softwaru pro rozpoznávání hlasu, kdy volající může hovořit přirozeně, aby vysvětlil problém nebo požádal o službu. Tento program je navržen tak, aby vybíral klíčová slova nebo fráze a vytvořil statIstical Best-Goess o tom, co zákazník chce. Mluvení jasně pomáhá rozpoznávání hlasu při identifikaci potřeby. Tento typ systému má mnohem intenzivnější databázi než diskrétní řečové systémy a je také označován jako rozpoznávání přirozeného jazyka.

Automatické rozpoznávání řeči (ASR) je model rozpoznávání hlasu určeného pro diktát. Tento software se liší od předchozích modelů v tom, že se nesnaží porozumět tomu, co se říká, pouze identifikovat mluvená slova. Protože mnoho slov v anglickém jazyce zvuk zní, chyby se snadno dělají. Hlavní společnosti jako Microsoft však investují do rozpoznávání hlasu a vlastní předpověď Bill Gates do roku 2011 porozumění ASR porozumění nepřetržité řeči. Software ASR se často vyskytuje na digitálních hlasových rekordérech.

Dominantní hráči v softwaru pro rozpoznávání hlasu byli Scansoft a Nuance, přičemž bývalá společnost ji získala. Mezi menší hráči patří Fonix Speech, Aculab a VerbioJiní, s hlavními korporacemi, jako je IBM a výše uvedený Microsoft, také investují do technologie. Ačkoli mnozí stále mají pocit, že je to větší potíže s trénováním softwaru a opravy chyb, než jednoduše používat klávesnici, čas, kdy software pro rozpoznávání hlasu pravděpodobně tuto mezeru pravděpodobně uzavře. Rozšíření klávesnic s diskriminující schopností používat řeč se pravděpodobně stane samozřejmostí.

Software pro rozpoznávání hlasu získává popularitu, protože se stává sofistikovanějším. Je to zvláště užitečné v podnikání, kde může nahradit živého operátora, aby volala na volání, šíření informací, přijímání objednávek a provádění dalších vysoce užitečných funkcí. Získává však také laskavost jako aplikaci pro stolní počítače, který pomáhá renomovaným softwarem, jako je Scansoft's, DragonnatuRallyspeaking a IBM viavoice .

JINÉ JAZYKY

Pomohl vám tento článek? Děkuji za zpětnou vazbu Děkuji za zpětnou vazbu

Jak můžeme pomoci? Jak můžeme pomoci?