Co je syntéza řeči?
Syntéza řeči je proces, při kterém se verbální komunikace replikuje pomocí umělého zařízení. Počítač, který převádí text na řeč, je jedním ze syntetizátorů řeči.
Nejranější formy syntézy řeči byly implementovány pomocí strojů navržených tak, aby fungovaly jako lidský hlasový trakt. Příkladem je mluvící stroj vytvořený Wolfgangem von Kempelenem v 17. století. S tímto zařízením byla řeč produkována pomocí kuchyňského měchu, dýmky a klarinetu. Kuchyňský měch byl navržen tak, aby fungoval jako plíce, zatímco glottis (oblast hlasivek) byla reprezentována rákosím. Jako ústa sloužil klarinetový zvon.
Obsluha zařízení byla zcela manuální. Pravá ruka ovládala řadu pák, zatímco levá ruka manipulovala s klarinetovým zvonem (ústy). Také bylo možné připojit „nosní dírky“, aby se vytvořil méně nosní zvuk. V každém případě, pokud byly správně použity základní ovládací prvky, stroj obdržel proud vzduchu. Tento proud vzduchu určoval typy zvuků, které by se vytvářely.
Následující řečnické stroje během 18. a 19. století udržovaly toto nastavení, i když došlo k vylepšení. Například v pozdních 1800s, Joseph Faber vytvořil mluvící stroj, který mohl přijímat vstup přes klávesnici a pedál. Stroj byl také velmi kreativní, protože zvuk vyšel přes umělou tvář.
Když přišlo 20. století, inovace v elektronice umožnily syntézu řeči ještě silnějším směrem. Ačkoli předpoklad napodobování lidského hlasového traktu byl stále stejný, mluvící stroje na počátku 20. století mohly produkovat lepší zvuky, protože vstup byl přesnější.
Syntézu řeči však bylo možné použít až do příchodu počítačů mimo zábavní arénu. Je to hlavně proto, že syntetizátory řeči by mohly být uloženy v softwaru místo samostatného počítače. U počítačů jako pomůcky by syntéza řeči mohla nabýt jiné podoby; používání lidských hlasů jako hlavního zdroje zvuku.
Tato forma syntézy řeči je známá jako zřetězená. Tento proces funguje propojením různých záznamů lidské řeči. Výsledný zvuk je mnohem přirozenější a příjemnější pro ucho. Toto je v kontrastu k programům, které používají artikulační syntézu, kde řeč je replikována přes počítačový model hlasového traktu.
Komerční syntetizátory řeči mohou používat buď zřetězené nebo artikulační metody, ale oba jsou schopny dosáhnout stejného cíle; být schopen dát lidem příležitost slyšet text. To je zvláště užitečné v situacích, kdy je čtení rušivé nebo nemožné.
V obchodním světě jsou takové situace velmi běžné, zejména u telefonních transakcí. Bez alternativ převodu textu na řeč (TTS) by vlastníci podniků museli utratit peníze najímáním ještě více pracovníků zákaznického servisu. Syntetizovaná řešení se tomuto problému vyhýbají, protože vše se děje pomocí počítače; ne lidská bytost.
Syntetizovaná řeč také hraje roli v každodenním životě, zejména pro osoby se zdravotním postižením. Mluvící hodiny, slovníky a další zařízení mohou usnadnit práci lidem, kteří mají potíže se zobrazováním nebo čtení. Syntetizovaná řeč je dokonce schopna dát hlas jednotlivcům, kteří vůbec neuměli mluvit. Významným příkladem je slavný fyzik Steven Hawking. Od doby, kdy ho Lou Gehrigova choroba ztlumila, používá Hawking ke komunikaci s lidmi hlasový syntetizátor.
K dispozici jsou také aplikace TTS, které pomáhají lidem při různých počítačových aktivitách. K získání těchto typů aplikací bude většina uživatelů muset zakoupit samostatný software nebo stáhnout opravy. Druhá možnost je obvykle bezplatná v závislosti na použitém operačním systému nebo programu pro zpracování textu. Pokud se však osoba rozhodne koupit samostatný software, mohla by mít přístup k systému vyšší kvality. Konkrétní příklady lze vidět v Natural Reader 7 a Text Aloud 2.
Konečně syntéza řeči je technologie, která způsobila revoluci ve způsobu komunikace lidstva. V jistém smyslu dává textu svůj vlastní život. Rovněž dává světu příležitost slyšet myšlenky brilantních jednotlivců, kteří by za normálních okolností nebyli neznělí.