Co to jest synteza mowy?

Synteza mowy to proces, w którym komunikacja werbalna jest replikowana za pomocą sztucznego urządzenia. Komputer, który przekształca tekst na mowę, jest jednym rodzajem syntezatora mowy.

Najwcześniejsze formy syntezy mowy zostały zaimplementowane za pomocą maszyn zaprojektowanych do funkcjonowania jak ludzki przewód głosowy. Przykładem jest maszyna do mówienia stworzona przez Wolfgang von Kempelen w 1700 roku. Dzięki temu urządzeniu mowa była wyprodukowana przez ryczącą kuchenną, trzcina duda i dzwonek klarnetu. Kuchenka została zaprojektowana tak, aby działała jak płuca, podczas gdy Glottis (obszar sznurków głosowych) był reprezentowany przez trzcinę duda. Dzwonek klarnetu służył jako usta.

Działanie urządzenia było całkowicie ręczne. Prawa ręka kontrolowała serię dźwigni, podczas gdy lewa ręka manipulowała dzwonkiem klarnetu (usta). Istniała również opcja podłączenia „nozdrzy”, aby uzyskać mniejszy dźwięk nosowy. Tak czy inaczej, o ile prawidłowo użyto podstawowych elementów sterujących, maszyna RecEived Airflow. Ten przepływ powietrza określił rodzaje dźwięków, które zostałyby wyprodukowane.

Kolejne maszyny mówienia w XVIII i XIX wieku utrzymywały tę konfigurację, choć nastąpiły ulepszenia. Na przykład pod koniec XIX wieku Joseph Faber stworzył maszynę do mówienia, która może odbierać wejście przez klawiaturę i pedał. Maszyna była również bardzo kreatywna, ponieważ dźwięk wyszedł przez sztuczną „twarz”.

Kiedy pojawił się XX wiek, innowacje w elektronice pozwoliły na syntezę mowy na jeszcze silniejszy kierunek. Chociaż przesłanka naśladowania ludzkiego przewodu wokalnego była nadal taka sama, maszyny do mówienia na początku XX wieku mogły wytwarzać lepsze dźwięki, ponieważ wkład był bardziej precyzyjny.

Jednak dopiero w nadejściu komputerów synteza mowy mogła być faktycznie użyta poza areną rozrywkową. Wynika to głównie z powodu SPESyntezatory ECH mogą być przechowywane w oprogramowaniu zamiast osobnej maszyny. Dodatkowo, z komputerami jako pomoc, synteza mowy może przybierać inną formę; Używanie ludzkich głosów jako głównego źródła dźwięku.

Ta forma syntezy mowy jest znana jako konatennacyjna. Proces działa poprzez połączenie różnych nagrań ludzkiej mowy. Powstały dźwięk jest znacznie bardziej naturalny i przyjemny dla ucha. Jest to sprzeczne z programami wykorzystującymi syntezę artykulacyjną, w których mowa jest replikowana przez skomputeryzowany model przewodu głosowego.

Komercyjne syntezatory mowy mogą stosować metody konatenatywne lub artykulacyjne, ale oba są w stanie osiągnąć ten sam cel; Możliwość zapewnienia ludziom możliwości usłyszenia tekstu. Jest to szczególnie pomocne w sytuacjach, w których czytanie jest obwodowe lub niemożliwe.

W świecie biznesu takie sytuacje są bardzo powszechne, szczególnie w przypadku transakcji telefonicznych. Bez alternatywnych alternatywnych tekstów (TTS), biznesWłaściciele musieliby wydać pieniądze na zatrudnienie jeszcze więcej personelu obsługi klienta. Zsyntetyzowane rozwiązania unikają tego problemu, ponieważ wszystko jest wykonywane przez komputer; nie istota ludzka.

Zsyntetyzowana mowa również odgrywa rolę w życiu codziennym, szczególnie w przypadku osób niepełnosprawnych. Mówienie zegarów, słowników i innych urządzeń mogą ułatwić osobom, które mają problemy z widzeniem lub czytaniem. Zsyntetyzowana mowa jest nawet w stanie dać głos osobom, które wcale nie mogły mówić. Steven Hawking, słynny fizyk, jest ważnym przykładem. Ponieważ choroba Lou Gehrig sprawiła, że ​​nie ma go, Hawking używa syntezatora głosowego do komunikowania się z ludźmi.

Istnieją również aplikacje TTS, które pomagają osobom w różnych czynnościach komputerowych. Aby uzyskać tego rodzaju aplikacje, większość użytkowników będzie musiała kupić osobne oprogramowanie lub pobrać łatki. Ta ostatnia opcja jest zwykle bezpłatna, w zależności od używanego systemu operacyjnego lub programu edytora tekstu. Jednakże,Jeśli dana osoba zdecyduje się kupić osobne oprogramowanie, może mieć dostęp do systemu wyższej jakości. Konkretne przykłady można zobaczyć za pośrednictwem Natural Reader 7 i tekstu na głos 2.

Ostatecznie synteza mowy to technologia, która zrewolucjonizowała sposób komunikacji ludzkości. W pewnym sensie daje własne życie. Daje to także światu możliwość usłyszenia myśli błyskotliwych osób, które normalnie byłyby bezdźwięczne.

INNE JĘZYKI