Co to jest synteza mowy?

Synteza mowy to proces, w którym komunikacja werbalna jest replikowana za pomocą sztucznego urządzenia. Komputer, który konwertuje tekst na mowę, jest jednym z rodzajów syntezatorów mowy.

Najwcześniejsze formy syntezy mowy zostały zaimplementowane za pomocą maszyn zaprojektowanych do działania jak ludzki układ głosowy. Przykładem jest mówienie maszyna stworzona przez Wolfganga von Kempelena w latach 1700-tych. Za pomocą tego urządzenia odtwarzano mowę poprzez ryk kuchni, trzcinę dudy i dzwon klarnetowy. Mieszek w kuchni zaprojektowano tak, by zachowywał się jak płuco, podczas gdy głośnia (obszar strun głosowych) była reprezentowana przez trzcinę dudy. Dzwon klarnetowy służył jako usta.

Obsługa urządzenia była całkowicie ręczna. Prawa ręka kontrolowała serię dźwigni, podczas gdy lewa manipulowała dzwonkiem klarnetowym (usta). Istnieje również opcja zatkania „nozdrzy”, aby uzyskać mniej nosowy dźwięk. Tak czy inaczej, dopóki podstawowe elementy sterujące są właściwie używane, maszyna otrzyma przepływ powietrza. Ten przepływ powietrza określił rodzaje dźwięków, które będą wytwarzane.

Kolejne maszyny mówiące w XVIII i XIX wieku utrzymały tę konfigurację, choć wprowadzono ulepszenia. Na przykład pod koniec XIX wieku Joseph Faber stworzył maszynę mówiącą, która może odbierać dane wejściowe za pomocą klawiatury i pedału. Maszyna była również bardzo kreatywna, ponieważ dźwięk wydobywał się ze sztucznej „twarzy”.

Gdy nadszedł wiek XX, innowacje w elektronice pozwoliły syntezie mowy na jeszcze silniejszy kierunek. Chociaż zasada naśladowania ludzkiego układu głosowego była wciąż taka sama, maszyny mówiące z początku XX wieku mogły wytwarzać lepsze dźwięki, ponieważ dane wejściowe były bardziej precyzyjne.

Jednak dopiero po pojawieniu się komputerów synteza mowy mogła być faktycznie wykorzystana poza areną rozrywki. Wynika to głównie z tego, że syntezatory mowy mogą być przechowywane w oprogramowaniu zamiast osobnej maszyny. Ponadto przy pomocy komputerów synteza mowy może przybrać inną formę; wykorzystując ludzkie głosy jako główne źródło dźwięku.

Ta forma syntezy mowy jest znana jako konkatenatywna. Proces ten polega na łączeniu różnych nagrań ludzkiej mowy. Powstały dźwięk jest znacznie bardziej naturalny i przyjemny dla ucha. Jest to w przeciwieństwie do programów wykorzystujących syntezę artykulacyjną, w których mowa jest replikowana przez komputerowy model dróg głosowych.

Komercyjne syntezatory mowy mogą wykorzystywać metody konkatenacyjne lub artykulacyjne, ale oba są w stanie osiągnąć ten sam cel; możliwość dawania ludziom możliwości usłyszenia tekstu. Jest to szczególnie pomocne w sytuacjach, gdy czytanie jest natrętne lub niemożliwe.

W świecie biznesu takie sytuacje są bardzo częste, szczególnie w przypadku transakcji telefonicznych. Bez alternatywy syntezatora mowy (TTS) właściciele firm musieliby wydawać pieniądze na zatrudnienie jeszcze większej liczby pracowników obsługi klienta. Rozwiązania syntetyczne pozwalają uniknąć tego problemu, ponieważ wszystko odbywa się za pomocą komputera; nie człowiek.

Mowa syntezowana odgrywa również rolę w życiu codziennym, szczególnie dla osób niepełnosprawnych. Mówiące zegary, słowniki i inne urządzenia mogą ułatwić ludziom, którzy mają problemy z widzeniem lub czytaniem. Mowa syntezowana jest nawet w stanie dać głos osobom, które w ogóle nie mogą mówić. Znanym fizykiem jest Steven Hawking. Ponieważ choroba Lou Gehriga spowodowała, że stał się niemy, Hawking używa syntezatora głosu do komunikacji z ludźmi.

Dostępne są również aplikacje TTS, które pomagają ludziom przy różnych czynnościach komputerowych. Aby uzyskać tego typu aplikacje, większość użytkowników będzie musiała kupić osobne oprogramowanie lub pobrać łatki. Ta ostatnia opcja jest zwykle bezpłatna, w zależności od używanego systemu operacyjnego lub edytora tekstu. Jeśli jednak osoba zdecyduje się na zakup oddzielnego oprogramowania, może mieć dostęp do systemu wyższej jakości. Konkretne przykłady można zobaczyć w Natural Reader 7 i Text Aloud 2.

Ostatecznie synteza mowy jest technologią, która zrewolucjonizowała sposób komunikacji ludzkości. W pewnym sensie nadaje tekstowi własne życie. Daje to także światu możliwość wysłuchania myśli genialnych osób, które normalnie byłyby bezdźwięczne.

Co to jest synteza mowy?

Czy ten artykuł był pomocny?