Jakie są różne techniki rozpoznawania mowy?
Do przechwytywania wymawianych słów i konwertowania ich na dane, które mogą być używane przez oprogramowanie, stosuje się kilka technik rozpoznawania mowy. Istnieją trzy szerokie sposoby analizy mowy w celu ustalenia, co się mówi. Pierwsze nazywa się mową dyskretną, co oznacza, że wypowiadane jest tylko jedno słowo na raz. Drugi jest znany jako mowa połączona, a słowa muszą być wypowiedziane w określony sposób, aby zostały zrozumiane. Wreszcie, mowa jest w sposób ciągły i tak zwykle mówi większość ludzi.
Najpopularniejszym algorytmem stosowanym do wszystkich rodzajów technik rozpoznawania mowy jest Ukryty Model Markowa (HMM). System ten obejmuje duże drzewa danych fonemów lub podstawowych dźwięków i sylab, które są podzielone przez statystyczne prawdopodobieństwo jednego dźwięku po drugim. Porównując każdy fonem z węzłem w drzewie danych dźwięków, faktycznie skompletowane słowo można ustalić z dużą szybkością w stosunkowo krótkim czasie.
Jednym z problemów, który jest trudny do pokonania za pomocą niektórych technik rozpoznawania mowy, jest określenie, gdzie słowo zaczyna się i kończy. Zadanie to komplikuje hałas w tle i fakt, że niektóre sylaby mają sygnaturę dźwiękową przypominającą przerwę między słowami. Z tego powodu dyskretne i połączone techniki rozpoznawania mowy są najdokładniejsze.
Kolejnym czynnikiem oddzielającym różne techniki rozpoznawania mowy jest kwestia słownictwa programowego. Oprogramowanie interpretujące mowę może mieć bardzo ograniczone słownictwo z dużą dokładnością lub duże słownictwo, które musi być dopasowane do indywidualnych wzorców mowy konkretnego użytkownika. Kiedy program używa metody HMM do składania słów, im mniej zrozumiałych słów, tym dokładniejszy może być program. Jest to metoda stosowana przez większość zautomatyzowanych systemów telefonicznych do odszyfrowywania numerów lub odpowiedzi na pytania.
Techniki rozpoznawania mowy, które rozumieją duże słownictwo, są zwykle zaprojektowane do interakcji z bardzo nielicznymi lub tylko jednym użytkownikiem. Wynika to z tego, że program musi zostać przeszkolony w zakresie rozumienia wzorców mowy osoby mówiącej. Szkolenie obejmuje czytanie gotowych akapitów tekstu do oprogramowania. Odczytywane słowa są znane, więc program jest w stanie zbudować statystyczny model fonemów specyficzny dla użytkownika. Daje to programowi znacznie większą szansę na zrozumienie użytkownika, ale może również utrudniać programowi zrozumienie ludzi, z którymi nie trenował.
Najtrudniejszą z technik rozpoznawania mowy jest interpretacja mowy ciągłej lub naturalnej. Wiele osób ma tendencję do biegania słów i mówienia z różnymi prędkościami, więc dokładność programów tłumaczących ciągłą mowę jest niższa niż w przypadku innych metod. Nadal istnieją programy, które potrafią tłumaczyć ten rodzaj mowy, niektóre z nich wykorzystują logikę rozmytą i sieci neuronowe do rozpoznawania wzorców i izolowania słów.