Jakie są różne techniki rozpoznawania mowy?
Do przechwytywania słów mówionych i konwertowania danych, które mogą korzystać z oprogramowania, używanych jest kilka technik rozpoznawania mowy. Istnieją trzy szerokie sposoby analizy mowy w celu ustalenia, co się mówi. Pierwsza nazywa się mowa dyskretna, co oznacza, że jedno słowo jest wypowiadane na raz. Druga jest znana jako powiązana mowa, a słowa należy wypowiedzieć w pewien sposób, aby je zrozumieć. Wreszcie istnieje ciągła mowa, w której większość ludzi normalnie mówi.
Najczęstszym algorytmem stosowanym do wszystkich rodzajów technik rozpoznawania mowy jest ukryty model Markowa (HMM). System ten obejmuje duże drzewa danych fonemów lub podstawowe dźwięki i sylaby, które są podzielone przez prawdopodobieństwo statystyczne jednego dźwięku po drugim. Porównując każdy fonem z węzłem w drzewie danych dźwięków, faktyczne ukończone słowo można określić z wysoką wskaźnikiem dokładności w stosunkowo krótkim okresie.ROZES z niektórymi technikami rozpoznawania mowy jest izolowanie, w którym słowo zaczyna się i kończy. To zadanie komplikuje szum tła w pokoju i fakt, że niektóre sylaby mają podpis dźwiękowy, który przypomina przerwę między słowami. Z tego powodu dyskretne i połączone techniki rozpoznawania mowy są najdokładniejsze.
Kolejnym czynnikiem, który oddziela różne techniki rozpoznawania mowy, jest problem słownictwa oprogramowania. Oprogramowanie, które interpretuje mowę, może mieć bardzo ograniczone słownictwo o wysokiej dokładności, albo duże słownictwo, które należy dopasować do indywidualnych wzorców mowy określonego użytkownika. Gdy program używa metody montażu słów HMM, im mniej liczby rozumianych słów, tym bardziej dokładny może być program. Jest to metoda, z której większość zautomatyzowanych systemów telefonicznych używa do rozszyfrowania liczb lub odpowiedzi na pytania.mowa recoTechniki GNITION, które rozumieją duże słownictwo, są zwykle zaprojektowane do interakcji z bardzo niewielką lub tylko jednym użytkownikiem. Wynika to z faktu, że program musi zostać przeszkolony w celu zrozumienia wzorców mowy osoby mówienia. Szkolenie obejmuje czytanie gotowych akapitów tekstu do oprogramowania. Czytane słowa są znane, więc program jest w stanie zbudować model statystyczny fonemów specyficznych dla użytkownika. Daje to programowi znacznie większą szansę na zrozumienie użytkownika, ale może również utrudnić zrozumienie programu osób, z którymi nie wyszkolił.
Najtrudniejszymi technikami rozpoznawania mowy jest interpretacja mowy ciągłej lub naturalnej. Wiele osób ma tendencję do biegania słów i mówi z różnymi prędkościami, więc dokładność programów, które tłumaczą ciągłą mowę, jest niższa niż w przypadku innych metod. Mimo to istnieją programy, które mogą przetłumaczyć ten rodzaj mowy, niektóre z nich stosują rozmytą logikę i sieci neuronowe, aby pomóc rozpoznać PATrybitwy i izolowane słowa.