Co to jest rozpoznawanie głosu?
Rozpoznawanie głosu może odnosić się do jednego z dwóch rodzajów informatyki: identyfikacja głosu kryminalistycznego lub możliwości mowy do tekstu. W tym artykule dotyczy tej drugiej definicji.
W tym przypadku rozpoznawanie głosu lub rozpoznawanie mowy jest technologią komputerową, która wykorzystuje dane wejściowe audio do wprowadzania danych, a nie klawiatury. Na przykład w mikrofonie daje ten sam wynik, co wpisanie słów ręcznie za pomocą klawiatury. Mówiąc wprost, oprogramowanie do rozpoznawania głosu zostało zaprojektowane z wewnętrzną bazą danych rozpoznawalnych słów lub fraz. Program pasuje do podpisu mowy z odpowiednimi wpisami w bazie danych.
Chociaż przekształcenie mowy w tekst może brzmieć łatwo, jest to niezwykle trudne zadanie. Problem leży w praktycznie nieskończonej gamie poszczególnych wzorców mowy i akcentów, spotęgowanej naturalną ludzką tendencją do wspólnej biegania słów.
Ilustracja nieodłącznych wyzwań oprogramowania do rozpoznawania głosu pojawia się na koszulce Cre CreAted przez badaczy Apple. Koszula brzmi: „Pomogłem Apple zniszczyć ładną plażę”. Mówiąc na głos, brzmi to: pomogłem Apple rozpoznać mowę.
Różne modele oprogramowania do rozpoznawania głosu są używane do szeregu aplikacji, od osobistego dyktowania po komercyjne zautomatyzowane routing połączeń, od wspomagania osób niepełnosprawnych po uprawnienia do sportu i wiadomości. Każdy model zachowuje się inaczej i ma swoje własne możliwości i granice.
Programy rozpoznawania głosu, które wymagają od użytkownika „wyszkolenia” oprogramowania do rozpoznania ich konkretnych stylizowanych wzorców mowy, są nazywane systemami zależnymi od głośników . Osoby często używają tego rodzaju programów w domu lub w biurze. E -mail, notatki, litery, dane i tekst można wprowadzić, wypowiadając się w mikrofonie.
Niektóre systemy rozpoznawania głosu, zwane dyskretną mową , wymagają od użytkownika jasno mówienia i sskromnie i oddzielić słowa. Systemy ciągłej mowy są zaprojektowane tak, aby zrozumieć bardziej naturalny sposób mówienia.
Dyskretne systemy rozpoznawania głosu mowy są szeroko stosowane do routingu obsługi klienta. System jest niezależny od głośnika , ale rozumie tylko małą pulę słów lub fraz. Dzwoniący ma wybór odpowiedzi na pytanie, zwykle z „tak” lub „nie”. Po otrzymaniu odpowiedzi system eskaluje dzwoniącego na wyższy poziom. Jeśli dzwoniący odpowiada unikalnej odpowiedzi, zautomatyzowana odpowiedź brzmi: „Przepraszam, nie rozumiałem cię; spróbuj ponownie” z powtórzeniem pytania i dostępnymi odpowiedziami. Tego rodzaju rozpoznawanie głosu jest również określane jako rozpoznawanie ograniczonego gramatyki .
Ciągła mowa jest bardziej wyrafinowaną formą oprogramowania do rozpoznawania głosu, w którym dzwoniący może mówić naturalnie, aby wyjaśnić problem lub poprosić o usługę. Ten program został zaprojektowany do wybierania słów kluczowych lub fraz i tworzenia statystykiIstical Bestsession, co chce klient. Mówienie wyraźnie pomaga w rozpoznawaniu głosu w identyfikacji potrzeby. Ten typ systemu ma znacznie bardziej intensywną bazę danych niż dyskretne systemy mowy i jest również określane jako rozpoznawanie języka naturalnego.
Automatyczne rozpoznawanie mowy (ASR) to model rozpoznawania głosu przeznaczony do dyktowania. To oprogramowanie różni się od poprzednich modeli tym, że nie stara się zrozumieć, co się mówi, tylko w celu zidentyfikowania słów wypowiedzianych. Ponieważ wiele słów w języku angielskim brzmi podobnie, łatwo popełniają błędy. Jednak główne firmy, takie jak Microsoft, inwestują w rozpoznawanie głosu, a własna prognoza Billa Gatesa ma ciągłe zrozumienie mowy ASR do roku 2011. Oprogramowanie ASR często znajduje się w cyfrowym rejestratorach głosowych.
Dominując gracze w oprogramowaniu do rozpoznawania głosu byli Scansoft i Nuance, a była firma nabyła drugą. Mniejsi gracze to mowa Fonix, Aculab i Verbio, wśródInni, z dużymi korporacjami, takimi jak IBM i wspomniany Microsoft, również inwestują w technologię. Chociaż wielu nadal uważa, że więcej kłopotów jest szkolenie oprogramowania i poprawienie błędów niż po prostu korzystanie z klawiatury, nadchodzi czas, gdy oprogramowanie rozpoznawania głosu prawdopodobnie zakończy tę lukę. Rozszerzenie klawiatury o dyskryminującą zdolność do używania mowy prawdopodobnie stanie się powszechna.
Oprogramowanie do rozpoznawania głosu zyskuje na popularności, ponieważ staje się bardziej wyrafinowane. Jest to szczególnie przydatne w biznesie, w którym może zastąpić operatora na żywo, aby leżeć, rozpowszechniać informacje, przyjmować zamówienia i wykonywać inne bardzo przydatne funkcje. Jednak zyskuje również przysługę jako aplikacja komputerowa, pomagana przez znane oprogramowanie, takie jak Scansoft, DragonnaturallySpakeing i IBM Viavoice .