Co to jest rozpoznawanie głosu?
Rozpoznawanie głosu może odnosić się do jednego z dwóch rodzajów informatyki: kryminalistycznej identyfikacji głosu lub funkcji zamiany mowy na tekst. W tym artykule omówiono tę ostatnią definicję.
Rozpoznawanie głosu lub rozpoznawanie mowy w tym przypadku jest technologią komputerową, która wykorzystuje wprowadzanie dźwięku do wprowadzania danych, a nie klawiaturę. Na przykład mówienie do mikrofonu daje taki sam rezultat, jak ręczne wpisywanie słów za pomocą klawiatury. Mówiąc wprost, oprogramowanie do rozpoznawania głosu zostało zaprojektowane z wewnętrzną bazą danych rozpoznawalnych słów lub fraz. Program dopasowuje sygnaturę dźwiękową mowy do odpowiednich wpisów w bazie danych.
Chociaż przekształcanie mowy w tekst może wydawać się łatwe, jest to niezwykle trudne zadanie. Problem leży w praktycznie nieskończonej gamie indywidualnych wzorów mowy i akcentów, połączonych z naturalną ludzką tendencją do łączenia słów.
Ilustracja nieodłącznych wyzwań związanych z oprogramowaniem do rozpoznawania głosu znajduje się na koszulce stworzonej przez naukowców Apple. Na koszulce jest napisane: „Pomogłem Apple zniszczyć ładną plażę”. Kiedy mówię na głos, brzmi to tak, że pomogłem Apple rozpoznać mowę.
Różne modele oprogramowania do rozpoznawania głosu są używane w wielu aplikacjach, od osobistego dyktowania po komercyjne automatyczne przekierowywanie połączeń, od pomocy osobom niepełnosprawnym po napisy sportowe i informacyjne. Każdy model zachowuje się inaczej i ma swoje własne możliwości i granice.
Programy do rozpoznawania głosu, które wymagają od użytkownika „treningu” oprogramowania w zakresie rozpoznawania określonych stylizowanych wzorców mowy, nazywane są systemami zależnymi od mówcy . Osoby często korzystają z tego rodzaju programów w domu lub w biurze. E-mail, notatki, listy, dane i tekst można wprowadzać, mówiąc do mikrofonu.
Niektóre systemy rozpoznawania głosu, zwane dyskretnymi systemami mowy , wymagają od użytkownika wyraźnego i wolnego mówienia oraz oddzielania słów. Ciągłe systemy mowy mają na celu zrozumienie bardziej naturalnego trybu mówienia.
Systemy dyskretnego rozpoznawania mowy są szeroko stosowane do routingu obsługi klienta. System jest niezależny od mówcy , ale rozumie tylko niewielką pulę słów lub fraz. Dzwoniący ma możliwość odpowiedzi na pytanie, zwykle „tak” lub „nie”. Po otrzymaniu odpowiedzi system przenosi rozmówcę na wyższy poziom. Jeśli dzwoniący odpowie unikalną odpowiedzią, automatyczna odpowiedź brzmi: „Przepraszam, nie rozumiem cię; spróbuj ponownie” z powtórzeniem pytania i dostępnych odpowiedzi. Ten rodzaj rozpoznawania głosu jest również określany jako rozpoznawanie ograniczone przez gramatykę.
Ciągła mowa jest bardziej zaawansowaną formą oprogramowania do rozpoznawania głosu, w której dzwoniący może mówić naturalnie, aby wyjaśnić problem lub poprosić o usługę. Ten program ma na celu wybranie słów kluczowych lub fraz i dokonanie statystycznej oceny tego, czego chce klient. Mówienie wyraźnie pomaga rozpoznawać głos w rozpoznawaniu potrzeby. Ten typ systemu ma znacznie bardziej intensywną bazę danych niż dyskretne systemy mowy i jest również określany jako rozpoznawanie języka naturalnego.
Automatyczne rozpoznawanie mowy (ASR) to model rozpoznawania głosu przeznaczony do dyktowania. To oprogramowanie różni się od poprzednich modeli tym, że nie dąży do zrozumienia tego, co się mówi, a jedynie do identyfikacji wypowiadanych słów. Ponieważ wiele słów w języku angielskim brzmi podobnie, łatwo można popełnić błędy. Jednak duże firmy, takie jak Microsoft, inwestują w rozpoznawanie głosu, a według przewidywań Billa Gatesa ASR rozumie ciągłą mowę do roku 2011. Oprogramowanie ASR często znajduje się w cyfrowych rejestratorach głosu.
Dominującymi graczami w oprogramowaniu do rozpoznawania głosu są ScanSoft i Nuance, a poprzednia firma przejmuje drugą. Mali gracze to między innymi Fonix Speech, Aculab i Verbio, a duże korporacje takie jak IBM i wspomniany Microsoft również inwestują w tę technologię. Chociaż wielu nadal uważa, że trudniej jest wyszkolić oprogramowanie i poprawić błędy niż po prostu używać klawiatury, nadchodzi czas, kiedy oprogramowanie do rozpoznawania głosu prawdopodobnie zlikwiduje tę lukę. Rozszerzanie klawiatur o rozróżniającą umiejętność posługiwania się mową prawdopodobnie stanie się powszechne.
Oprogramowanie do rozpoznawania głosu zyskuje na popularności, gdy staje się coraz bardziej wyrafinowane. Jest to szczególnie przydatne w biznesie, gdzie może zastąpić operatora na żywo w celu prowadzenia rozmów, rozpowszechniania informacji, przyjmowania zamówień i wykonywania innych bardzo przydatnych funkcji. Jednak zyskuje również uznanie jako aplikacja komputerowa, wspomagana przez renomowane oprogramowanie, takie jak ScanSoft, DragonNaturallySpeaking i ViaVoice firmy IBM.