Co to jest model akustyczny?
Model akustyczny jest zasadniczo mapą głosu w stosunku do serii drukowanych słów. Ta technologia jest używana w programach do rozpoznawania mowy, aby pomóc komputerowi nauczyć się rozpoznawać wzorce mowy danej osoby. Model akustyczny jest jednym z dwóch głównych plików niezbędnych do uruchomienia programu do rozpoznawania mowy; drugim jest model językowy, który wskazuje prawdopodobne słowa i wzorce mowy, które mogą być użyte przez mówcę. Te modele są tworzone przez porównanie szczegółów dźwiękowych mówionego pliku audio z tekstem wypowiadanych słów.
Oprogramowanie do rozpoznawania mowy to oprogramowanie zaprojektowane do rozpoznawania, transkrypcji lub odpowiadania na słowa wypowiedziane przez daną osobę. Wiele systemów operacyjnych ma wbudowane podstawowe funkcje rozpoznawania mowy, które użytkownik może włączać i wyłączać. Funkcje rozpoznawania mowy w systemach operacyjnych zwykle umożliwiają użytkownikowi sterowanie komputerem i pisanie słów na ekranie za pomocą głosu.
Aby uzyskać dostęp do oprogramowania do rozpoznawania mowy, użytkownik potrzebuje mikrofonu, aby przekazać swój głos do komputera, oraz programu przetwarzającego dźwięk. Podczas gdy wiele komputerów ma wbudowane mikrofony, zewnętrzny mikrofon zestawu słuchawkowego zapewnia użytkownikowi wyraźniejszy dźwięk głosu i swobodę poruszania się po pokoju podczas mówienia. Do niezależnych marek oprogramowania do rozpoznawania mowy należą LumenVox®, Loquendo® i Dragon®.
Większość programów do rozpoznawania mowy ma zaprogramowane modelowanie akustyczne, które pozwala programowi rozpoznać różnice w wymowie. Używają wzorów w dźwięku głosu mówcy do rozpoznawania słów w mowie. Wiele z nich zostało zaprojektowanych z oprogramowaniem konfiguracyjnym, które pomaga użytkownikowi stworzyć model akustyczny zaprojektowany do interpretacji własnego głosu. Niektóre zaawansowane programy do rozpoznawania mowy mogą identyfikować i interpretować wiele języków, często z niewielką ilością informacji dźwiękowych. Im bardziej zaawansowany program do rozpoznawania mowy, tym bardziej prawdopodobne jest, że precyzyjnie interpretuje słowa na podstawie kontekstu, w tym miejsca, w którym wypowiedziane jest słowo.
Kierunek, który rozwija technologię rozpoznawania mowy, nazywa się lingwistyką komputerową. Lingwistyka komputerowa obejmuje badania i projektowanie, które tworzą oprogramowanie zaprogramowane do rozumienia mowy ludzkiej. To pole często zawiera informacje z badań psychologii w celu stworzenia modeli akustycznych, które mogą dokładniej interpretować mowę.
Słowo „akustyczny” ogólnie odnosi się do wszystkiego, co ma związek z dźwiękiem. Chociaż modele akustyczne są najczęściej używane w rozpoznawaniu mowy, mogą być również stosowane w muzyce. Model akustyczny utworu muzycznego może identyfikować właściwości, takie jak uderzenia na minutę, klawisze muzyczne lub dominujące tony w muzyce. Informacje te mogą być wykorzystane przez program komputerowy do identyfikacji utworu muzycznego lub mogą być wykorzystane do luźnego określenia gatunku, w którym muzyka jest prawdopodobnie podzielona na kategorie. Modele akustyczne są również wykorzystywane w dziedzinie badań zwanej psychoakustyczną, w której naukowcy mają nadzieję nauczyć się konstruować muzykę, która w przewidywalny sposób wpływa na mózg.