Vad är en akustisk modell?

En akustisk modell är i huvudsak en karta över rösten i förhållande till en serie tryckta ord. Denna teknik används i taligenkänningsprogram för att hjälpa en dator att lära sig känna igen personens talmönster. En akustisk modell är en av de två huvudfilerna som krävs för att köra ett taligenkänningsprogram; den andra är språkmodellen, som indikerar troliga ord och talmönster som kan användas av högtalaren. Dessa modeller skapas genom att jämföra ljuddetaljerna i en talad ljudfil med texten till de talade orden.

Program för taligenkänning är mjukvara som är utformad för att känna igen och transkribera eller svara på orden en person säger. Många operativsystem är utformade med inbyggda grundläggande taligenkänningsfunktioner som användaren kan slå på och av. Funktioner för taligenkänning på operativsystem ger användaren vanligtvis möjlighet att kontrollera datorn och skriva ord på skärmen med hennes röst.

För att få tillgång till taligenkänningsprogramvara behöver en användare en mikrofon för att få sin röst till datorn, plus ett program som bearbetar ljudet. Medan många datorer har inbyggda mikrofoner tillåter en extern headsetmikrofon användaren fördelarna med tydligare röstljud och friheten att röra sig i rummet medan han talar. Fristående varumärken för taligenkänningsprogram inkluderar LumenVox®, Loquendo® och Dragon®.

De flesta taligenkänningsprogram har akustisk modellprogrammering som gör att programmet kan känna igen variationer i uttal. De använder mönster i ljudet från talarens röst för att identifiera ord i talet. Många är utformade med installationsprogramvara som hjälper användaren att skapa en akustisk modell som är utformad för att tolka hennes egen röst. Vissa avancerade taligenkänningsprogram kan identifiera och tolka flera språk, ofta med en liten mängd ljudinformation. Ju mer avancerat ett taligenkänningsprogram, desto mer sannolikt är det att tolka ord exakt baserat på dess sammanhang, inklusive var i ett mening ett ord talas.

Studiefältet som utvecklar teknik för taligenkänning kallas beräkningslingvistik. Beräkningslingvistik involverar studier och design som skapar programvara som är programmerad för att förstå mänskligt tal. Det här fältet innehåller ofta information från psykologstudiet för att skapa akustiska modeller som mer exakt kan tolka tal.

Ordet "akustisk" hänvisar i allmänhet till allt som har att göra med ljud. Även om akustiska modeller oftast används vid taligenkänning, kan de också användas i musik. En akustisk modell av ett musikspår kan identifiera egenskaper som beats per minut, de musikaliska tangenterna eller dominerande tonhöjder i musiken. Denna information kan användas av ett datorprogram för att identifiera ett musikspår, eller den kan användas för att lösa bestämma den genre där musiken troligen kategoriseras. Akustiska modeller används också i ett studieområde som kallas psykoakustik, där forskare hoppas kunna lära sig att strukturera musik som förutsägbart påverkar hjärnan.

Vad är en akustisk modell?

Hjälpte den här artikeln dig?