Hva er en akustisk modell?
En akustisk modell er i hovedsak et kart over stemmen i forhold til en serie trykte ord. Denne teknologien brukes i talegjenkjenningsprogrammer for å hjelpe en datamaskin med å lære å gjenkjenne en persons talemønstre. En akustisk modell er en av de to hovedfilene som er nødvendige for å kjøre et talegjenkjenningsprogram; den andre er språkmodellen, som indikerer sannsynlige ord og talemønstre som kan brukes av høyttaleren. Disse modellene er laget ved å sammenligne lyddetaljene i en snakket lydfil med teksten til de talte ordene.
Programvare for talegjenkjenning er programvare designet for å gjenkjenne og transkribere eller svare på ordene en person sier. Mange operativsystemer er designet med innebygde grunnleggende talegjenkjenningsfunksjoner som brukeren kan slå av og på. Funksjoner for talegjenkjenning på operativsystemer gir brukeren vanligvis muligheten til å kontrollere datamaskinen og skrive ord på skjermen ved hjelp av stemmen hennes.
For å få tilgang til talegjenkjenningsprogramvare, trenger en bruker en mikrofon for å få stemmen sin til datamaskinen, pluss et program som behandler lyden. Mens mange datamaskiner har innebygde mikrofoner, gir en ekstern hodetelefonmikrofon brukeren fordelen av klarere stemmelyd og friheten til å bevege seg rundt i rommet mens han snakker. Frittstående talegjenkjenningsprogramvaremerker inkluderer LumenVox®, Loquendo® og Dragon®.
De fleste talegjenkjenningsprogrammer har akustisk modellprogrammering som gjør at programmet kan gjenkjenne variasjoner i uttalen. De bruker mønstre i lyden av talerens stemme for å identifisere ord i talen. Mange er designet med installasjonsprogramvare laget for å hjelpe brukeren med å lage en akustisk modell designet for å tolke hennes egen stemme. Noen avanserte talegjenkjenningsprogrammer kan identifisere og tolke flere språk, ofte med en liten mengde lydinformasjon. Jo mer avansert et talegjenkjenningsprogram, jo mer sannsynlig er det å tolke ord nøyaktig basert på konteksten, inkludert hvor i en setning et ord snakkes.
Studiefeltet som utvikler teknologi for talegjenkjenning, kalles beregningsspråkvitenskap. Computational lingvistikk involverer studier og design som lager programvare programmert for å forstå menneskelig tale. Dette feltet inneholder ofte informasjon fra studiet av psykologi for å lage akustiske modeller som mer nøyaktig kan tolke tale.
Ordet "akustisk" refererer generelt til alt som har med lyd å gjøre. Selv om akustiske modeller oftest brukes i talegjenkjenning, kan de også brukes i musikk. En akustisk modell av et musikkspor kan identifisere egenskaper som takter per minutt, musikktastene eller dominerende tonehøyder i musikken. Denne informasjonen kan brukes av et dataprogram for å identifisere et musikkspor, eller den kan brukes til å løse bestemme sjangeren musikken sannsynligvis blir kategorisert i. Akustiske modeller brukes også i et felt som heter psykoakustikk, der forskere håper å lære å strukturere musikk som forutsigbart påvirker hjernen.