Hva er en akustisk modell?
En akustisk modell er egentlig et kart over stemmen i forhold til en serie trykte ord. Denne teknologien brukes i talegjenkjenningsprogrammer for å hjelpe en datamaskin med å lære å gjenkjenne en persons talemønstre. En akustisk modell er en av de to hovedfilene som er nødvendige for å kjøre et talegjenkjenningsprogram; Den andre er språkmodellen, som indikerer sannsynlige ord og talemønstre som kan brukes av høyttaleren. Disse modellene opprettes ved å sammenligne lyddetaljene til en muntlig lydfil med teksten til de talte ordene.
Talegjenkjenningsprogramvare er programvare designet for å gjenkjenne og transkribere eller svare på ordene en person sier. Mange operativsystemer er designet med innebygde grunnleggende talegjenkjenningsmuligheter som brukeren kan slå av og på. Talegjenkjenningsfunksjoner på operativsystemer gir brukeren vanligvis muligheten til å kontrollere datamaskinen og skrive ord på skjermen ved hjelp av stemmen hennes.
For å få tilgang til talegjenkjenningsprogramvare, trenger en bruker enMikrofon for å få stemmen sin til datamaskinen, pluss et program som behandler lyden. Mens mange datamaskiner har innebygde mikrofoner, gir en ekstern headset-mikrofon brukeren fordelen av klarere stemmelyd og friheten til å bevege seg rundt i rommet mens han snakker. Frittstående talegjenkjenningsprogramvaremerker inkluderer Lumenvox®, Loquendo® og Dragon®.
De fleste talegjenkjenningsprogrammer har akustisk modellprogrammering som gjør at programmet kan gjenkjenne variasjoner i uttale. De bruker mønstre i lyden av talerens stemme for å identifisere ord i tale. Mange er designet med Setup -programvare laget for å hjelpe brukeren med å lage en akustisk modell designet for å tolke sin egen stemme. Noen avanserte talegjenkjenningsprogrammer kan identifisere og tolke flere språk, ofte med en liten mengde lydinformasjon. Jo mer avansert et talegjenkjenningsprogram, jo mer liKely Det er å nøyaktig tolke ord basert på dens kontekst, inkludert hvor det i en setning blir talt.
Studiefeltet som utvikler talegjenkjenningsteknologi kalles Computational Linguistics. Beregningsspråklig innebærer studier og design som skaper programvare programmert til å forstå menneskelig tale. Dette feltet inkluderer ofte informasjon fra studiet av psykologi for å lage akustiske modeller som mer nøyaktig kan tolke tale.
Ordet "akustisk" refererer generelt til alt som har med lyd å gjøre. Selv om akustiske modeller oftest brukes i talegjenkjenning, kan de også brukes i musikk. En akustisk modell av et musikkspor kan identifisere egenskaper som beats per minutt, de musikalske nøklene eller dominerende plasser i musikken. Denne informasjonen kan brukes av et dataprogram for å identifisere et musikkspor, eller det kan brukes til å løst bestemme sjangeren som musikken sannsynligvis er kategorisert i. Akustiske modeller brukes også i et felt avStudie kalt psykoakustikk, der forskere håper å lære å strukturere musikk som forutsigbart påvirker hjernen.