Hvad er en akustisk model?

En akustisk model er i det væsentlige et kort over stemmen i forhold til en række trykte ord. Denne teknologi bruges i talegenkendelsesprogrammer til at hjælpe en computer med at lære at genkende en persons talemønstre. En akustisk model er en af de to hovedfiler, der er nødvendige for at køre et talegenkendelsesprogram; den anden er sprogmodellen, der angiver sandsynlige ord og talemønstre, der kan bruges af højttaleren. Disse modeller oprettes ved at sammenligne lyddetaljerne i en talt lydfil med teksten til de talte ord.

Talegenkendelsessoftware er software designet til at genkende og transkribere eller svare på de ord, en person siger. Mange operativsystemer er designet med indbyggede basale talegenkendelsesfunktioner, som brugeren kan tænde og slukke for. Funktioner til talegenkendelse på operativsystemer giver brugeren normalt mulighed for at kontrollere computeren og skrive ord på skærmen ved hjælp af sin stemme.

For at få adgang til talegenkendelsessoftware har en bruger brug for en mikrofon for at få sin stemme til computeren plus et program, der behandler lyden. Mens mange computere har indbyggede mikrofoner, giver en ekstern headsetmikrofon brugeren fordel af klarere stemmelyd og friheden til at bevæge sig rundt i rummet, mens man taler. Standalone talegenkendelsessoftwaremærker inkluderer LumenVox®, Loquendo® og Dragon®.

De fleste talegenkendelsesprogrammer har akustisk modelprogrammering, der giver programmet mulighed for at genkende variationer i udtalen. De bruger mønstre i lyden af talerens stemme til at identificere ord i talen. Mange er designet med installationssoftware lavet for at hjælpe brugeren med at skabe en akustisk model designet til at fortolke hendes egen stemme. Nogle avancerede talegenkendelsesprogrammer kan identificere og fortolke flere sprog, ofte med en lille mængde lydinformation. Jo mere avanceret et talegenkendelsesprogram, desto mere sandsynligt er det at nøjagtigt fortolke ord baseret på dets kontekst, herunder hvor i en sætning et ord tales.

Det felt, der udvikler teknologi for talegenkendelse kaldes computing-sprogvidenskab. Computational sprogvidenskab involverer undersøgelse og design, der skaber software, der er programmeret til at forstå menneskelig tale. Dette felt inkorporerer ofte information fra studiet af psykologi for at skabe akustiske modeller, der mere nøjagtigt kan fortolke tale.

Ordet "akustisk" refererer generelt til alt, hvad der har med lyd at gøre. Selvom akustiske modeller oftest bruges til talegenkendelse, kan de også bruges i musik. En akustisk model af et musikspor kan identificere egenskaber som beats per minut, de musikalske taster eller dominerende tonele i musikken. Denne information kan bruges af et computerprogram til at identificere et musikspor, eller det kan bruges til løst at bestemme den genre, hvor musikken sandsynligvis kategoriseres. Akustiske modeller bruges også i et studieområde kaldet psykoakustik, hvor forskere håber at lære at strukturere musik, der forudsigeligt påvirker hjernen.

Hvad er en akustisk model?

Hjalp denne artikel dig?