Wat is een akoestisch model?
Een akoestisch model is in wezen een kaart van de stem in relatie tot een reeks gedrukte woorden. Deze technologie wordt gebruikt in spraakherkenningsprogramma's om een computer te helpen de spraakpatronen van een persoon te leren herkennen. Een akoestisch model is een van de twee hoofdbestanden die nodig zijn om een spraakherkenningsprogramma uit te voeren; de andere is het taalmodel, dat waarschijnlijke woorden en spraakpatronen aangeeft die door de spreker kunnen worden gebruikt. Deze modellen worden gemaakt door de geluidsdetails van een gesproken audiobestand te vergelijken met de tekst van de gesproken woorden.
Spraakherkenningssoftware is software die is ontworpen om de woorden die een persoon zegt te herkennen en te transcriberen of erop te reageren. Veel besturingssystemen zijn ontworpen met ingebouwde basisfuncties voor spraakherkenning die de gebruiker kan in- en uitschakelen. Spraakherkenningsmogelijkheden op besturingssystemen geven de gebruiker meestal de mogelijkheid om de computer te bedienen en woorden op het scherm te typen met behulp van haar stem.
Voor toegang tot spraakherkenningssoftware heeft een gebruiker een microfoon nodig om haar stem op de computer te krijgen, plus een programma dat het geluid verwerkt. Hoewel veel computers ingebouwde microfoons hebben, biedt een externe headsetmicrofoon de gebruiker het voordeel van een duidelijker stemgeluid en de vrijheid om tijdens het spreken door de kamer te bewegen. Standalone softwaremerken voor spraakherkenning zijn LumenVox®, Loquendo® en Dragon®.
De meeste spraakherkenningsprogramma's hebben akoestische modelprogrammering waarmee het programma variaties in de uitspraak kan herkennen. Ze gebruiken patronen in het geluid van de stem van de spreker om woorden in spraak te identificeren. Velen zijn ontworpen met installatiesoftware die is gemaakt om de gebruiker te helpen een akoestisch model te maken dat is ontworpen om haar eigen stem te interpreteren. Sommige geavanceerde spraakherkenningsprogramma's kunnen meerdere talen identificeren en interpreteren, vaak met een kleine hoeveelheid geluidsinformatie. Hoe geavanceerder een spraakherkenningsprogramma, des te waarschijnlijker is het om woorden nauwkeurig te interpreteren op basis van de context, inclusief waar in een zin een woord wordt gesproken.
Het vakgebied dat spraakherkenningstechnologie ontwikkelt, wordt computationele taalkunde genoemd. Computationele taalkunde omvat studie en ontwerp dat software creëert die is geprogrammeerd om menselijke spraak te begrijpen. Dit veld bevat vaak informatie uit de studie van de psychologie om akoestische modellen te maken die spraak nauwkeuriger kunnen interpreteren.
Het woord "akoestisch" verwijst in het algemeen naar alles wat met geluid te maken heeft. Hoewel akoestische modellen meestal worden gebruikt bij spraakherkenning, kunnen ze ook worden gebruikt in muziek. Een akoestisch model van een muziektrack kan eigenschappen identificeren als beats per minuut, de muzikale toetsen of dominante toonhoogtes in de muziek. Deze informatie kan door een computerprogramma worden gebruikt om een muziektrack te identificeren of kan worden gebruikt om losjes het genre te bepalen waarin de muziek waarschijnlijk is gecategoriseerd. Akoestische modellen worden ook gebruikt in een vakgebied genaamd psychoakoestiek, waarin onderzoekers hopen te leren muziek te structureren die voorspelbaar de hersenen beïnvloedt.