Che cos'è un modello acustico?
Un modello acustico è essenzialmente una mappa della voce in relazione a una serie di parole stampate. Questa tecnologia viene utilizzata nei programmi di riconoscimento vocale per aiutare un computer a imparare a riconoscere i modelli vocali di una persona. Un modello acustico è uno dei due file principali necessari per eseguire un programma di riconoscimento vocale; l'altro è il modello linguistico, che indica probabili parole e schemi vocali che possono essere utilizzati dal relatore. Questi modelli vengono creati confrontando i dettagli audio di un file audio parlato con il testo delle parole pronunciate.
Il software di riconoscimento vocale è un software progettato per riconoscere e trascrivere o rispondere alle parole di una persona. Molti sistemi operativi sono progettati con funzionalità di riconoscimento vocale di base integrate che l'utente può attivare e disattivare. Le capacità di riconoscimento vocale sui sistemi operativi di solito danno all'utente la possibilità di controllare il computer e digitare le parole sullo schermo usando la sua voce.
Per accedere al software di riconoscimento vocale, un utente ha bisogno di un microfono per ottenere la sua voce al computer, oltre a un programma che elabora il suono. Mentre molti computer dispongono di microfoni incorporati, un microfono per cuffia esterno offre all'utente il vantaggio di un suono vocale più chiaro e la libertà di muoversi nella stanza mentre parla. I marchi di software di riconoscimento vocale autonomo includono LumenVox®, Loquendo® e Dragon®.
La maggior parte dei programmi di riconoscimento vocale ha una programmazione del modello acustico che consente al programma di riconoscere le variazioni nella pronuncia. Usano schemi nel suono della voce di chi parla per identificare le parole nel discorso. Molti sono progettati con un software di configurazione creato per aiutare l'utente a creare un modello acustico progettato per interpretare la propria voce. Alcuni programmi avanzati di riconoscimento vocale sono in grado di identificare e interpretare più lingue, spesso con una minuscola quantità di informazioni sonore. Più è avanzato un programma di riconoscimento vocale, più è probabile che interpreti accuratamente le parole in base al suo contesto, incluso il punto in cui in una frase viene pronunciata una parola.
Il campo di studio che sviluppa la tecnologia di riconoscimento vocale si chiama linguistica computazionale. La linguistica computazionale implica lo studio e la progettazione che crea software programmato per comprendere il linguaggio umano. Questo campo spesso incorpora informazioni dallo studio della psicologia per creare modelli acustici in grado di interpretare il discorso in modo più accurato.
La parola "acustica" generalmente si riferisce a tutto ciò che riguarda il suono. Sebbene i modelli acustici siano spesso utilizzati nel riconoscimento vocale, possono anche essere utilizzati nella musica. Un modello acustico di una traccia musicale può identificare proprietà come battiti al minuto, tasti musicali o tonalità dominanti della musica. Queste informazioni possono essere utilizzate da un programma per computer per identificare una traccia musicale o per determinare liberamente il genere in cui la musica è probabilmente classificata. I modelli acustici sono anche usati in un campo di studio chiamato psicoacustica, in cui i ricercatori sperano di imparare a strutturare la musica che preveda prevedibilmente il cervello.