Quali sono le diverse tecniche di riconoscimento vocale?
Diverse tecniche di riconoscimento vocale vengono utilizzate per acquisire parole pronunciate e convertirle in dati che possono essere utilizzati da un programma software. Esistono tre modi principali per analizzare il discorso nel tentativo di determinare ciò che viene detto. Il primo si chiama discorso discreto, il che significa che viene pronunciata una sola parola alla volta. Il secondo è noto come discorso connesso e le parole devono essere pronunciate in un certo modo per essere comprese. Infine, c'è un discorso continuo, che è il modo in cui la maggior parte delle persone parla normalmente.
L'algoritmo più comune utilizzato per tutti i tipi di tecniche di riconoscimento vocale è Hidden Markov Model (HMM). Questo sistema coinvolge grandi alberi di dati di fonemi o suoni e sillabe di base, che sono divisi per la probabilità statistica di un suono dopo l'altro. Confrontando ciascun fonema con un nodo nella struttura dei dati dei suoni, la parola completa effettiva può essere determinata con un alto tasso di accuratezza in un periodo di tempo relativamente breve.
Un problema che è difficile da superare con alcune tecniche di riconoscimento vocale è isolare dove una parola inizia e finisce. Questo compito è complicato dal rumore di fondo nella stanza e dal fatto che alcune sillabe hanno una firma audio che ricorda una pausa tra le parole. Per questo motivo, le tecniche di riconoscimento vocale discrete e connesse sono le più accurate.
Un altro fattore che separa le diverse tecniche di riconoscimento vocale è la questione del vocabolario del software. Il software che interpreta il parlato può avere un vocabolario molto limitato con un'elevata precisione o un vocabolario di grandi dimensioni che deve essere adattato ai singoli schemi vocali di un utente specifico. Quando un programma utilizza il metodo HMM per assemblare le parole, minore è il numero di parole comprese, più preciso può essere il programma. Questo è il metodo utilizzato dalla maggior parte dei sistemi telefonici automatici per decifrare numeri o risposte a domande.
Le tecniche di riconoscimento vocale che comprendono un vocabolario di grandi dimensioni sono generalmente progettate per interagire con pochissimi o solo un utente. Questo perché il programma deve essere addestrato per comprendere gli schemi linguistici della persona che parla. La formazione prevede la lettura al software di paragrafi preconfigurati di testo. Le parole lette sono note, quindi il programma è in grado di costruire un modello statistico di fonemi specifico per l'utente. Ciò offre al programma una possibilità molto migliore di comprendere l'utente, ma potrebbe anche ostacolare la comprensione da parte del programma delle persone con cui non si è formato.
La più difficile delle tecniche di riconoscimento vocale è l'interpretazione del discorso continuo o naturale. Molte persone tendono a scambiare parole e parlare a velocità diverse, quindi l'accuratezza dei programmi che traducono il parlato continuo è inferiore a quella degli altri metodi. Esistono ancora programmi in grado di tradurre questo tipo di discorso, alcuni dei quali impiegano la logica fuzzy e le reti neurali per aiutare a riconoscere schemi e isolare le parole.