Che cos'è il riconoscimento vocale?
Il riconoscimento vocale può riferirsi a uno di due tipi di informatica: identificazione forense della voce o capacità di sintesi vocale. Questo articolo affronta quest'ultima definizione.
Il riconoscimento vocale, o riconoscimento vocale in questo caso, è una tecnologia informatica che utilizza input audio per l'immissione di dati anziché una tastiera. Parlare in un microfono, ad esempio, produce lo stesso risultato della digitazione manuale delle parole con una tastiera. In poche parole, il software di riconoscimento vocale è progettato con un database interno di parole o frasi riconoscibili. Il programma abbina la firma audio del parlato con le voci corrispondenti nel database.
Sebbene trasformare il discorso in testo possa sembrare facile, è un compito estremamente difficile. Il problema risiede nella serie praticamente infinita di schemi vocali e accenti individuali, aggravati dalla naturale tendenza umana a mettere insieme le parole.
Un'illustrazione delle sfide intrinseche del software di riconoscimento vocale appare su una maglietta creata dai ricercatori Apple. La maglietta recita "Ho aiutato Apple a distruggere una bella spiaggia". Quando parlo ad alta voce, sembra che abbia aiutato Apple a riconoscere il discorso.
Vari modelli di software di riconoscimento vocale sono utilizzati per una vasta gamma di applicazioni, dalla dettatura personale al routing automatico delle chiamate commerciale, dall'aiutare i disabili a sottotitoli di eventi sportivi e di notizie. Ogni modello si comporta diversamente e ha le sue capacità e i suoi confini.
I programmi di riconoscimento vocale che richiedono all'utente di "addestrare" il software a riconoscere i loro particolari schemi di discorso stilizzati sono chiamati sistemi dipendenti dagli altoparlanti . Le persone usano comunemente questi tipi di programmi a casa o in ufficio. E-mail, memo, lettere, dati e testo possono essere inseriti parlando al microfono.
Alcuni sistemi di riconoscimento vocale, chiamati sistemi vocali discreti , richiedono all'utente di parlare chiaramente e lentamente e di separare le parole. I sistemi vocali continui sono progettati per comprendere un modo di parlare più naturale.
I sistemi di riconoscimento vocale vocale discreto sono ampiamente utilizzati per l'instradamento del servizio clienti. Il sistema è indipendente dagli altoparlanti , ma comprende solo un piccolo gruppo di parole o frasi. Al chiamante viene data la possibilità di rispondere a una domanda, di solito con "sì" o "no". Dopo aver ricevuto una risposta, il sistema porta il chiamante al livello successivo. Se il chiamante risponde con una risposta univoca, la risposta automatica è in genere "Mi dispiace, non ti ho capito; riprova" con una ripetizione della domanda e le risposte disponibili. Questo tipo di riconoscimento vocale è anche noto come riconoscimento vincolato alla grammatica.
Il parlato continuo è una forma più sofisticata di software di riconoscimento vocale, in cui il chiamante può parlare in modo naturale per spiegare un problema o richiedere un servizio. Questo programma è progettato per individuare parole chiave o frasi e fare una migliore ipotesi statistica su ciò che il cliente desidera. Parlare aiuta chiaramente il riconoscimento vocale nell'identificare la necessità. Questo tipo di sistema ha un database molto più intenso rispetto ai sistemi vocali discreti e viene anche definito riconoscimento del linguaggio naturale.
Il riconoscimento vocale automatico (ASR) è un modello di riconoscimento vocale progettato per la dettatura. Questo software differisce dai modelli precedenti in quanto non si sforza di comprendere ciò che viene detto, ma solo di identificare le parole pronunciate. Poiché molte parole in inglese suonano allo stesso modo, gli errori possono essere facilmente commessi. Tuttavia, importanti aziende come Microsoft stanno investendo nel riconoscimento vocale e la previsione di Bill Gates prevede che ASR comprenda il discorso continuo entro il 2011. Il software ASR si trova spesso sui registratori vocali digitali.
I giocatori dominanti nel software di riconoscimento vocale sono stati ScanSoft e Nuance, con la prima società che ha acquisito la seconda. Tra i giocatori più piccoli figurano Fonix Speech, Aculab e Verbio, tra gli altri, con grandi aziende come IBM e la già citata Microsoft che investono anche nella tecnologia. Sebbene molti ritengano ancora più problematico addestrare il software e correggere gli errori piuttosto che usare semplicemente una tastiera, sta arrivando un momento in cui il software di riconoscimento vocale colmerà probabilmente questa lacuna. Aumentare le tastiere con la discreta capacità di usare la parola diventerà probabilmente un luogo comune.
Il software di riconoscimento vocale sta guadagnando popolarità man mano che diventa più sofisticato. È particolarmente utile negli affari in cui può sostituire un operatore dal vivo per incanalare le chiamate, divulgare informazioni, prendere ordini ed eseguire altre funzioni estremamente utili. Tuttavia, sta anche guadagnando il favore come applicazione desktop, aiutata da software rinomati come ScanSoft, DragonNaturallySpeaking e IBM ViaVoice .