Cos'è il riconoscimento vocale?
Il riconoscimento vocale può riferirsi a uno dei due tipi di informatica: identificazione della voce forense o funzionalità vocale a testo. Questo articolo affronta quest'ultima definizione.
Riconoscimento vocale o riconoscimento vocale in questo caso, è una tecnologia informatica che utilizza l'input audio per l'immissione dei dati anziché una tastiera. Parlare in un microfono, ad esempio, produce lo stesso risultato delle parole di digitazione manualmente con una tastiera. Semplicemente dichiarato, il software di riconoscimento vocale è progettato con un database interno di parole o frasi riconoscibili. Il programma corrisponde alla firma audio del discorso con le voci corrispondenti nel database.
Sebbene trasformare il discorso in testo possa sembrare facile, è un compito estremamente difficile. Il problema risiede nella serie praticamente infinita di singoli schemi vocali e accenti, aggravata dalla tendenza umana naturale a far unirsi le parole.
Un'illustrazione delle sfide intrinseche del software di riconoscimento vocale appare su una creataAted dai ricercatori di Apple. La maglietta recita: "Ho aiutato la mela a demolire una bella spiaggia". Quando parlato ad alta voce, sembra, ho aiutato Apple a riconoscere il discorso.
Vari modelli di software di riconoscimento vocale vengono utilizzati per una serie di applicazioni, dalla dettatura personale allo routing di chiamate automatizzate commerciali, dall'aiutare i disabili al sotterraneo degli eventi sportivi e di notizie. Ogni modello si comporta in modo diverso e ha le proprie capacità e confini.
I programmi di riconoscimento vocaleche richiedono all'utente di "formare" il software per riconoscere i loro particolari modelli di linguaggio stilizzati sono chiamati sistemi dipendenti dall'altoparlante . Le persone usano comunemente questi tipi di programmi a casa o in ufficio. Email, memo, lettere, dati e testo possono essere inseriti parlando in un microfono.
Alcuni sistemi di riconoscimento vocale, chiamati sistemi di discorso discreto , richiedono all'utente di parlare chiaramente e sumile e separare le parole. Speeti continui sono progettati per comprendere una modalità di parlare più naturale.
I sistemi di riconoscimento vocale del linguaggio discreto sono ampiamente utilizzati per il routing del servizio clienti. Il sistema è altoparlanti indipendente , ma comprende solo un piccolo pool di parole o frasi. Il chiamante viene data la scelta di rispondere a una domanda, di solito con "sì" o "no". Dopo aver ricevuto una risposta, il sistema intensifica il chiamante al livello successivo. Se il chiamante risponde con una risposta unica, la risposta automatizzata è di solito "Mi dispiace, non ti ho capito; per favore riprova", con una ripetizione della domanda e delle risposte disponibili. Questo tipo di riconoscimento vocale è anche indicato come riconoscimento vincolato alla grammatica.
Il discorso continuo è una forma più sofisticata di software di riconoscimento vocale, in cui il chiamante può parlare naturalmente per spiegare un problema o richiedere un servizio. Questo programma è progettato per raccogliere parole o frasi chiave e creare una statisticaBest indovinato di ciò che desidera il cliente. Parlare chiaramente aiuta il riconoscimento vocale nell'identificare la necessità. Questo tipo di sistema ha un database molto più intensivo dei sistemi vocali discreti e viene anche definito riconoscimento del linguaggio naturale.
Il riconoscimento vocale automatico (ASR) è un modello di riconoscimento vocale progettato per la dettatura. Questo software differisce dai modelli precedenti in quanto non si sforza di capire cosa viene detto, solo per identificare le parole pronunciate. Poiché molte parole in lingua inglese suonano allo stesso modo, gli errori vengono facilmente commessi. Tuttavia, le principali aziende come Microsoft stanno investendo nel riconoscimento vocale e la previsione di Bill Gates ha una comprensione del discorso continuo dell'ASR entro l'anno 2011. Il software ASR si trova spesso sui registratori vocali digitali.
I giocatori dominanti nel software di riconoscimento vocale sono stati Scansoft e Nuance, con l'ex società che ha acquisito quest'ultima. I giocatori più piccoli includono il discorso di Fonix, Aculab e Verbio, traAltri, con importanti società come IBM e la suddetta Microsoft che investono anche nella tecnologia. Sebbene molti ritengano ancora più difficoltà a formare software e correggere errori piuttosto che usare semplicemente una tastiera, sta arrivando un tempo in cui il software di riconoscimento vocale probabilmente colmerà questo divario. L'aumento delle tastiere con la capacità discriminata di usare il linguaggio diventerà probabilmente un luogo comune.
Il software di riconoscimento vocale sta guadagnando popolarità in quanto diventa più sofisticato. È particolarmente utile negli affari in cui può sostituire un operatore in diretta per incanalare le chiamate, diffondere informazioni, prendere ordini ed svolgere altre funzioni altamente utili. Tuttavia, sta anche guadagnando favore come un'applicazione desktop, aiutata da software famoso come Scansoft, dragonnaturallyspeaking e viavoice di IBM.