Quelles sont les différentes techniques de reconnaissance vocale?
Plusieurs techniques de reconnaissance vocale sont utilisées pour capturer des mots parlés et les convertir en données pouvant être utilisées par un logiciel. Il existe trois grandes manières d’analyser la parole afin de déterminer ce qui est dit. Le premier est appelé discours discret, ce qui signifie qu'un seul mot est prononcé à la fois. La seconde est connue sous le nom de parole connectée, et les mots doivent être prononcés d'une certaine manière pour être compris. Enfin, il y a un discours continu, c'est ainsi que la plupart des gens parlent normalement.
L'algorithme le plus couramment utilisé pour tous les types de techniques de reconnaissance vocale est le modèle de Markov caché (HMM). Ce système implique de grands arbres de données de phonèmes, ou sons et syllabes de base, qui sont divisés par la probabilité statistique qu'un son se succède. En comparant chaque phonème à un nœud de l’arbre de données de sons, le mot effectivement terminé peut être déterminé avec un taux de précision élevé sur une période de temps relativement courte.
Un problème qui est difficile à résoudre avec certaines techniques de reconnaissance vocale est l’isolement du début et de la fin d’un mot. Cette tâche est compliquée par le bruit de fond dans la pièce et par le fait que certaines syllabes ont une signature audio qui ressemble à une coupure entre les mots. Pour cette raison, les techniques de reconnaissance vocale discrète et connectée sont les plus précises.
Un autre facteur qui sépare les différentes techniques de reconnaissance vocale est la question du vocabulaire logiciel. Les logiciels qui interprètent la parole peuvent soit utiliser un vocabulaire très limité avec une grande précision, soit un vocabulaire volumineux qui doit être adapté aux modèles de parole d'un utilisateur spécifique. Lorsqu'un programme utilise la méthode HMM d'assemblage de mots, moins le nombre de mots compris est important, plus le programme peut être précis. C'est la méthode que la plupart des systèmes téléphoniques automatisés utilisent pour déchiffrer des numéros ou des réponses à des questions.
Les techniques de reconnaissance vocale qui comprennent un vocabulaire volumineux sont généralement conçues pour interagir avec très peu d'utilisateurs, voire un seul. C'est parce que le programme doit être formé pour comprendre les modèles de parole de la personne qui parle. La formation implique la lecture de paragraphes de texte prédéfinis dans le logiciel. Les mots lus étant connus, le programme est capable de créer un modèle statistique de phonèmes spécifique à l'utilisateur. Cela donne au programme beaucoup plus de chances de comprendre l'utilisateur, mais cela peut également nuire à la compréhension du programme des personnes avec lesquelles il n'a pas été formé.
La technique de reconnaissance de la parole la plus difficile consiste à interpréter une parole continue ou naturelle. Beaucoup de gens ont tendance à utiliser des mots ensemble et à parler à des vitesses différentes, de sorte que la précision des programmes qui traduisent une parole continue est inférieure à celle des autres méthodes. Néanmoins, il existe des programmes capables de traduire ce type de discours, certains d'entre eux utilisant la logique floue et les réseaux de neurones pour aider à reconnaître les modèles et à isoler les mots.