Qu'est-ce que la reconnaissance vocale?

La reconnaissance vocale peut faire référence à l’un des deux types d’informatique: l’identification judiciaire de la voix et la capacité parole-texte. Cet article aborde la dernière définition.

La reconnaissance vocale, ou reconnaissance vocale dans ce cas, est une technologie informatique qui utilise une entrée audio pour saisir des données plutôt qu'un clavier. Par exemple, parler dans un microphone produit le même résultat que taper des mots manuellement avec un clavier. En termes simples, le logiciel de reconnaissance vocale est conçu avec une base de données interne de mots ou de phrases reconnaissables. Le programme fait correspondre la signature audio de la parole aux entrées correspondantes de la base de données.

Bien que transformer un discours en texte puisse sembler facile, il s’agit d’une tâche extrêmement difficile. Le problème réside dans l'éventail infini infini de motifs de parole et d'accents individuels, aggravés par la tendance naturelle de l'homme à faire cohabiter des mots.

Une illustration des défis inhérents aux logiciels de reconnaissance vocale apparaît sur un t-shirt créé par des chercheurs Apple. Le t-shirt se lit comme suit: "J'ai aidé Apple à détruire une belle plage." Quand on parle à voix haute, cela ressemble à, j’ai aidé Apple à reconnaître la parole.

Différents modèles de logiciels de reconnaissance vocale sont utilisés pour toute une gamme d'applications, allant de la dictée personnelle au routage d'appels automatisé commercial, de l'aide aux personnes handicapées en passant par le sous-titrage d'événements sportifs et d'actualités. Chaque modèle se comporte différemment et possède ses propres capacités et limites.

Les programmes de reconnaissance vocale qui demandent à l'utilisateur de "former" le logiciel à la reconnaissance de leurs modèles de parole stylisés particuliers sont appelés systèmes dépendants du locuteur . Les personnes utilisent couramment ces types de programmes à la maison ou au bureau. Les courriers électroniques, les mémos, les lettres, les données et le texte peuvent être saisis en parlant dans un microphone.

Certains systèmes de reconnaissance vocale, appelés systèmes vocaux discrets , imposent à l'utilisateur de parler clairement et lentement et de séparer les mots. Les systèmes de parole continue sont conçus pour comprendre un mode de parole plus naturel.

Les systèmes de reconnaissance vocale discrète sont largement utilisés pour l'acheminement du service client. Le système est indépendant du locuteur , mais ne comprend qu'un petit groupe de mots ou de phrases. L'appelant a le choix de répondre à une question, généralement avec "oui" ou "non". Après avoir reçu une réponse, le système transmet l'appelant au niveau suivant. Si l'appelant répond avec une réponse unique, la réponse automatisée est généralement la suivante: "Désolé, je ne vous ai pas comprise; veuillez réessayer," avec une répétition de la question et des réponses disponibles. Ce type de reconnaissance vocale est également appelé reconnaissance à contrainte grammaticale.

La parole continue est une forme plus sophistiquée de logiciel de reconnaissance vocale, dans laquelle l'appelant peut parler naturellement pour expliquer un problème ou demander un service. Ce programme est conçu pour sélectionner des mots ou des expressions clés et permettre une estimation statistique des besoins du client. Parler clairement aide la reconnaissance vocale à identifier le besoin. Ce type de système a une base de données beaucoup plus intensive que les systèmes de parole discrets et est également appelé reconnaissance de langage naturel.

La reconnaissance vocale automatique (ASR) est un modèle de reconnaissance vocale conçu pour la dictée. Ce logiciel diffère des modèles précédents en ce qu'il ne cherche pas à comprendre ce qui est dit, mais uniquement à identifier les mots prononcés. Comme de nombreux mots de la langue anglaise se ressemblent, des erreurs sont facilement commises. Cependant, de grandes entreprises telles que Microsoft investissent dans la reconnaissance vocale, et la propre prédiction de Bill Gates a permis à ASR de comprendre la parole en continu d'ici à 2011. Le logiciel ASR est souvent utilisé sur les enregistreurs vocaux numériques.

Les principaux acteurs des logiciels de reconnaissance vocale sont ScanSoft et Nuance, l’ancienne société l’ayant acquise. Fonix Speech, Aculab et Verbio, entre autres, font partie des acteurs les plus modestes. De grandes entreprises comme IBM et Microsoft, également susmentionné, investissent également dans la technologie. Bien que beaucoup estiment encore qu'il est plus difficile de former un logiciel et de corriger des erreurs que d'utiliser simplement un clavier, il est temps que le logiciel de reconnaissance vocale comble cette lacune. Augmenter les claviers avec la capacité distincte d'utiliser la parole deviendra probablement banal.

Les logiciels de reconnaissance vocale gagnent en popularité à mesure qu'ils deviennent plus sophistiqués. Il est particulièrement utile dans les entreprises où il peut remplacer un opérateur en direct pour acheminer les appels, diffuser des informations, prendre des commandes et exécuter d'autres fonctions très utiles. Cependant, elle gagne également en popularité en tant qu’application de bureau, aidée par des logiciels de renom tels que ScanSoft, DragonNaturallySpeaking et IBM ViaVoice .

DANS D'AUTRES LANGUES

Cet article vous a‑t‑il été utile ? Merci pour les commentaires Merci pour les commentaires

Comment pouvons nous aider? Comment pouvons nous aider?