Qu'est-ce que la reconnaissance vocale?

La reconnaissance vocale peut se référer à l'un des deux types d'informatique: l'identification vocale médico-légale ou la capacité de parole à texte. Cet article aborde cette dernière définition.

La reconnaissance vocale, ou la reconnaissance vocale dans ce cas, est une technologie informatique qui utilise la saisie audio pour saisir des données plutôt qu'un clavier. Parler dans un microphone, par exemple, produit le même résultat que la saisie des mots manuellement avec un clavier. Indié simplement, le logiciel de reconnaissance vocale est conçu avec une base de données interne de mots ou de phrases reconnaissables. Le programme correspond à la signature audio de la parole avec des entrées correspondantes dans la base de données.

Bien que transformer la parole en texte puisse sembler facile, c'est une tâche extrêmement difficile. Le problème réside dans la gamme pratiquement infinie de modèles et d'accents de parole individuels, aggravés par la tendance humaine naturelle à exécuter des mots ensemble.

Une illustration des défis inhérents du logiciel de reconnaissance vocale apparaît sur un t-shirt Crepar des chercheurs d'Apple. La chemise se lit comme suit: "J'ai aidé Apple à détruire une belle plage." Lorsqu'il est parlé à haute voix, il semble que j'ai aidé Apple à reconnaître la parole.

Divers modèles de logiciels de reconnaissance vocale sont utilisés pour un éventail d'applications, de la dictée personnelle à un routage automatisé d'appel commercial, de l'aide au sous-titre des événements sportifs et des actualités. Chaque modèle se comporte différemment et a ses propres capacités et frontières.

Les programmes de reconnaissance vocale qui obligent l'utilisateur à "former" le logiciel pour reconnaître leurs modèles de discours stylisés particuliers sont appelés systèmes dépendants de l'enceinte . Les individus utilisent généralement ces types de programmes à la maison ou au bureau. Les e-mails, les mémos, les lettres, les données et le texte peuvent être entrés en parlant dans un microphone.

Certains systèmes de reconnaissance vocale, appelés systèmes de discours discrets , nécessitent que l'utilisateur parle clairement et sMode et séparer les mots. Les systèmes de parole continue sont conçus pour comprendre un mode de parole plus naturel.

Les systèmes de reconnaissance vocale discours discrets sont largement utilisés pour le routage du service client. Le système est ENREGISTREMENT INDÉPENDANT , mais ne comprend qu'un petit bassin de mots ou de phrases. L'appelant a le choix de répondre à une question, généralement avec "oui" ou "non". Après avoir reçu une réponse, le système dégénère l'appelant au niveau suivant. Si l'appelant répond avec une réponse unique, la réponse automatisée est généralement: "Désolé, je ne vous comprenais pas; veuillez réessayer", avec une répétition de la question et des réponses disponibles. Ce type de reconnaissance vocale est également appelé reconnaissance contrainte par grammaire.

La parole continue est une forme plus sophistiquée de logiciel de reconnaissance vocale, dans laquelle l'appelant peut parler naturellement pour expliquer un problème ou demander un service. Ce programme est conçu pour choisir des mots ou des phrases clés et faire une statistiqueISTICAL MEILLEUR DE LA MEILLEUR DE CE QUE LE CLIENT LE CLIENT. Parler clairement la reconnaissance vocale pour identifier le besoin. Ce type de système a une base de données beaucoup plus intensive que les systèmes de parole discrètes et est également appelé reconnaissance du langage naturel.

La reconnaissance vocale automatique (ASR) est un modèle de reconnaissance vocale conçue pour la dictée. Ce logiciel diffère des modèles précédents en ce qu'il ne s'efforce pas de comprendre ce qui est dit, seulement pour identifier les mots prononcés. Étant donné que de nombreux mots dans la langue anglaise se ressemblent, des erreurs sont facilement faites. Cependant, les grandes entreprises comme Microsoft investissent dans la reconnaissance vocale, et la propre prédiction de Bill Gates a la compréhension du discours continu d'ici 2011. Le logiciel ASR se trouve souvent sur les enregistreurs vocaux numériques.

Les joueurs dominants du logiciel de reconnaissance vocale ont été Scansoft et Nuance, l'ancienne société acquérant ce dernier. Les petits acteurs incluent le discours de Fonix, l'aculab et le verbio, parmiD'autres, avec des grandes sociétés comme IBM et le Microsoft susmentionné investissant également dans la technologie. Bien que beaucoup pensent encore qu'il est plus difficile de former des logiciels et de corriger les erreurs que d'utiliser simplement un clavier, un moment arrive lorsque le logiciel de reconnaissance vocale comblera probablement cet écart. L'augmentation des claviers avec la capacité de discrimination à utiliser le discours deviendra probablement monnaie courante.

Le logiciel de reconnaissance vocale gagne en popularité à mesure qu'il devient plus sophistiqué. Il est particulièrement utile dans les affaires où il peut remplacer un opérateur en direct pour canaliser les appels, diffuser des informations, prendre des commandes et effectuer d'autres fonctions très utiles. Cependant, il gagne également service en tant qu'application de bureau, aidé par des logiciels renommés comme Scansoft, dragonnaturallyspeaking et viaVoice d'IBM.

Qu'est-ce que la reconnaissance vocale?

DANS D'AUTRES LANGUES