Quais são as diferentes técnicas de reconhecimento de fala?
Várias técnicas de reconhecimento de fala são usadas para capturar palavras faladas e convertê-las em dados que podem ser usados por um programa de software. Existem três maneiras amplas de analisar a fala, em um esforço para determinar o que está sendo dito. O primeiro é chamado discurso discreto, significando que apenas uma única palavra é dita por vez. O segundo é conhecido como fala conectada, e as palavras devem ser ditas de uma certa maneira para serem entendidas. Finalmente, há um discurso contínuo, que é como a maioria das pessoas normalmente fala.
O algoritmo mais comum usado para todos os tipos de técnicas de reconhecimento de fala é o Hidden Markov Model (HMM). Esse sistema envolve grandes árvores de dados de fonemas, ou sons e sílabas básicas, que são divididos pela probabilidade estatística de um som após o outro. Ao comparar cada fonema com um nó na árvore de dados dos sons, a palavra final real pode ser determinada com uma alta taxa de precisão em um período relativamente curto.
Um problema difícil de superar com algumas técnicas de reconhecimento de fala é isolar onde uma palavra começa e termina. Essa tarefa é complicada pelo ruído de fundo na sala e pelo fato de algumas sílabas terem uma assinatura de áudio semelhante a uma pausa entre as palavras. Por esse motivo, as técnicas de reconhecimento de fala discretas e conectadas são as mais precisas.
Outro fator que separa diferentes técnicas de reconhecimento de fala é a questão do vocabulário do software. O software que está interpretando a fala pode ter um vocabulário muito limitado com alta precisão ou um vocabulário grande que deve corresponder aos padrões de fala individuais de um usuário específico. Quando um programa usa o método HMM de agrupar palavras, quanto menor o número de palavras entendidas, mais preciso o programa pode ser. Esse é o método usado pela maioria dos sistemas telefônicos automatizados para decifrar números ou respostas a perguntas.
As técnicas de reconhecimento de fala que compreendem um vocabulário amplo geralmente são projetadas para interagir com muito poucos ou apenas um usuário. Isso ocorre porque o programa deve ser treinado para entender os padrões de fala da pessoa que está falando. O treinamento envolve a leitura de parágrafos pré-fabricados de texto no software. As palavras lidas são conhecidas e, portanto, o programa é capaz de construir um modelo estatístico de fonemas específicos para o usuário. Isso oferece ao programa uma chance muito maior de entender o usuário, mas também pode prejudicar o entendimento do programa sobre as pessoas com quem ele não treinou.
A mais difícil das técnicas de reconhecimento de fala é a interpretação da fala contínua ou natural. Muitas pessoas tendem a executar palavras juntas e falam em velocidades diferentes; portanto, a precisão dos programas que traduzem a fala contínua é menor que a dos outros métodos. Ainda assim, existem programas que podem traduzir esse tipo de fala, alguns deles empregando lógica nebulosa e redes neurais para ajudar a reconhecer padrões e isolar palavras.