Quais são as diferentes técnicas de reconhecimento de fala?

Várias técnicas de reconhecimento de fala são usadas para capturar palavras faladas e convertê -las em dados que podem ser usados ​​por um programa de software. Existem três maneiras amplas de analisar o discurso em um esforço para determinar o que está sendo dito. O primeiro é chamado de discurso discreto, o que significa que apenas uma única palavra é falada de cada vez. O segundo é conhecido como fala conectada, e as palavras devem ser faladas de certa maneira a serem entendidas. Finalmente, há uma fala contínua, que é como a maioria das pessoas normalmente fala. Este sistema envolve grandes árvores de dados de fonemas, ou sons e sílabas básicos, divididos pela probabilidade estatística de um som após o outro. Ao comparar cada fonema com um nó na árvore de dados dos sons, a palavra concluída real pode ser determinada com uma alta taxa de precisão em um período relativamente curto.

Um problema difícil de operarO Recome com algumas técnicas de reconhecimento de fala está isolando onde uma palavra começa e termina. Essa tarefa é complicada pelo ruído de fundo na sala e pelo fato de algumas sílabas ter uma assinatura de áudio que se assemelha a uma quebra entre as palavras. Por esse motivo, as técnicas de reconhecimento de fala discretas e conectadas são as mais precisas.

Outro fator que separa diferentes técnicas de reconhecimento de fala é a questão do vocabulário de software. O software que está interpretando o discurso pode ter um vocabulário muito limitado com alta precisão ou um grande vocabulário que deve ser correspondido aos padrões de fala individuais de um usuário específico. Quando um programa usa o método HMM para montar palavras, quanto menor o número de palavras que são entendidas, mais preciso será o programa. Esse é o método que a maioria dos sistemas telefônicos automatizados usam para decifrar números ou respostas a perguntas.

fala reconhAs técnicas de gnition que entendem um grande vocabulário geralmente são projetadas para interagir com muito poucos ou apenas um usuário. Isso ocorre porque o programa deve ser treinado para entender os padrões de fala da pessoa falando. O treinamento envolve a leitura de parágrafos pré-fabricados de texto para o software. As palavras que estão sendo lidas são conhecidas; portanto, o programa é capaz de criar um modelo estatístico de fonemas específico para o usuário. Isso dá ao programa uma chance muito melhor de entender o usuário, mas também pode prejudicar a compreensão do programa sobre as pessoas com quem não treinou.

O mais difícil das técnicas de reconhecimento de fala é a interpretação da fala contínua ou natural. Muitas pessoas tendem a executar palavras juntas e a falar em diferentes velocidades; portanto, a precisão dos programas que traduzem a fala contínua é menor que a dos outros métodos. Ainda assim, existem programas que podem traduzir esse tipo de fala, alguns deles empregando lógica difusa e redes neurais para ajudar a reconhecer Patandorinhas -do -mar e isolar palavras.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?