O que é reconhecimento de voz?

O reconhecimento de voz pode se referir a um dos dois tipos de ciência da computação: identificação forense de voz ou capacidade de fala para texto. Este artigo aborda a última definição.

O reconhecimento de voz ou reconhecimento de fala, neste caso, é uma tecnologia de computador que utiliza entrada de áudio para inserir dados em vez de um teclado. Falar ao microfone, por exemplo, produz o mesmo resultado que digitar palavras manualmente com o teclado. Simplificando, o software de reconhecimento de voz é projetado com um banco de dados interno de palavras ou frases reconhecíveis. O programa combina a assinatura de áudio da fala com as entradas correspondentes no banco de dados.

Embora transformar discurso em texto possa parecer fácil, é uma tarefa extremamente difícil. O problema está no conjunto praticamente infinito de padrões e sotaques individuais de fala, compostos pela tendência humana natural de unir palavras.

Uma ilustração dos desafios inerentes ao software de reconhecimento de voz aparece em uma camiseta criada por pesquisadores da Apple. A camisa diz: "Ajudei a Apple a arruinar uma bela praia". Quando falado em voz alta, parece que ajudei a Apple a reconhecer a fala.

Vários modelos de software de reconhecimento de voz são usados ​​para uma variedade de aplicativos, de ditado pessoal a roteamento comercial automatizado de chamadas, de auxiliar os deficientes a legendagem de eventos esportivos e de notícias. Cada modelo se comporta de maneira diferente e possui seus próprios recursos e limites.

Programas de reconhecimento de voz que exigem que o usuário "treine" o software para reconhecer seus padrões estilizados específicos de fala são chamados de sistemas dependentes de alto-falante . Os indivíduos geralmente usam esses tipos de programas em casa ou no escritório. E-mail, memorandos, cartas, dados e texto podem ser inseridos falando no microfone.

Alguns sistemas de reconhecimento de voz, chamados de sistemas de fala discretos , exigem que o usuário fale de forma clara e lenta e que separe palavras. Os sistemas de fala contínua são projetados para entender um modo mais natural de falar.

Os sistemas de reconhecimento de voz por voz discreta são amplamente utilizados para roteamento de atendimento ao cliente. O sistema é independente do alto - falante , mas entende apenas um pequeno conjunto de palavras ou frases. O chamador tem a opção de responder a uma pergunta, geralmente com "sim" ou "não". Depois de receber uma resposta, o sistema encaminha o chamador para o próximo nível. Se o chamador responder com uma resposta única, a resposta automática será geralmente "Desculpe, não entendi; tente novamente" com uma repetição da pergunta e das respostas disponíveis. Esse tipo de reconhecimento de voz também é conhecido como reconhecimento de gramática restrita.

A fala contínua é uma forma mais sofisticada de software de reconhecimento de voz, em que o chamador pode falar naturalmente para explicar um problema ou solicitar um serviço. Este programa foi desenvolvido para selecionar palavras-chave ou frases e fazer uma estimativa estatística do que o cliente deseja. Falar claramente ajuda o reconhecimento de voz na identificação da necessidade. Esse tipo de sistema possui um banco de dados muito mais intenso que os sistemas de fala discretos e também é conhecido como reconhecimento de linguagem natural.

O Reconhecimento Automático de Fala (ASR) é um modelo de reconhecimento de voz projetado para ditado. Este software difere dos modelos anteriores, pois não se esforça para entender o que está sendo dito, apenas para identificar as palavras faladas. Como muitas palavras no idioma inglês são parecidas, erros são facilmente cometidos. No entanto, grandes empresas como a Microsoft estão investindo no reconhecimento de voz, e a previsão de Bill Gates faz com que o ASR compreenda a fala contínua até o ano de 2011. O software ASR é frequentemente encontrado em gravadores de voz digitais.

Os players dominantes no software de reconhecimento de voz foram a ScanSoft e a Nuance, com a primeira empresa adquirindo a segunda. Os players menores incluem Fonix Speech, Aculab e Verbio, entre outros, com grandes corporações como IBM e a mencionada Microsoft também investindo na tecnologia. Embora muitos ainda achem mais difícil treinar software e corrigir erros do que simplesmente usar um teclado, está chegando a hora em que o software de reconhecimento de voz provavelmente fechará essa lacuna. Aumentar os teclados com a capacidade discreta de usar a fala provavelmente se tornará comum.

O software de reconhecimento de voz está ganhando popularidade à medida que se torna mais sofisticado. É especialmente útil nos negócios em que pode substituir um operador ativo para canalizar chamadas, disseminar informações, receber pedidos e executar outras funções altamente úteis. No entanto, também está ganhando popularidade como aplicativo de desktop, auxiliado por softwares renomados como ScanSoft, DragonNaturallySpeaking e ViaVoice da IBM.

OUTRAS LÍNGUAS

Este artigo foi útil? Obrigado pelo feedback Obrigado pelo feedback

Como podemos ajudar? Como podemos ajudar?