Qual é a conexão entre síntese e reconhecimento de fala?
A síntese e o reconhecimento da fala são os dois lados da análise computadorizada da fala. A síntese da fala é a criação da fala humana por um computador; por exemplo, um computador lendo texto escrito. O reconhecimento de fala é a criação de informações do computador a partir de palavras faladas, como ditar um artigo para um computador. Embora os dois processos não estejam diretamente relacionados, a síntese e o reconhecimento da fala dependem da capacidade do computador de entender a fala e a inflexão humanas. Um método é produzido e o outro é inserido.
Os processos usados pela síntese e reconhecimento de fala são muito semelhantes, mesmo que o produto final seja diferente. O processo consiste em duas partes, uma parte com interação humana e outra sem. A parte humana é quando as palavras humanas entram no programa; a parte não humana é quando o programa interopera a entrada.
Um programa de síntese de fala terá informações humanas na forma ou na linguagem humana digitada ou escrita. O programa lerá o idioma e determinará o que cada palavra é, usando o posicionamento e a pontuação da sentença para determinar a inflexão. Quando uma palavra pode ser pronunciada de várias maneiras, como no caso de 'ao vivo', o programa procura palavras próximas e dicas de contexto para determinar qual palavra está realmente sendo usada. As palavras irão para a segunda parte do programa, onde são pronunciadas em voz alta.
Em um programa de reconhecimento de fala, o processo é oposto. A entrada vem de um orador humano dizendo palavras em um computador. O computador ouvirá cada palavra e comparará o padrão gerado pela voz do interlocutor com uma biblioteca de possíveis sons e palavras. Em seguida, determina a palavra mais provável e a envia para a segunda parte do sistema. Esta parte, na verdade, imprime as palavras na tela, semelhante à maneira como o programa de síntese diz as palavras.
Como todo orador parece um pouco diferente, os programas de síntese e reconhecimento de fala geralmente apresentam uma ampla margem de erro. Uma das maneiras pelas quais as pessoas combatem esses erros é por meio de perfis de fala individualizados. Um único orador terá seu discurso analisado pelo programa para encontrar seus padrões vocais específicos. Quando ele encontra erros na tradução por computador, ele pode corrigi-los especificamente. As correções são analisadas e armazenadas pelo programa; assim, quando a palavra problemática aparecer novamente, o programa a traduzirá corretamente.
Existe uma ampla aplicação para síntese de fala e programas de reconhecimento. No campo da medicina, esses programas permitem que as pessoas se comuniquem que de outra forma poderiam não ser capazes de. Esses programas têm uma ampla aplicação nos negócios como um meio mais rápido de traduzir relatórios e documentos. O reconhecimento de fala também é um método comum de configurar dispositivos viva-voz em automóveis, permitindo que as pessoas falem ao telefone com mais segurança enquanto dirigem.