¿Cuál es la conexión entre la síntesis de voz y el reconocimiento?
La síntesis y el reconocimiento de voz son los dos lados del análisis de voz computarizado. La síntesis del habla es la creación del habla humana por una computadora; por ejemplo, una computadora que lee texto escrito. El reconocimiento de voz es la creación de información de la computadora a partir de palabras habladas, como dictar un documento a una computadora. Si bien los dos procesos no están directamente relacionados, la síntesis y el reconocimiento del habla dependen de la capacidad de una computadora para comprender el habla y la inflexión humana. Un método es la salida y el otro es la entrada.
Los procesos utilizados por la síntesis y el reconocimiento de voz son muy similares, incluso si el producto final es diferente. El proceso consta de dos partes, una parte con interacción humana y otra sin interacción. La porción humana es cuando las palabras humanas ingresan al programa; la parte no humana es cuando el programa interopera la entrada.
Un programa de síntesis de voz tomará aportes humanos en forma de lenguaje humano escrito o escrito. El programa leerá el idioma y determinará qué es cada palabra, utilizando la colocación de oraciones y la puntuación para determinar la inflexión. Cuando una palabra se puede pronunciar de varias maneras, como en el caso de "en vivo", el programa buscará palabras cercanas y pistas de contexto para determinar qué palabra se está utilizando realmente. Las palabras irán luego a la segunda parte del programa, donde se pronuncian en voz alta.
En un programa de reconocimiento de voz, el proceso es opuesto. La entrada proviene de un hablante humano que dice palabras en una computadora. La computadora escuchará cada palabra y comparará el patrón generado por la voz del hablante con una biblioteca de posibles sonidos y palabras. Luego determina la palabra más probable y la envía a la segunda parte del sistema. Esta parte en realidad imprime las palabras en la pantalla, de forma similar a como el programa de síntesis dice las palabras.
Como cada hablante suena ligeramente diferente, los programas de síntesis y reconocimiento de voz a menudo tienen un amplio margen de error. Una de las formas en que las personas combaten estos errores es a través de perfiles de discurso individualizados. Un solo hablante analizará su discurso por el programa para encontrar sus patrones vocales específicos. Cuando encuentra errores en la traducción por computadora, puede corregirlos específicamente. El programa analiza y almacena las correcciones, de modo que cuando la palabra problemática aparece nuevamente, el programa la traducirá correctamente.
Existe una amplia aplicación para programas de síntesis y reconocimiento de voz. En el campo de la medicina, estos programas permiten que las personas se comuniquen y que de otro modo no podrían hacerlo. Estos programas tienen una amplia aplicación en los negocios como un medio más rápido para traducir informes y documentos. El reconocimiento de voz también es un método común para configurar dispositivos manos libres en automóviles, lo que permite a las personas hablar por teléfono de manera más segura mientras conducen.