¿Cuáles son las diferentes técnicas de reconocimiento de voz?
Se utilizan varias técnicas de reconocimiento de voz para capturar palabras habladas y convertirlas en datos que puedan utilizar un programa de software. Hay tres formas generales de analizar el habla en un esfuerzo por determinar lo que se dice. El primero se llama discurso discreto, lo que significa que solo se pronuncia una sola palabra a la vez. El segundo se conoce como discurso conectado, y las palabras deben pronunciarse de cierta manera para ser entendido. Finalmente, hay un discurso continuo, que es cómo la mayoría de las personas hablan normalmente.
El algoritmo más común utilizado para todo tipo de técnicas de reconocimiento de voz es el modelo oculto de Markov (HMM). Este sistema involucra grandes árboles de datos de fonemas, o sonidos y sílabas básicas, que se dividen por la probabilidad estadística de un sonido después de otro. Al comparar cada fonema con un nodo en el árbol de datos de los sonidos, la palabra completa real se puede determinar con una alta tasa de precisión en un período de tiempo relativamente corto.
Un problema que es difícil de oveEl momento de algunas técnicas de reconocimiento de voz es aislar dónde comienza y termina una palabra. Esta tarea se complica por el ruido de fondo en la sala y el hecho de que algunas sílabas tienen una firma de audio que se asemeja a un descanso entre las palabras. Por esta razón, las técnicas discretas y conectadas de reconocimiento de voz son las más precisas.
Otro factor que separa diferentes técnicas de reconocimiento de voz es el problema del vocabulario de software. El software que interpreta el discurso puede tener un vocabulario muy limitado con una alta precisión o un gran vocabulario que debe coincidir con los patrones de voz individuales de un usuario específico. Cuando un programa utiliza el método HMM para ensamblar palabras, cuanto menos número de palabras que se entienden, más preciso puede ser el programa. Este es el método que la mayoría de los sistemas telefónicos automatizados usan para descifrar números o respuestas a preguntas.
reco de discursoLas técnicas de gnition que entienden un vocabulario grande generalmente están diseñadas para interactuar con muy pocos o solo un usuario. Esto se debe a que el programa debe estar capacitado para comprender los patrones de habla de la persona que habla. La capacitación implica leer párrafos de texto prefabricados para el software. Se conocen las palabras que se leen, por lo que el programa puede construir un modelo estadístico de fonemas específico para el usuario. Esto le da al programa una oportunidad mucho mejor de comprender al usuario, pero también podría obstaculizar la comprensión del programa de las personas con las que no ha capacitado.
La más difícil de las técnicas de reconocimiento de voz es interpretar el habla continua o natural. Muchas personas tienden a ejecutar palabras juntas y hablan a diferentes velocidades, por lo que la precisión de los programas que traducen el habla continua es menor que la de los otros métodos. Aún así, existen programas que pueden traducir este tipo de discurso, algunos de ellos empleando redes lógicas y neuronales difusas para ayudar a reconocer a PatTerns y palabras aisladas.