¿Qué es el reconocimiento de voz?
El reconocimiento de voz puede referirse a uno de los dos tipos de informática: identificación de voz forense o capacidad de voz a texto. Este artículo aborda la última definición.
El reconocimiento de voz, o el reconocimiento de voz en este caso, es una tecnología informática que utiliza la entrada de audio para ingresar datos en lugar de un teclado. Hablar en un micrófono, por ejemplo, produce el mismo resultado que escribir palabras manualmente con un teclado. En pocas palabras, el software de reconocimiento de voz está diseñado con una base de datos interna de palabras o frases reconocibles. El programa coincide con la firma de audio del habla con las entradas correspondientes en la base de datos.
Aunque convertir el habla en texto puede sonar fácil, es una tarea extremadamente difícil. El problema radica en la variedad prácticamente infinita de patrones y acentos de habla individuales, compuesto por la tendencia humana natural a ejecutar palabras juntas.
Una ilustración de los desafíos inherentes del software de reconocimiento de voz aparece en una camiseta createndido por investigadores de Apple. La camisa dice: "Ayudé a que Apple destruya una bonita playa". Cuando se habla en voz alta, parece que ayudé a Apple a reconocer el discurso.
Se utilizan varios modelos de software de reconocimiento de voz para una variedad de aplicaciones, desde el dictado personal hasta el enrutamiento de llamadas automatizadas comerciales, desde ayudar a los discapacitados a la subtitulación de eventos deportivos y de noticias. Cada modelo se comporta de manera diferente y tiene sus propias capacidades y límites.
Los programas de reconocimiento de voz que requieren que el usuario "capacite" al software para reconocer sus patrones estilizados particulares de habla se llaman sistemas dependientes de los altavoces . Las personas comúnmente usan este tipo de programas en el hogar o en la oficina. El correo electrónico, las notas, las letras, los datos y el texto se pueden ingresar hablando en un micrófono.
Algunos sistemas de reconocimiento de voz, llamados sistemas de discurso discreto , requieren que el usuario hable con claridad y shumilde y para separar las palabras. Los sistemas de discurso continuo están diseñados para comprender un modo de hablar más natural.
Los sistemas discretos de reconocimiento de voz de voz se utilizan ampliamente para el enrutamiento de servicio al cliente. El sistema es altador independiente , pero comprende solo un pequeño grupo de palabras o frases. La persona que llama tiene la opción de responder una pregunta, generalmente con "sí" o "no". Después de recibir una respuesta, el sistema aumenta la persona que llama al siguiente nivel. Si la persona que llama responde con una respuesta única, la respuesta automatizada suele ser: "Lo siento, no lo entendí; intente nuevamente", con una repetición de la pregunta y las respuestas disponibles. Este tipo de reconocimiento de voz también se conoce como reconocimiento limitado de gramática .
El discurso continuo es una forma más sofisticada de software de reconocimiento de voz, en el que la persona que llama puede hablar naturalmente para explicar un problema o solicitar un servicio. Este programa está diseñado para elegir palabras o frases clave y hacer una estadísticaIstal Best Guess en cuanto a lo que el cliente quiere. Hablar claramente ayuda al reconocimiento de voz al identificar la necesidad. Este tipo de sistema tiene una base de datos mucho más intensiva que los sistemas de habla discretos y también se conoce como reconocimiento de lenguaje natural
El reconocimiento automático de voz (ASR) es un modelo de reconocimiento de voz diseñado para el dictado. Este software difiere de los modelos anteriores, ya que no se esfuerza por comprender lo que se dice, solo para identificar las palabras pronunciadas. Dado que muchas palabras en el idioma inglés suenan por igual, los errores se cometen fácilmente. Sin embargo, las principales empresas como Microsoft están invirtiendo en el reconocimiento de voz, y la propia predicción de Bill Gates tiene una comprensión del habla continua para el año 2011. El software ASR a menudo se encuentra en las grabadoras de voz digitales.
Los jugadores dominantes en el software de reconocimiento de voz han sido ScanSoft y Nuance, y la primera compañía adquirió la segunda. Los jugadores más pequeños incluyen el discurso de Fonix, aculab y verbio, entreOtros, con grandes corporaciones como IBM y el mencionado Microsoft también invirtiendo en la tecnología. Aunque muchos todavía sienten que es más problemas capacitar al software y corregir los errores que simplemente usar un teclado, se está llegando un momento en que el software de reconocimiento de voz probablemente cerrará esa brecha. Aumentar los teclados con la capacidad discriminada de usar el habla probablemente se convertirá en un lugar común.
El software de reconocimiento de voz está ganando popularidad a medida que se vuelve más sofisticado. Es especialmente útil en los negocios donde puede reemplazar a un operador en vivo para canalizar llamadas, difundir información, tomar pedidos y realizar otras funciones muy útiles. Sin embargo, también está ganando favor como una aplicación de escritorio, ayudada por software de renombre como ScanSoft's, Dragonnaturallyspreaking e IBM's Viavoice .