Skip to main content

¿Qué es el SAPI?

La interfaz de programación de aplicaciones de voz (SAPI) es una interfaz de audio desarrollada por Microsoft. Diseñado para su uso dentro de los sistemas operativos Windows, la idea detrás de SAPI era hacer posible el uso de síntesis y reconocimiento de voz dentro de la función de varias aplicaciones de Windows. Se han lanzado diferentes versiones de Speech API desde que apareció la primera versión en 1995. Algunas son estándar con todos los sistemas operativos Windows, mientras que otras están personalizadas para su uso con programas específicos.

La aplicación de SAPI amplía la gama de consumidores que pueden disfrutar usando programas basados ​​en Windows. Debido al aspecto de reconocimiento de voz de SAPI, es posible que las personas que pueden estar físicamente limitadas por condiciones temporales o permanentes sigan trabajando con programas de procesamiento de textos y otros conceptos básicos. Al mismo tiempo, SAPI tiene la capacidad de traducir texto a la palabra hablada. Esta característica puede ser especialmente útil para personas con problemas de visión, ya que permite interactuar con el contenido de un sitio web o simplemente poder disfrutar de recibir correos electrónicos de amigos y familiares.

En las primeras versiones de SAPI, la capacidad de la interfaz era algo baja en calidad en comparación con las versiones en uso en la actualidad. La programación permitió la creación de reproducción de sonido que era de naturaleza algo robótica. Si bien fue eficaz para su época, las innovaciones en versiones posteriores mejoraron la calidad de la reproducción de la voz para incluir palabras pronunciadas por humanos y archivadas para su uso por el programa cuando sea necesario. Cuando una voz SAPI no se crea electrónicamente, las personas capacitadas en trabajo de voz a menudo se utilizan para crear estos archivos. Por ejemplo, un intérprete que se gana la vida haciendo anuncios de radio o voz en off para comerciales en televisión sería un excelente candidato para crear archivos de texto a voz que SAPI pueda utilizar.

La versión más reciente de SAPI incluye una serie de características mejoradas. Entre ellos está la capacidad de ajustar la velocidad, el volumen y el tono de la voz, así como mejorar la pronunciación. Las interpretaciones semánticas permiten obtener definiciones de palabras que no se entienden fácilmente. Se lanzan nuevas versiones de SAPI cada pocos años, y cada versión ofrece alguna mejora o refinamiento de las funciones existentes que hacen que la interfaz sea cada vez más útil en una serie de aplicaciones.