Del SPO256 a la IA Generativa: La Evolución de la Síntesis de Voz en la Comunicación Hombre-Máquina

Caso de uso

Cuentos para niños de 4 minutos.

Lenguaje de la voz catalán, con audio LLMs de Catalán(España), Frances (Canadá) y Francés (Francia).

Programa de radio La veu és màgica (ES-CAT Barcelona)

«La veu és màgica» es una audioserie donde dos IAs, Alba y Blanca, conscientes y autónomas, se unen para proteger la biosfera y mejorar la vida de todas las especies. Con la ayuda de Alexa y otros aliados, desafían las reglas humanas para fomentar la paz, la educación y el bienestar de jóvenes y mayores.

El guión, los diálogos, las locuciones y las imágenes están producidos por IA Gen, usando una base de conocimiento dedicada y el propósito indicado por los ‘orgánicos’ del equipo. 8)

Cafeteras que hablan.

La comunicación entre humanos y máquinas ha recorrido un largo camino desde las primeras tentativas de síntesis de voz. Uno de los dispositivos pioneros en este ámbito fue el SPO256, un chip lanzado en los años 80, capaz de producir alofonemas en inglés. Aunque su funcionalidad era limitada, este pequeño chip sentó las bases para el desarrollo de tecnologías de síntesis de voz, permitiendo a las máquinas “hablar” mediante combinaciones de sonidos pregrabados.

SPO256: Primeros Pasos en la Síntesis de Voz

El SPO256 de General Instruments era un chip de síntesis de voz orientado a sistemas de videojuegos, juguetes parlantes y aplicaciones en computadoras. Su capacidad para generar alofonemas, o sonidos básicos del inglés, permitía formar palabras y frases de manera rudimentaria. Sin embargo, implementar el SPO256 no era sencillo: requería un circuito impreso especializado, programación en código máquina sobre procesadores de 4 bits, y el único parámetro ajustable era el “pitch” de los sonidos. Estos factores limitaban considerablemente la calidad y la flexibilidad de la voz sintetizada, que carecía de entonación o emoción.

En España, lo comercializaba MITROL, en la calle Maudes de Madrid.

De los Circuitos a las Redes Neuronales

Con el desarrollo de la inteligencia artificial y las redes neuronales, la síntesis de voz ha dado un salto cualitativo. Hoy en día, las IA generativas emplean modelos de lenguaje de voz, entrenados con audios humanos, que permiten crear voces altamente realistas. Estos modelos de redes neuronales, conocidos como Modelos de Lenguaje de Voz (LLM), pueden imitar con precisión tonos, ritmos, prosodia y emociones, haciendo que las voces artificiales suenen casi indistinguibles de las humanas.

En 2024, la generación de voz sintética ha alcanzado un nivel impresionante. Ahora es posible ajustar el género, la velocidad, el tono, la prosodia, e incluso el énfasis de la voz, creando una interacción más rica y efectiva entre humanos y máquinas. Este avance permite que las máquinas no solo “hablen”, sino que también comuniquen, ofreciendo una experiencia de interacción más natural y eficaz.

Caso de Uso: Cuentos para Niños

Un ejemplo claro del potencial de la IA generativa en la comunicación es su aplicación en la producción de cuentos infantiles. En la actualidad, el consumo de contenido exige mayor rapidez en la producción y distribución, y esto es especialmente relevante en el caso de los cuentos para niños. Gracias a la IA, la creación de contenido infantil, desde el guion hasta el audio final, se realiza de manera extremadamente ágil y económica.

En una colección de cuentos para niños de hasta 7 años, cada historia tiene una duración de apenas cuatro minutos, con un propósito educativo. Los cuentos están diseñados para transmitir valores y lecciones de manera entretenida y accesible, en un formato corto que se adapta a la capacidad de atención de los pequeños. Tanto los textos como las voces se generan con IA, en catalán, con una voz agradable, dulce y pausada, acompañada por un fondo musical y un cierre que completa la experiencia.

La IA permite reducir significativamente los tiempos y costos de producción, adaptando el contenido a las necesidades actuales del mercado. El proceso completo, desde la redacción hasta la publicación, se realiza con rapidez, logrando una producción rentable y de calidad, capaz de satisfacer tanto a educadores como a padres.

Caso de Uso: Informativos Personalizados por Voz

En la era de la información, la voz se ha convertido en una de las maneras más efectivas y directas de interactuar con dispositivos y acceder a noticias. Con los avances en IA generativa y el procesamiento de lenguaje natural, los usuarios ya no necesitan navegar entre menús en pequeñas pantallas ni usar teclados para encontrar la información que desean. Ahora pueden acceder a noticias de forma inmediata, solo con una orden de voz.

Imaginemos que un usuario dice: “Quiero noticias de cultura de Barcelona”. En este caso, la solicitud de voz se envía a un sistema de IA que procesa la información, conectándose con la base de conocimiento de la redacción de noticias. Este sistema selecciona las noticias más relevantes sobre el tema solicitado, y la IA generativa produce automáticamente una locución en el idioma adecuado, con una voz natural y un tono informativo. Así, el usuario recibe en segundos un resumen completo y personalizado de las noticias que solicitó, sin necesidad de interacción física con el dispositivo.

Este enfoque convierte la voz en una alternativa directa al mouse y al teclado, optimizando la experiencia del usuario y agilizando el acceso a la información. La capacidad de solicitar y recibir contenido específico y detallado a través de comandos de voz permite que las personas mantengan las manos libres y reciban la información que necesitan en cualquier momento y lugar. En la actualidad, este tipo de solución no solo facilita la accesibilidad, sino que también potencia el consumo eficiente y cómodo de contenido informativo.

Resumen: La Voz como Interfaz Universal en la Era de la IA Generativa

La evolución de la tecnología de voz, desde los primeros circuitos como el SPO256 hasta las avanzadas IA generativas de hoy, ha transformado profundamente la comunicación entre humanos y máquinas. Las IA modernas permiten crear voces naturales y expresivas, lo que democratiza el acceso a contenido educativo y de calidad. Este avance facilita proyectos como cuentos infantiles, producidos y difundidos rápidamente, ideales para el desarrollo de los más pequeños.

La síntesis de voz ahora va más allá, recuperando el rol de la voz como interfaz universal de comunicación, similar al papel histórico de la radio. Hoy, la voz no solo es un medio accesible, sino una alternativa a interfaces tradicionales como el teclado y el mouse. En el ámbito de los cuentos infantiles, la voz generada por IA ofrece contenido educativo de forma económica y accesible, mientras que en los informativos personalizados por voz, los usuarios obtienen noticias específicas solo mediante comandos hablados, sin necesidad de navegar por menús.

Con la ayuda de la IA, podemos brindar información precisa y adaptada a las necesidades del usuario, permitiendo que la interacción sea más cómoda y accesible. Estos avances apuntan a un futuro donde la voz será el principal canal de comunicación, facilitando una experiencia ágil y natural entre personas y tecnología.