Este Modelo de IA Puede Gritar de Terror Mientras Los Gigantes Permanecen Mudos

Nari Labs afirma haber creado una gran inteligencia emocional con su diminuto modelo de IA Dia-1.6B, poniendo en aviso a los líderes de la industria.

Por Jose Antonio Lanz

6 min lectura

Nari Labs ha lanzado Dia-1.6B, un modelo de texto a voz de código abierto que afirma superar a jugadores establecidos como ElevenLabs y Sesame en la generación de habla emocionalmente expresiva. El modelo es súper pequeño, con solo 1.600 millones de parámetros, pero aún puede crear diálogos realistas completos con risas, tos e inflexiones emocionales.

Incluso puede gritar de terror.

Aunque eso no suene como un gran logro técnico, incluso ChatGPT de OpenAI se desconcierta por eso: "No puedo gritar, pero definitivamente puedo hablar más fuerte", respondió su chatbot cuando se le preguntó.

Ahora, algunos modelos de IA pueden gritar, si se les pide. Pero no es algo que ocurra de forma natural u orgánica, lo cual, al parecer, es el superpoder de Dia-1.6B. Entiende que, en ciertas situaciones, un grito es apropiado.

El modelo se ejecuta en tiempo real en una sola GPU con 10GB de VRAM, procesando alrededor de 40 tokens por segundo en un Nvidia A4000. A diferencia de alternativas más grandes de código cerrado, Dia-1.6B está disponible de forma gratuita bajo la licencia Apache 2.0 a través de los repositorios de Hugging Face y GitHub.

"Una meta ridícula: construir un modelo TTS que compita con NotebookLM Podcast, ElevenLabs Studio y Sesame CSM. De alguna manera lo logramos", publicó el cofundador de Nari Labs, Toby Kim, en X al anunciar el modelo. Las comparaciones muestran que Dia maneja diálogos estándar y expresiones no verbales mejor que los competidores, que a menudo suavizan la entrega u omiten por completo las etiquetas no verbales.

La carrera por crear una IA emocional

Las plataformas de IA se están enfocando cada vez más en hacer que sus modelos de texto a voz muestren emoción, abordando un elemento faltante en la interacción humano-máquina. Sin embargo, no son perfectos y la mayoría de los modelos, ya sean abiertos o cerrados, tienden a crear un efecto valle inquietante que disminuye la experiencia del usuario.

Hemos probado y comparado algunas plataformas diferentes que se centran en este tema específico del habla emocional, y la mayoría de ellas son bastante buenas siempre y cuando los usuarios adopten la mentalidad correcta y conozcan sus limitaciones. Sin embargo, la tecnología todavía está lejos de ser convincente.

Para abordar este problema, los investigadores están empleando diversas técnicas. Algunos entrenan modelos en conjuntos de datos con etiquetas emocionales, lo que permite al IA aprender los patrones acústicos asociados con diferentes estados emocionales. Otros utilizan redes neuronales profundas y grandes modelos de lenguaje para analizar indicios contextuales para generar tonos emocionales apropiados.

ElevenLabs, uno de los líderes del mercado, intenta interpretar el contexto emocional directamente a partir de la entrada de texto, observando indicios lingüísticos, estructura de las oraciones y puntuación para inferir el tono emocional apropiado. Su modelo estrella, Eleven Multilingüe v2, es conocido por su rica expresión emocional en 29 idiomas.

Mientras tanto, OpenAI lanzó recientemente "gpt-4o-mini-tts" con expresión emocional personalizable. Durante las demostraciones, la empresa destacó la capacidad de especificar emociones como "apologética" para escenarios de soporte al cliente, fijando el precio del servicio en 1.5 centavos por minuto para que sea accesible para los desarrolladores. Su modo de Voz Avanzada de última generación es bueno imitando la emoción humana, pero es tan exagerado y entusiasta que no pudo competir en nuestras pruebas contra otras alternativas como Hume.

Donde Dia-1.6B potencialmente marca un nuevo camino es en cómo maneja las comunicaciones no verbales. El modelo puede sintetizar risas, tos y aclaraciones de garganta cuando se activa por señales de texto específicas como "(risas)" o "(tos)"—añadiendo una capa de realismo que a menudo falta en las salidas de TTS estándar.

Más allá de Dia-1.6B, otros proyectos de código abierto destacados son EmotiVoice—un motor TTS de voz múltiple que admite la emoción como un factor de estilo controlable—y Orpheus, conocido por su ultra baja latencia y expresión emocional realista.

Es difícil ser humano

Pero, ¿por qué es tan difícil el habla emocional? Después de todo, los modelos de IA dejaron de sonar robóticos hace mucho tiempo.

Bueno, parece que la naturalidad y la emotividad son dos bestias diferentes. Un modelo puede sonar humano y tener un tono fluido y convincente, pero fallar completamente en transmitir emoción más allá de una simple narración.

“En mi opinión, la síntesis del habla emocional es difícil porque los datos en los que se basa carecen de granularidad emocional. La mayoría de los conjuntos de datos de entrenamiento capturan habla que es clara e inteligible, pero no profundamente expresiva,” Kaveh Vahdat, CEO de la empresa de generación de video AI RiseAngle, le dijo a Decrypt. “La emoción no es solo tono o volumen; es contexto, ritmo, tensión e indecisión. Estas características a menudo son implícitas y rara vez etiquetadas de una manera de la que las máquinas puedan aprender.”

“Incluso cuando se utilizan etiquetas de emoción, tienden a simplificar la complejidad del afecto humano real en categorías amplias como 'feliz' o 'enojado', lo cual está lejos de cómo funciona realmente la emoción en el habla,” argumentó Vahdat.

Marcamos de manera clara el problema principal: los modelos carecen de tanta conciencia contextual que resulta difícil aislar una emoción única sin pistas adicionales y hacerla lo suficientemente coherente para que los humanos realmente crean que es parte de una interacción natural.

El efecto del "valle inquietante" plantea un desafío particular, ya que el habla sintética no puede compensar una voz robótica neutral simplemente adoptando un tono más emocional.

Y hay más obstáculos técnicos. Los sistemas de IA a menudo tienen un rendimiento deficiente cuando se prueban en hablantes que no están incluidos en sus datos de entrenamiento, un problema conocido como baja precisión de clasificación en experimentos independientes del hablante. El procesamiento en tiempo real del habla emocional requiere una potencia computacional sustancial, lo que limita su implementación en dispositivos de consumo.

La calidad de los datos y el sesgo también presentan obstáculos significativos. Entrenar a la IA para el habla emocional requiere conjuntos de datos grandes y diversos que capturen emociones en diferentes grupos demográficos, idiomas y contextos. Los sistemas entrenados en grupos específicos pueden tener un rendimiento deficiente con otros, por ejemplo, la IA entrenada principalmente en patrones de habla caucásicos podría tener dificultades con otros grupos demográficos.

Quizás lo más fundamental, es que algunos investigadores argumentan que la IA no puede realmente imitar la emoción humana debido a su falta de conciencia. Si bien la IA puede simular emociones basadas en patrones, carece de la experiencia vivida y la empatía que los humanos aportan a las interacciones emocionales.

Supongo que ser humano es más difícil de lo que parece. Lo siento, ChatGPT.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados