ElevenLabs y Stability AI Lanzan Nuevos Modelos de IA para Música—¿Podrán Alcanzar a Suno?

Music v2 incorpora cambios de género y composición sección por sección a ElevenLabs. Stable Audio 3.0 llega con pesos abiertos y pistas de seis minutos. ¿Alguno es lo suficientemente bueno como para destronar al líder de la categoría?

Por Jose Antonio Lanz

5 min lectura

Esta semana llegaron dos importantes actualizaciones de música con IA, y ninguna provino de Suno.

ElevenLabs, la empresa de voz con IA fundada en Polonia con una valoración de $11.000 millones tras una Serie D de $500 millones en febrero, lanzó Music v2. Stability AI —los creadores de Stable Diffusion— presentó Stable Audio 3.0, una familia de cuatro modelos con pesos abiertos y pistas que superan los seis minutos.

El contexto es el de las demandas por derechos de autor de la Recording Industry Association of America contra Suno y Udio en 2024, que convirtieron la frase "entrenado con datos licenciados" en la más importante de cualquier anuncio de música con IA. Tanto ElevenLabs como Stability apuestan fuerte por eso, asegurándose de que los resultados generados no traigan problemas.

Music v2: Una sola pista, de la ópera al heavy metal, sin desmoronarse

Music v2 es el segundo modelo musical de ElevenLabs, que llega aproximadamente 10 meses después del primero. Su propuesta principal es la coherencia bajo presión. Según ElevenLabs, una sola pista puede pasar de la ópera al heavy metal y volver, mantenerse sólida durante un rap rápido e integrar efectos de sonido no musicales, todo sin que la composición se deshaga.

El audio generativo tiende a desmoronarse exactamente cuando los prompts se complican, por lo que esto es lo que vale la pena seguir de cerca, especialmente en composiciones más largas.

El inpainting ahora es realmente útil: se selecciona una sección, se regenera y todo lo demás queda intacto. Los usuarios también pueden construir canciones sección por sección —intro, verso, coro— y el modelo mantiene la continuidad a lo largo del proceso, en lugar de tratar cada clip como una generación independiente. El soporte multilingüe también mejoró, aunque ElevenLabs no publicó detalles específicos.

El modelo impulsa tres plataformas: ElevenMusic para creadores, ElevenAPI para desarrolladores y ElevenCreative para marcas. Ya está disponible en ElevenMusic y ElevenCreative; el acceso a la API está en fase de acceso anticipado a través del equipo de ventas.

ElevenLabs también redujo los precios de Music v1 y v2 hasta un 50% para ElevenAPI y hasta un 40% para ElevenCreative en autoservicio. La empresa alcanzó $500 millones en ingresos recurrentes anuales en abril de 2026. La música sigue siendo una pequeña parte de eso, pero ElevenMusic, lanzada como aplicación de consumo en abril, es un ataque directo a la base de usuarios de Suno.

Stable Audio 3.0: Pesos abiertos, en dispositivo, y realmente más largo

Stable Audio 2.0 llegaba hasta tres minutos y ya iba rezagado frente a Suno cuando se lanzó en 2024. Stable Audio 3.0 incluye cuatro modelos: Small SFX (efectos de sonido en dispositivo), Small (composición musical completa en dispositivo), Medium (hasta 6:20, hardware más potente) y Large (solo API). Tres de los cuatro tienen pesos abiertos en Hugging Face.

Los modelos Small funcionan con 459 millones de parámetros cada uno, sin necesidad de GPU. (Los parámetros miden la capacidad de un modelo de IA, en esencia.) Medium alcanza 1.400 millones de parámetros y genera su salida de 6:20 en aproximadamente 1,31 segundos en una GPU H200. Large, con 2.700 millones, es solo API para organizaciones con más de $1 millón en ingresos. La granularidad de generación por segundo significa que obtienes exactamente la duración de pista que pediste, no una aproximación.

También es compatible con ComfyUI para configuraciones locales.

La arquitectura es nueva: un autoencoder semántico-acústico al que Stability llama SAME, diseñado para mantener la coherencia melódica en salidas más largas. El ajuste fino con LoRA es compatible, por lo que los artistas pueden adaptar los modelos a sus propios catálogos. El inpainting también está incluido: segmento único, múltiples segmentos y continuación causal para extender una pista más allá de su punto final original.

Como referencia, un LoRA (modelo de adaptación de bajo rango) es como un modelo pequeño que condiciona la forma en que el modelo completo genera sus salidas. Si entrenas un LoRA con blues, el modelo producirá blues; si lo entrenas con el blues de BB King, el modelo producirá canciones que sonarán como BB King. El inpainting permite que un modelo corrija pequeños errores en su creación. Por ejemplo, si el modelo genera algo extraño en el minuto 2:30, puedes seleccionar unos segundos de la canción, pedirle al modelo que lo cambie por lo que quieras, y generará un fragmento que encaja perfectamente en ese momento y se fusiona con la canción completa.

Stability ha sido técnicamente creíble en música con IA durante años sin lograr un gran impacto comercial. La apuesta por los pesos abiertos es la estrategia de Stable Diffusion aplicada al audio: sembrar en la comunidad de desarrolladores y ver qué se construye. El licenciamiento es más limpio que todo lo que Stable Audio había lanzado antes, con acuerdos vigentes con Universal Music Group y Warner Music Group.

El objetivo: Suno, el rey de la música con IA

Si ChatGPT es el rey del texto con IA, Suno es el rey de la música con IA. La empresa detrás del modelo alcanzó una valoración de $2.450 millones en noviembre de 2025, superó los $300 millones en ingresos recurrentes anuales y ha sido utilizada por aproximadamente 100 millones de personas.

Genera alrededor de 7 millones de canciones al día. Warner Music llegó a un acuerdo con Suno en noviembre de 2025; Sony y UMG siguen en los tribunales federales.

Para evitar estas guerras de derechos de autor, ElevenLabs tiene acuerdos de licencia con Believe, Kobalt y Merlin. Stability tiene a Warner y Universal. Udio llegó a un acuerdo con las tres grandes y ahora es un jardín cerrado: nada de lo que generes puede salir de la plataforma.

Stable Audio 3.0 Small y Medium ya están disponibles en Hugging Face. Large está activo a través de la API de Stability AI. Music v2 es gratuito para los usuarios de ElevenMusic, con niveles comerciales a través de ElevenCreative y ElevenAPI.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados