Stability AI Lanza Stable Audio 2: ¿Vencerá al "Asombroso" Suno 3?

La última versión del generador de música de inteligencia artificial ofrece pistas más largas de alta calidad con licencias sólidas, pero sus composiciones aún no pueden eclipsar a la competencia.

Por Jose Antonio Lanz

8 min lectura

Stability AI, un destacado desarrollador de inteligencia artificial comprometido con el ethos de código abierto, lanzó Stable Audio 2 esta semana, un nuevo generador de audio y música. Es la primera actualización importante desde que Stable Audio debutó en septiembre, con una serie de mejoras que intensifican la competencia entre herramientas de empresas como Suno, MusicFX de Google y AudioCraft de Meta.

"Stable Audio 2.0 permite pistas completas de alta calidad con una estructura musical coherente de hasta tres minutos de duración a 44.1 kHz estéreo a partir de una sola indicación en lenguaje natural," declaró Estabilidad AI en su comunicado.

El anuncio llega en medio de un momento difícil para Stability AI, que supuestamente había agotado sus reservas de efectivo antes de que el CEO Emad Mostaque renunciara hace dos semanas.

La empresa continúa avanzando en el espacio de la inteligencia artificial de código abierto. Además de Stable Audio, la compañía lanzó un nuevo LLM de codificación llamado Stable Code Instruct 3B el 25 de marzo y el año pasado lanzó un generador avanzado de texto a video de código abierto llamado Stable Video Diffusion.

Stability AI también está lista para lanzar su generador de imágenes más avanzado, Stable Diffusion 3, más adelante este año.

Dentro de los seguidores del código abierto, Stability AI juega un papel destacado junto a nombres destacados como Mistral y Nous. Sin embargo, otras grandes empresas tecnológicas también están explorando el espacio de código abierto, con Meta y Microsoft compartiendo importantes contribuciones.

¿Cómo funciona Stable Audio 2?

En su núcleo, Stable Audio 2 aprovecha la tecnología del transformador de difusión (DiT), siguiendo el mismo enfoque que el próximo generador de imágenes Stable Diffusion 3 de Stability AI, lo que representa un cambio respecto a su tecnología previamente adoptada U-Net.

DiT y U-Net son ambas arquitecturas comunes utilizadas en modelos de machine learning, pero DiT está diseñado para refinar ruido aleatorio en datos estructurados de forma incremental, lo que lo hace particularmente efectivo para manejar secuencias de datos largas. Por otro lado, U-Net se centra en la precisión para generaciones cortas, pero es menos capaz de manejar secuencias más largas y complejas.

Entre las principales mejoras de Stable Audio 2 se encuentra la generación de audio a audio, una nueva función que permite a los usuarios transformar muestras de sonido subidas, una opción similar a img2img de Stable Diffusion para la modificación de imágenes.

"Los usuarios ahora pueden cargar muestras de audio y, a través de indicaciones en lenguaje natural, transformar estas muestras en una amplia variedad de sonidos", explicó el anuncio. “Esta actualización también amplía la generación de efectos de sonido y la transferencia de estilo, brindando a artistas y músicos más flexibilidad, control y un proceso creativo elevado.”

En otras palabras, Stable Audio 2 no comienza refinando un ruido aleatorio, en cambio, modela el archivo de audio inicial para que coincida con la indicación del usuario. El resultado es una generación que sigue la indicación, pero que suena similar al audio de referencia.

La empresa presume el hecho de que Stable Audio 2 fue entrenado exclusivamente con un conjunto de datos con licencia de la biblioteca musical AudioSparx. Esto asegura que todos los artistas tuvieron la opción de excluirse del entrenamiento del modelo de Stable Audio, respetando sus derechos y garantizando una compensación justa.

Decrypt probó el modelo y los resultados mostraron mejoras significativas en comparación con Stable Audio 1.0. Las pistas de música generadas eran más coherentes y las generaciones eran más largas, el doble del límite de 90 segundos de la versión uno.

El estilo de indicación de Stable Audio 2 se asemeja al de Stable Diffusion 1.5, enfocándose fuertemente en etiquetas o palabras clave. Las indicaciones en lenguaje natural no producen buenos resultados.

El modelo parece más adecuado para la inspiración o música de fondo en lugar de reemplazar a músicos debidamente entrenados para lograr canciones destacadas. En muchos casos, las generaciones sufrieron de múltiples alucinaciones y sonidos discordantes que se alejaban de la indicación. Aun así, a menudo generaba buenos riffs o ritmos que podrían ser utilizados más adelante.

Stable Audio 2 versus Suno 3

Por impresionante que sea Stable Audio 2, especialmente en comparación con su predecesor, sus capacidades se desvanecen rápidamente en comparación con los sonidos y canciones generados por Suno 3, una actualización del principal generador de audio lanzado hace solo un mes. Muchos entusiastas de la IA dicen que Suno 3 es el mejor modelo en el espacio de la música de IA, con Kevin Hutson de Futurepedia describiéndolo como algo "alucinante" y MatVidPro diciendo que es revolucionario.

Mientras que lo que hace que una pista de música sea agradable, o incluso simplemente buena, es relativo, Decrypt intentó una comparación lado a lado de Stable Audio 2 y Suno 3 utilizando las mismas indicaciones. Es un enfoque imperfecto dadas las diferencias en sus estilos óptimos de indicación: Stable Audio prefiere palabras clave, y Suno 3 un lenguaje más natural.

Decidimos utilizar el enfoque de Stability AI, aunque podría perjudicar a Suno. Afortunadamente, Suno 3 pudo entender efectivamente nuestras instrucciones, proporcionando una manera razonable de comparar sus resultados.

Sin embargo, el estilo de indicación de Stable Audio no es amigable para principiantes: el uso solo de palabras clave y etiquetas puede limitar la creatividad y complejidad de la salida. Una indicación normal de Suno, por ejemplo, podría ser, “Una canción de pop rock sobre Decrypt, un sitio de noticias que cubre el espacio de la IA.” Una indicación típica de Stable Audio sería algo como, “Formato: Banda | Instrumentos: guitarra eléctrica, bajo, teclados, banjo | Género: Country | Subgénero: Country Rock.”

Desde el principio, Suno 3 tiene una ventaja importante sobre la competencia: además de aceptar indicaciones en lenguaje natural, puede integrarse con un modelo de lenguaje grande o large language model (LLM) para generar letras.

Aquí tienes una comparación entre Stable Audio 2 y Suno v3, ambos con y sin letras. La indicación fue: Tema de apertura épico de créditos planetario, amplio, reflexivo, de ciencia ficción con un violín en solitario.

En cuanto a la calidad del audio generado, Stable Audio 2 se queda corto frente a Suno 3. Mientras que Stability AI dijo que su herramienta puede generar música coherente de hasta tres minutos de duración, las pistas tienden a ser más simples, careciendo de la creatividad y complejidad estructural del audio generado por Suno 3.

Las generaciones de Suno 3 suelen incluir una estructura de canción adecuada con riffs naturales, estribillos, puentes y variaciones, haciendo que la salida se sienta más como una canción completa en lugar de una pista instrumental de fondo.

Aquí tienes una comparación entre las generaciones proporcionadas por Stable Audio 2 y Suno v3. La indicación fue: Formato: Banda | Instrumentos: batería, guitarra eléctrica, bajo, teclados | Género: Rock | Subgénero: Heavy Metal | Estado de ánimo: Energético, Épico | Tempo: Rápido |

Además, las transiciones entre riffs en las generaciones de música de Stable Audio suelen ser abruptas. Esto contrasta fuertemente con Suno 3, que generalmente transita suavemente entre las diferentes partes de la canción, creando una experiencia auditiva más placentera.

Otra diferencia notable entre los dos modelos es la velocidad de generación de audio. Suno 3 genera audio mucho más rápido que Stable Audio 2. Aunque esto podría ser un problema del servidor, sigue siendo un factor importante a considerar, especialmente para los usuarios que necesitan generar audio de forma rápida y eficiente.

Pero hay algo que Stable Audio 2 hace y que Suno 3 no puede hacer: generaciones de audio a audio.

Con Stable Audio 2, podrías silbar la melodía de una canción, por ejemplo, y Stable Audio daría vida a tus ideas. Este es un nivel de control que los usuarios de Suno aún no tienen. Si bien esto no es un factor decisivo para nosotros, podría ser importante para muchos.

Tanto Stable Audio como Suno son potentes y vale la pena probarlos, especialmente si tienes ganas de hacer música, pero careces de habilidades musicales. Es posible que Stable Audio necesite avanzar a su tercera versión para acercarse al mismo nivel de generación que Suno.

Editado por Ryan Ozawa.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados