En Resumen

  • Stability AI lanzó Stable Video Diffusion, un modelo de difusión de video latente para la generación de texto a video y de imagen a video.
  • La herramienta, disponible en vista previa de investigación, busca destacarse en el espacio de video generativo con adaptabilidad y tecnología de código abierto.
  • Stability AI destacó que su modelo supera a los modelos cerrados en estudios de preferencia del usuario, ofreciendo generación de video a velocidades de fotogramas de 3 a 30 fps.

Después del exitoso lanzamiento de un modelo de texto a imagen, un lanzamiento controvertido de un modelo de texto a música y un lanzamiento en gran medida desapercibido de un modelo de generación de texto, Stability AI acaba de anunciar el lanzamiento de Stable Video Diffusion, una herramienta de texto a video que tiene como objetivo hacerse un hueco en el incipiente espacio de video generativo.

"Stable Video Diffusion [es] un modelo de difusión de video latente para la generación de texto a video y de imagen a video de última generación", explica Stability AI en el artículo de investigación del modelo. "Abarcando modalidades que incluyen imagen, lenguaje, audio, 3D y código, nuestra cartera es un testimonio de la dedicación de Stability AI para amplificar la inteligencia humana" destacó en el anuncio oficial.

Esta adaptabilidad, junto con la tecnología de código abierto, abre el camino a numerosas aplicaciones en publicidad, educación y entretenimiento. Stable Video Diffusion, que ahora está disponible en una vista previa de investigación, es capaz de "superar a los métodos basados en imágenes con una fracción de su presupuesto de cálculo", según los investigadores.

Las capacidades técnicas de Stable Video Diffusion son impresionantes. "Los estudios de preferencia humana revelan que el modelo resultante supera a los modelos de imagen a video de última generación", revela el artículo de investigación. Stability AI está claramente segura de la superioridad de su modelo en transformar imágenes estáticas en contenido de video dinámico, afirmando que su modelo supera a los modelos cerrados en los estudios de preferencia del usuario.

Stability AI ha desarrollado dos modelos dentro de las funciones de Stable Video Diffusion: SVD y SVD-XT. El modelo SVD transforma imágenes estáticas en videos de 576×1024 en 14 fotogramas, mientras que SVD-XT utiliza la misma arquitectura pero se extiende a 24 fotogramas. Ambos modelos ofrecen generación de video a velocidades de fotogramas que van desde tres hasta 30 fotogramas por segundo, ubicándose en la vanguardia de la tecnología de texto a video de código abierto.

En el campo en constante evolución de la generación de videos de IA, Stable Video Diffusion compite con modelos innovadores como los desarrollados por Pika Labs, Runway y Meta. Emu Video, recientemente anunciado por Meta, similar en su capacidad de texto a video, muestra un potencial significativo con su enfoque único en la edición de imágenes y creación de videos, aunque con una limitación actual de videos de resolución de 512x512 píxeles.

A pesar de sus logros tecnológicos, Stability AI se enfrenta a varios desafíos, incluyendo consideraciones éticas sobre el uso de datos con derechos de autor en el entrenamiento de IA. La compañía enfatiza que el modelo "no está destinado a aplicaciones del mundo real o comerciales en esta etapa", centrándose en mejorarlo basándose en los comentarios de la comunidad y las preocupaciones de seguridad.

A juzgar por el éxito de SD 1.5 y SDX, los modelos de código abierto más potentes para la generación de imágenes, esta nueva incursión en la escena de la generación de videos insinúa un futuro en el que las líneas entre lo imaginado y lo real no estarán borrosas, sino bellamente redibujadas.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.