Probamos PAI de Utopai: ¿Es el Mejor Generador de Video de IA de Formato Largo?

Utopai Studios construyó un motor cinematográfico de nivel profesional que produce impresionantes videos de IA de larga duración, pero su curva de aprendizaje puede ser implacable.

Por Jose Antonio Lanz

8 min lectura

La mayoría de las herramientas de video con IA están diseñadas para el momento estelar. Sora, Kling, Luma, Runway—todas están optimizadas para el instante del espectáculo: un clip impactante de cinco segundos, un experimento visual que luce impresionante en redes sociales.

Lo que rara vez resuelven es la parte que realmente importa a los narradores profesionales: la consistencia de escena a escena, la identidad de los personajes a través de los cortes, y el control creativo granular que no exige empezar desde cero cada vez que algo no está del todo bien.

Esa es la brecha que Utopai Studios busca cubrir con PAI. Su equipo, formado por profesionales de Google Research, Meta Superintelligence, Amazon AGI y Adobe Firefly, construyó PAI específicamente para la producción cinematográfica de larga duración: hasta 16 tomas en un solo flujo narrativo, resultados de hasta un minuto de duración y resolución de hasta 4K.

También incluye protección de derechos de autor integrada que bloquea la generación de contenido con propiedad intelectual protegida, personajes con derechos de autor y semejanzas públicas reales—una función orientada a estudios y profesionales que no pueden permitirse una infracción accidental.

PAI abrió al público a principios de este mes. Entramos, dedicamos tiempo a cada etapa del flujo de trabajo y perdimos algunos créditos en el camino. Aquí está el panorama completo.

Interfaz

La pantalla principal luce como ChatGPT o cualquier interfaz típica de chatbot. Desde allí, se navega por cinco pestañas: Characters, Storyboard, Video, Editor e History.

Pero no te dejes engañar: PAI no es una herramienta de prompt-y-espera como Sora o Veo. Es un pipeline de producción estructurado con una capa de lenguaje natural encima, y la distinción importa—y mucho—cuando los créditos están en juego.

Personajes

Esta es la función más sólida de toda la suite, y posiblemente el sistema de generación de personajes más impresionante disponible actualmente en cualquier herramienta de video con IA.

Los usuarios pueden dejar que el modelo cree personajes por su cuenta o proporcionarle imágenes de referencia. Lo que hace no es intercambio de rostros—no trasplanta la semejanza de una persona real como lo hacen las herramientas de deepfake. En cambio, genera modelos completamente nuevos que se aproximan mucho a la referencia, sin los problemas legales y éticos que conlleva el reemplazo directo de rostros. Todos los resultados están marcados con SynthID.

La mayoría de los personajes generados por IA tienen una calidad de piel cerosa que los delata de inmediato. Los de PAI no, o al menos no en la misma medida. La textura de la piel luce realista, al igual que la forma en que la luz interactúa con el rostro, y los detalles son sólidos. Ya sea que esto provenga de un modelo propietario o de un flujo de generación inusualmente refinado, los resultados hablan por sí solos.

La edición de personajes se realiza a través de lenguaje natural: generé un personaje usando la apariencia de mi esposa como referencia, pero el resultado me pareció demasiado delgado, así que le pedí al modelo que ajustara las proporciones corporales para que coincidieran mejor con la referencia. Entendió exactamente lo que quise decir y lo corrigió.

La única advertencia constante: es lento. Incluso la generación básica de imágenes de personajes tarda un par de minutos por intento.

Storyboard

Puedes ejecutar el storyboard en automático y dejar que el modelo lo haga todo, pero no es para eso que fue construido.

PAI recompensa los inputs detallados. Cuanto más expliques—qué hacen los personajes en cada escena, qué dicen y cómo avanza la historia—mejor funciona el modelo. Proporciónale esa especificidad y usará IA para expandir los detalles, luego construirá alrededor de una docena de fotogramas clave. Cada fotograma incluye una imagen de la escena y una descripción de lo que ocurre en ese momento exacto: acciones de los personajes, diálogos y composición visual.

Puedes editar cada fotograma clave individualmente antes de comprometerte con cualquier cosa. El control es genuinamente granular. Una vez satisfecho, le indicas al modelo que proceda, y este solicita confirmación final antes de renderizar. Este flujo de revisión previa al renderizado es un diseño inteligente. Obliga a tomar decisiones deliberadas y detecta problemas antes de que se vuelvan costosos.

Dicho esto, incluso la edición más pequeña toma tiempo y consume créditos. Procede con cuidado.

Generación de video

Cuando funciona, un renderizado exitoso tarda alrededor de 30 minutos en producir un minuto completo de video. La calidad del resultado justifica esa espera. Los ángulos de cámara cambian de forma natural y respetan los fotogramas clave establecidos, la iluminación es natural, y los personajes no tienen esa calidad hueca y vacía que hace que la mayoría de los videos generados por IA se sientan sin vida. Las voces son consistentes entre escenas, con una entonación adecuada que se mantiene incluso tras los cortes a otros elementos.

Cuando la cámara vuelve a enfocarse en un personaje después de mostrar otra cosa, este regresa exactamente como lo dejó. Los fondos permanecen estables a lo largo del video, y aunque existen deformaciones y artefactos, son menores. Un punto débil: el modelo no maneja bien el texto dentro del video. Puede producir elementos de texto básicos, pero no lo uses para nada que requiera tipografía precisa en pantalla.

Aquí hay una muestra de una generación realizada con todo manejado automáticamente por el modelo.

Ahora la parte más difícil. Una de nuestras secuencias de prueba falló tres veces consecutivas. El primer intento tardó alrededor de 45 minutos, consumió créditos como si se hubiera generado un video completo, y produjo un resultado vacío. Le dijimos al chatbot que no había generado nada. Reconoció el error y reinició.

Una hora después, nada. Lo intentamos una tercera vez. El mismo resultado. Tres intentos, pérdida significativa de créditos y cero footage. Para cuando nos rendimos, casi no nos quedaban créditos y tuvimos que continuar.

Esto no es un error menor cuando pagas dinero real y trabajas dentro de plazos profesionales. La interfaz reconoce que los errores ocurren. Experimentarlo directamente es otra cosa, especialmente considerando que necesitarás saldo positivo para descargar un video si tus créditos fueron consumidos durante el proceso de generación.

En nuestra primera prueba con todo seleccionado automáticamente, cometí un error de usuario: proporcioné dos fotos de referencia sin especificar qué personaje debía usar cuál, y el modelo las asignó al revés—el personaje masculino (yo) fue generado a partir de la referencia femenina (mi esposa), y viceversa.

Olvidemos esa traumática imagen de mí como mujer, y aun así el video resultante terminó siendo el video de IA de larga duración más consistente que he producido. Incluso con las referencias incorrectas, el modelo mantuvo la continuidad visual y tonal de escena a escena. Eso dice mucho sobre la arquitectura subyacente.

La lección de ambas experiencias es la misma: las herramientas normales de video con IA asumen todo por ti, lo que significa que no tienes que pensar mucho—pero también debes aceptar lo que decidan. PAI te da control. Y con ese control viene la plena responsabilidad de lo que introduces.

Editor

Una vez completado un video, la pestaña Editor te permite dirigir revisiones completamente en lenguaje natural. Inserta elementos en una escena, elimínalos, cambia colores, ajusta la iluminación, reformula diálogos o actualiza la sincronización de labios, y el modelo vuelve a renderizar en consecuencia. Genuinamente entiende lo que le pides.

Esto no es un filtro de postprocesamiento. Es una revisión iterativa impulsada por IA a nivel de escena. La capacidad de describir una intención editorial y recibir footage corregido en respuesta cambia por completo la relación creativa entre un director y su material. Esta función, más que cualquier otra en PAI, anticipa hacia dónde podría dirigirse la edición de video con IA en un futuro cercano.

Por ejemplo, después de ver el primer video, le pedí al modelo que corrigiera el error de género usando las referencias correctas.

Una vez procesado, pasó de esto:

A esto:

Historial

La pestaña History registra una línea de tiempo completa de cada interacción: prompts, ediciones, intentos de renderizado, todo.

Para creadores individuales, ofrece contexto útil. Para equipos, puede convertirse en una capa de colaboración real donde distintos usuarios pueden ver cómo sus colegas han dirigido el modelo, entender qué funcionó y qué no, y continuar desde un registro creativo compartido.

Precios y conclusión

El precio de PAI es de $100 por 10.000 créditos. En nuestras pruebas, 2.000 créditos cubrieron cuatro videos (uno completado, tres no) con un total de cuatro minutos—dos personajes generados por video con múltiples iteraciones antes del renderizado, desarrollo de storyboard con prompts ricos y detallados, y alrededor de dos rondas de edición post-renderizado.

En general, PAI se siente como una herramienta profesional diseñada para quienes se toman el video con IA muy en serio. Es lenta, implacable con la inexperiencia—podría honestamente usar un buen tutorial—y capaz de consumir tu presupuesto muy rápidamente. La interfaz no es infalible, y el sistema te penalizará si entras sin estar bien preparado.

Después de una primera sesión dedicada a entender cómo piensa, nuestra segunda ronda de pruebas produjo resultados muy sorprendentes y satisfactorios—el tipo que normalmente requiere técnicas de face-swap, rondas de prueba y error, y ediciones en postproducción.

Para los creadores de video profesionales, para quienes la continuidad, la seguridad de la propiedad intelectual y la calidad cinematográfica son elementos no negociables, PAI es el mejor sistema de video de IA de larga duración disponible ahora mismo. Si se corrigen los problemas de fiabilidad, nada más se le acerca, al menos por ahora.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados