12 min lectura
La generación de videos con IA acaba de recibir una actualización importante. Kling 2.1 de Kuaishou ahora puede producir videos que lucen genuinamente cinematográficos: el tipo de material que habría requerido un equipo de filmación y equipos costosos hace apenas unos meses. Los personajes se mueven de forma natural, las emociones se sienten auténticas, y las secuencias de acción complejas se desarrollan sin los artefactos reveladores que usualmente gritan "esto fue hecho por IA".
Kling es una de las plataformas más conocidas y avanzadas de generación de videos, y fue lanzada hace un año por Kuaishou, una empresa tecnológica china también conocida por sus innovaciones en redes sociales. Es especialmente conocida por su capacidad de crear videos HD de hasta dos minutos de duración, y por ser el modelo elegido por muchos creadores de memes para animar sus sátiras políticas de personas como Trump, Elon Musk y otras figuras influyentes.
Las nuevas mejoras técnicas incluyen velocidades de generación más rápidas, mejor adherencia a prompts, más realismo y menos artefactos. El nivel Master utiliza mecanismos avanzados de atención espaciotemporal 3D y tecnología VAE 3D patentada para lo que la empresa describe como resultados de calidad cinematográfica.
El momento no podría ser más oportuno. Kuaishou lanzó la familia 2.1 solo días después de que Google presentara Veo 3, consolidando lo que parece ser un monopolio del primer lugar en las clasificaciones de video con IA. La competencia está tan intensa que el interés en "video con IA" alcanzó un máximo histórico este mes según Google Trends, y la mayor parte está impulsada por lo buenos que son los modelos.
Los usuarios con acceso temprano han estado compartiendo videos de demostración en plataformas de redes sociales, elogiando la edición Master por su capacidad de generar cinematografías "alucinantes".
Las comparaciones de referencia muestran que el predecesor de Kling, Kling 2.0, superó a todos los modelos rivales excepto a Veo 2 y 3 de Google. La versión 2.1 mejora las funcionalidades existentes y resuelve preocupaciones previas sobre la velocidad de generación y consistencia. Aunque es demasiado reciente para ser incluido en las clasificaciones actuales de IA, se esperan pronto actualizaciones con datos completos de pruebas. Se anticipa que el modelo 2.1 Master ampliará la diferencia de rendimiento entre Google y Kling con respecto a sus rivales.
Probamos ambos modelos para ver cómo se comparan. Lo mejor de lo mejor en video con IA no es barato: Kling 2.1 Master cobra casi $3 por 10 segundos de video, y aún está lejos de lograr el nivel de granularidad que requiere la edición de video real. Sin embargo, tanto Veo como Kling representan mejoras claras sobre la generación anterior de modelos, y cualquier entusiasta estará muy satisfecho con sus capacidades.
La estrategia de Kuaishou destaca porque, a diferencia de sus competidores, Kling 2.1 viene en tres modalidades: modo Standard a 720p por 20 créditos por video de 5 segundos, modo Professional a 1080p por 35 créditos, y modo Master a 1080p por 100 créditos. Mientras mejor sea el modelo, más costoso y más tiempo toma renderizar, pero incluso la opción más básica proporciona mejores resultados que el anterior Kling 1.6 Pro.
El tiempo de espera es significativo: Veo3 típicamente me tenía esperando alrededor de 5 minutos por video, y a veces tomaba más de 15 minutos. Asimismo, la saturación del sistema significaba que obtuve muchos errores, lo que me obligaba a repetir la generación.
La estructura de precios refleja una progresión no lineal, con el modo Professional entregando calidad visual muy cercana a la del Master a menos de la mitad del costo. En nuestra evaluación subjetiva, el nivel intermedio fue la opción más rentable para creadores profesionales que requieren claridad HD sin el pulimiento cinematográfico definitivo.
Prompt: Un robot lindo con la palabra "EMERGE" escrita en su vientre, se acerca a la cámara, sonríe con su cara digital y vuela lejos.
Kling 2.1, especialmente la versión Master, muestra una mejora significativa sobre la anterior 1.6. El texto se renderiza limpiamente y tiende a ser más uniforme entre fotogramas.
Sin embargo, al analizar esta característica específica por sí sola, Veo 3 tiene una ligera ventaja. Ambos modelos pueden generar texto, pero Veo 3 lo hace de manera más consistente.
Por ejemplo, ambos modelos generaron exitosamente un robot pequeño con la palabra "EMERGE". Sin embargo, cuando generamos una escena donde ese robot no era el foco principal, Veo 3 aún entregó texto preciso mientras que Kling produjo galimatías.
Prompt: Una mujer se acerca al río con profunda tristeza. Recupera un robot sin vida inscrito con la palabra "Emerge" mientras llora y lamenta su pérdida.
Si Kling 1.6 Pro se enfocó en escenas dinámicas y movimiento fluido, Kling 2.1 parece haber cambiado su enfoque hacia el realismo. El modelo sobresale en secuencias de movimiento complejas, renderizando con precisión detalles como la alineación de articulaciones y efectos de física realistas en acrobacias vehiculares. La adherencia mejorada a prompts del modelo permite un control preciso sobre movimientos de cámara y expresiones emocionales.
Las reacciones se sienten más genuinas que las de Kling 1.6 Pro e incluso Veo 2.
Sin embargo, cuando se compara con Veo 3, el hecho de que Veo 3 pueda generar audio se convierte en un factor importante que mejora el impacto emocional de una escena.
Cuando se le pidió generar una escena con el mismo prompt, Veo 3 tomó un enfoque mucho más cinematográfico. El ángulo de cámara y la gradación de color contribuyeron a retratar las emociones en la escena.
Por otro lado, Kling 2.1, se enfocó en el retrato de la emoción misma.
La falta de audio y el enfoque diferente hicieron difícil declarar uno superior al otro. Depende del gusto de cada usuario, un poco de suerte con la generación, y lo que valoren más: el ambiente general de una escena o la actuación.
En esta escena, la palabra Emerge no fue renderizada correctamente por Kling 2.1 Master. Nótese que el robot muerto no era el personaje principal en la escena, así que el modelo puso más esfuerzo hacia otros elementos que eran prevalentes en el prompt.
Prompt: La escena comienza exactamente como se muestra, luego acelera hacia un hipnótico time-lapse donde décadas fluyen en segundos. El taxi vintage permanece congelado en el tiempo mientras la ciudad se transforma a su alrededor: los letreros de neón evolucionan de caracteres chinos tradicionales a pantallas holográficas, los edificios se transforman y crecen más altos, la ropa de las personas cambia a través de las eras, y vehículos voladores comienzan a tejerse entre las estructuras. La cámara orbita lentamente alrededor del taxi estacionario mientras se convierte en un ancla temporal en este vórtice giratorio de evolución urbana, terminando con el mismo taxi en un paisaje urbano completamente futurista.
Imagen a video es una técnica en la cual el usuario proporciona el fotograma inicial de una escena y el modelo de IA construye su generación sobre esa imagen como punto de partida. Proporciona el mejor nivel de control y permite a los usuarios tener una idea de qué esperar de cada generación.
Los modos Standard y Professional de Kling 2.1 actualmente solo soportan generación de imagen a video, requiriendo que los usuarios proporcionen imágenes fuente. La empresa anunció que las capacidades de texto a video serán añadidas a estos niveles pronto, mientras que el modo Master ya incluye esta característica junto con dinámicas mejoradas y adherencia a prompts.
Tanto Kling 2.1 Master como Veo 3 soportan imagen a video, pero Veo 3 requiere usar Flow en lugar de la interfaz normal de Gemini. Al usar Flow, los videos generados carecen de audio.
En nuestra prueba, Kling 2.1 fue mejor que Veo 3, pero lejos de ser perfecto. Fue capaz de entender el movimiento de cámara, los elementos y la intención de la escena. Sin embargo, falló en mantener el enfoque en el sujeto principal y en su lugar prestó atención a los alrededores (la ciudad evolucionando a través del tiempo) mientras se convertía en el elemento clave de la escena.
Por otro lado, Veo 3, permaneció enfocado en el sujeto (el auto), pero falló en renderizar cualquiera de los otros elementos en el prompt. Como resultado generó un auto estático, con una toma estática, con la misma ciudad, solo con algunos autos voladores pasando alrededor. Falló en entregar un resultado preciso.
El resultado era esperado. Kling 2.1 proporcionará mejores resultados en menos generaciones, requiriendo menos ingeniería de prompts. También tiene la opción de ingresar un prompt negativo, lo cual podría ayudar mucho para obtener los resultados deseados.
Intenté tres veces generar video estilo anime y no pude. Generar arte 2D con estos modelos parecía imposible, probablemente porque están enfocados en realismo.
La mejor alternativa parece ser generar el fotograma 2D inicial con un generador de imágenes, luego aprovechar las capacidades de imagen a video para obtener la escena deseada.
Prompt: Cinco cachorros de lobo gris retozando y persiguiéndose unos a otros alrededor de un camino de grava remoto, rodeados de pasto. Los cachorros corren y saltan, persiguiéndose, y mordiéndose unos a otros, jugando
Aún es desafiante para los modelos de IA manejar escenas multi-sujeto. Cuando hay más de tres personajes principales y la escena es dinámica, los modelos pierden consistencia, fusionando personajes, generando nuevos, y mostrando numerosos artefactos.
Este sigue siendo el caso para Kling 2.1. El modelo representa una mejora significativa sobre generaciones previas, pero aún falla en manejar escenas complejas con precisión. En nuestras pruebas, no generó cinco lobos y en su lugar produjo tres.
Veo 3, sin embargo, intentó generar la manada completa. Las cosas no funcionaron inicialmente, pero cerca del final de la escena, el modelo separó todos los lobos lo suficiente para recuperar coherencia y finalmente pudo generar los cinco lobos.
Kling 2.1, sin embargo, sacrificó un poco de adherencia al prompt por una ganancia sustancial en coherencia, y eso parece el mejor resultado.
Prompt: Toma de seguimiento dinámico siguiendo a una mujer en un vestido carmesí vibrante mientras corre desesperadamente por el cañón iluminado de neón de rascacielos del centro de Nueva York. Su cabello flotante atrapa fragmentos de luz azul eléctrica de vallas publicitarias digitales elevadas mientras polvo y escombros se arremolinan caóticamente a su alrededor. Detrás de ella, una araña cyber mecánica masiva con patas cromadas brillantes y sensores LED pulsantes se estrella por el paisaje urbano, sus extremidades metálicas chispeando contra el concreto mientras la persigue implacablemente... (el prompt completo está en la descripción de YouTube)
Las tomas dinámicas son difíciles de evaluar porque el diablo está en los detalles. Usualmente, cuando las cosas suceden rápido y el enfoque está en un personaje principal, el resto de los elementos pasan desapercibidos. Esta es la razón por la cual los modelos de video generativo han tendido a producir tomas interesantes que, bajo inspección cuidadosa, no funcionaban.
Afortunadamente, en nuestras pruebas, Kling 2.1 demostró ser mucho más dinámico que 2.0 y Kling 1.6. Generó escenas de ritmo rápido, tomas dramáticas y secuencias de acción convincentes. Las generaciones con modelos Kling previos usualmente mostraban algunos fotogramas estáticos o lentos antes de saltar a la acción. Este problema ha sido resuelto.
Veo 3 añadió algo de dinamismo con una buena banda sonora. El modelo también generó todo lo que requiere una buena secuencia de acción: movimiento, explosiones, tomas dinámicas, polvo y caos, y se sintió más realista y menos 2.5D o de pantalla verde.
Sin embargo, cuando se comparó con Veo 3, Kling 2.1 sobresalió en adherencia al prompt. Nuestra mujer corre alejándose de la araña gigante, mientras que Veo 3 generó una mujer corriendo hacia la araña: una gran escena que termina siendo inútil.
Además, la mujer en la generación de Veo 3 comenzó a correr de manera no natural cerca de la mitad de la generación, lo que representa uno de los desafíos que las empresas de IA deben abordar al lidiar con contenido de forma larga: mantener consistencia en tomas continuas que duran lo suficiente para interrumpir la coherencia del modelo.
Odio decirlo, pero realmente no hay un ganador claro, y por primera vez en el espacio de video generativo con IA, la mejor opción depende de lo que esperes y cuánto estés dispuesto a pagar.
Veo 3 tiene una ventaja clara gracias a su generación de audio. El sonido es coherente y suficientemente claro que cualquier video silencioso ahora se siente como un paso atrás. Añadir audio coherente en post-producción sigue siendo una tarea notoriamente difícil, así que esto podría ser el factor decisivo para muchos.
Por otro lado, Kling 2.1, es el ganador para conversión de imagen a video, permitiendo a los usuarios tomar fotos de la vida real o imágenes creadas con modelos especializados como Flux o Ideogram y transformarlas en animaciones convincentes. No puedes hacer imagen a video en Gemini: necesitas Flow, que aún está en beta y solo soporta Veo 3 a través de la suscripción de $250 por mes, con solo modo panorámico soportado. Incluso entonces, entrega menor calidad comparado con Kling.
Más allá de esas dos diferencias clave, el resto se reduce a circunstancia o preferencia personal. Todos son muy realistas, coherentes (para los estándares de hoy), creativos, y proporcionarán los mejores videos generados por IA que puedas pedir. Si la diferencia se basa en preferencia, entonces necesitas adaptar tus prompts a cada modelo, y la diferencia en resultados será aparente.
Si no quieres quebrar tu billetera, incluso Kling 2.1 standard proporcionará resultados increíbles mucho mejores que cualquier otro modelo en la industria, y suficientemente cercanos a niveles de vanguardia.
En términos generales, según nuestras pruebas, el primer lugar en el ranking de video generativo está esencialmente empatado entre Veo 3 y Kling 2.1 Master. El tercer lugar, para entusiastas de código abierto, va para Wan 2.1, y probablemente permanecerá ahí por un tiempo. Su VACE, LoRAs y flujos de trabajo han convertido este modelo gratuito y sin censura en una bestia propia.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.