En Resumen
- Los modelos de IA avanzados fallaron al jugar Doom debido a la latencia entre la captura de pantalla y la respuesta del sistema.
- El proyecto VideoGameBench evaluó a los modelos con 20 videojuegos clásicos para probar sus habilidades de razonamiento espacial.
- Los agentes tuvieron dificultades para controlar el ratón en juegos como Civilization y Warcraft II, fallando en tareas básicas.
A pesar del entusiasmo que rodea a la inteligencia artificial, incluso los modelos de visión-lenguaje más avanzados—GPT-4o, Claude Sonnet 3.7 y Gemini 2.5 Pro—luchan con un desafío que lleva décadas: jugar al clásico shooter en primera persona Doom.
El jueves, un nuevo proyecto de investigación presentó VideoGameBench, un benchmark de IA diseñado para probar si los modelos de visión-lenguaje de última generación pueden jugar—y vencer—a una suite de 20 videojuegos populares, usando solo lo que ven en la pantalla.
"En nuestra experiencia, los VLM de última generación tienen dificultades sustanciales para jugar videojuegos debido a la alta latencia de inferencia", dijeron los investigadores. "Cuando un agente toma una captura de pantalla y consulta al VLM sobre qué acción tomar, para cuando llega la respuesta, el estado del juego ha cambiado significativamente y la acción ya no es relevante".
Los investigadores afirmaron que utilizaron juegos clásicos de Game Boy y MS-DOS debido a sus visuales más simples y diversos estilos de entrada, como ratón y teclado o mando de juego, que prueban mejor las capacidades de razonamiento espacial de un modelo de visión-lenguaje que los juegos basados en texto.
VideoGameBench fue desarrollado por el científico informático e investigador de IA Alex Zhang. La suite de juegos incluye clásicos como Warcraft II, Age of Empires y Prince of Persia.
Claude can play Pokemon, but can it play DOOM?
With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!
Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now --> 🧵 pic.twitter.com/vl9NNZPBHY
— Alex Zhang (@a1zhang) April 17, 2025
Según los investigadores, las respuestas retrasadas son más problemáticas en los shooters en primera persona como Doom. En estos entornos de ritmo rápido, un enemigo visible en una captura de pantalla puede ya haberse movido—o incluso alcanzado al jugador—para cuando el modelo actúa.
Para los desarrolladores de software, Doom ha servido durante mucho tiempo como prueba de fuego para la capacidad tecnológica en entornos de juego. Cortacéspedes, Bitcoin e incluso bacterias intestinales humanas se han enfrentado a los demonios del infierno con diversos niveles de éxito. Ahora es el turno de la IA.

"Todos Merecen Jugar": Comentarios Del Jefe de Xbox, Sobre 'Doom' Tocan Una Fibra Sensible
¿Alguna vez has dicho algo y luego te has dado cuenta de que iba a volver para atormentarte una y otra vez? El jefe de Xbox, Phil Spencer, podría estar pasando su tiempo libre con la cabeza entre las manos después de su declaración más reciente sobre el próximo Doom: The Dark Ages. Al tomar esta nueva declaración en el contexto de otras cosas que Spencer ha dicho y otras decisiones comerciales que Microsoft ha tomado, se cuestiona la dirección futura de toda la plataforma Xbox. "Doom es definiti...
"Lo que ha sacado a Doom de las sombras de los 90 y lo ha llevado a la luz moderna no es su apasionante jugabilidad, sino más bien su atractivo diseño computacional", dijo anteriormente a Decrypt la investigadora biotecnológica del MIT Lauren Ramlan. "Construido sobre el motor id Tech 1, el juego fue diseñado para requerir solo los equipos más modestos para ser jugado".
Además de luchar con la comprensión de los entornos de juego, los modelos a menudo fallaban en realizar acciones básicas dentro del juego.
"Observamos casos frecuentes donde el agente tenía problemas para entender cómo sus acciones—como moverse a la derecha—se traducirían en pantalla", dijeron los investigadores. "El fracaso más consistente en todos los modelos de frontera que probamos fue la incapacidad de controlar de manera confiable el ratón en juegos como Civilization y Warcraft II, donde los movimientos precisos y frecuentes del ratón son esenciales".
Para comprender mejor las limitaciones de los sistemas de IA actuales, VideoGameBench enfatizó la importancia de evaluar sus capacidades de razonamiento en entornos que son tanto dinámicos como complejos.
"A diferencia de dominios extremadamente complicados como pruebas matemáticas no resueltas y problemas matemáticos de nivel olímpico, jugar videojuegos no es una tarea de razonamiento sobrehumano, sin embargo, los modelos siguen teniendo dificultades para resolverlos", afirmaron.
Editado por Andrew Hayward
GG Newsletter

