Por Jason Nelson
3 min lectura
A pesar del entusiasmo que rodea a la inteligencia artificial, incluso los modelos de visión-lenguaje más avanzados—GPT-4o, Claude Sonnet 3.7 y Gemini 2.5 Pro—luchan con un desafío que lleva décadas: jugar al clásico shooter en primera persona Doom.
El jueves, un nuevo proyecto de investigación presentó VideoGameBench, un benchmark de IA diseñado para probar si los modelos de visión-lenguaje de última generación pueden jugar—y vencer—a una suite de 20 videojuegos populares, usando solo lo que ven en la pantalla.
"En nuestra experiencia, los VLM de última generación tienen dificultades sustanciales para jugar videojuegos debido a la alta latencia de inferencia", dijeron los investigadores. "Cuando un agente toma una captura de pantalla y consulta al VLM sobre qué acción tomar, para cuando llega la respuesta, el estado del juego ha cambiado significativamente y la acción ya no es relevante".
Los investigadores afirmaron que utilizaron juegos clásicos de Game Boy y MS-DOS debido a sus visuales más simples y diversos estilos de entrada, como ratón y teclado o mando de juego, que prueban mejor las capacidades de razonamiento espacial de un modelo de visión-lenguaje que los juegos basados en texto.
VideoGameBench fue desarrollado por el científico informático e investigador de IA Alex Zhang. La suite de juegos incluye clásicos como Warcraft II, Age of Empires y Prince of Persia.
Según los investigadores, las respuestas retrasadas son más problemáticas en los shooters en primera persona como Doom. En estos entornos de ritmo rápido, un enemigo visible en una captura de pantalla puede ya haberse movido—o incluso alcanzado al jugador—para cuando el modelo actúa.
Para los desarrolladores de software, Doom ha servido durante mucho tiempo como prueba de fuego para la capacidad tecnológica en entornos de juego. Cortacéspedes, Bitcoin e incluso bacterias intestinales humanas se han enfrentado a los demonios del infierno con diversos niveles de éxito. Ahora es el turno de la IA.
"Lo que ha sacado a Doom de las sombras de los 90 y lo ha llevado a la luz moderna no es su apasionante jugabilidad, sino más bien su atractivo diseño computacional", dijo anteriormente a Decrypt la investigadora biotecnológica del MIT Lauren Ramlan. "Construido sobre el motor id Tech 1, el juego fue diseñado para requerir solo los equipos más modestos para ser jugado".
Además de luchar con la comprensión de los entornos de juego, los modelos a menudo fallaban en realizar acciones básicas dentro del juego.
"Observamos casos frecuentes donde el agente tenía problemas para entender cómo sus acciones—como moverse a la derecha—se traducirían en pantalla", dijeron los investigadores. "El fracaso más consistente en todos los modelos de frontera que probamos fue la incapacidad de controlar de manera confiable el ratón en juegos como Civilization y Warcraft II, donde los movimientos precisos y frecuentes del ratón son esenciales".
Para comprender mejor las limitaciones de los sistemas de IA actuales, VideoGameBench enfatizó la importancia de evaluar sus capacidades de razonamiento en entornos que son tanto dinámicos como complejos.
"A diferencia de dominios extremadamente complicados como pruebas matemáticas no resueltas y problemas matemáticos de nivel olímpico, jugar videojuegos no es una tarea de razonamiento sobrehumano, sin embargo, los modelos siguen teniendo dificultades para resolverlos", afirmaron.
Editado por Andrew Hayward
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.