DeepMind de Google Revela la IA 'Genie' Para Crear Juegos Instantáneamente

Entrenado con más de 200.000 horas de videos de juego, el modelo experimental puede convertir cualquier imagen o idea en una plataforma 2D.

Por Jason Nelson

Feb 28, 2024

4 min lectura

Image created by Decrypt using AI

Add on Google

En Resumen

DeepMind de Google presentó una demostración en vivo de Genie, un modelo de IA generativa.
Desarrollado en colaboración con la Universidad de British Columbia, Genie puede crear juegos de plataformas 2D.
Genie puede crear entornos interactivos jugables a partir de una sola imagen de referencia.

El lunes, la empresa de inteligencia artificial de Google, DeepMind, presentó una demostración en vivo de Genie, un modelo de inteligencia artificial generativa que puede crear juegos a partir de una simple indicación después de aprender las mecánicas de cientos de miles de videos de juegos.

Desarrollado en colaboración entre Google y la Universidad de British Columbia, Genie, abreviatura de Generative Interactive Environments, puede crear juegos de plataformas 2D de desplazamiento lateral basados en indicaciones de usuario como Super Mario Brothers y Contra utilizando una sola imagen.

“En los últimos años, ha surgido la inteligencia artificial generativa, con modelos capaces de generar contenido novedoso y creativo a través de lenguaje, imágenes e incluso videos”, dijo Google DeepMind. “Hoy presentamos Genie, un nuevo paradigma para la inteligencia artificial generativa, entornos interactivos generativos”

Genie puede crear entornos interactivos jugables a partir de una sola imagen de referencia gracias a lo que los investigadores de Google describen como un modelo de acción latente que infiere las acciones entre fotogramas de video, un tokenizador de video que convierte los fotogramas de video en tokens discretos, y un modelo dinámico que determina el siguiente fotograma.

“En lugar de agregar sesgos inductivos, nos enfocamos en la escala,” dijo el desarrollador de Google DeepMind, Tim Rocktäschel, en Twitter. “Utilizamos un conjunto de datos de más de 200.000 horas de videos de plataformas 2D y entrenamos un modelo mundial de 11B... [luego] de manera no supervisada, Genie aprende diversas acciones latentes que controlan personajes de manera consistente.”

I am really excited to reveal what @GoogleDeepMind's Open Endedness Team has been up to 🚀. We introduce Genie 🧞, a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc

— Tim Rocktäschel (@_rockt) February 26, 2024

Genie, también puede convertir otros tipos de medios en juegos, según Rocktäschel. En el documento de investigación de DeepMind, señalan que Genie puede ser incitado a generar una variedad de mundos virtuales controlables por acciones a partir de una variedad de entradas.

“Nuestro modelo puede convertir cualquier imagen en un mundo 2D jugable”, dijo Rocktäsche. “Por ejemplo, Genie puede dar vida a creaciones diseñadas por humanos como bocetos, hermosas obras de arte de Seneca y Caspian, dos de los creadores de mundos más jóvenes de la historia.”

Si bien Genie es competente en la creación de mundos 2D a partir de texto o imágenes, Rocktäschel mostró que el modelo de IA puede hacer más que construir juegos de desplazamiento lateral, incluida la capacidad de enseñar a otros modelos de IA o "agentes" sobre mundos 3D.

“También entrenamos a un Genie en datos de robótica (RT-1) sin acciones y demostramos que también podemos aprender un simulador controlable por acciones allí”, dijo. “Creemos que este es un paso prometedor hacia modelos de mundo generales para la IA generalizada.”

La inteligencia artificial general (AGI), conocida como Singularity, se refiere a una IA que puede comprender y aplicar conocimientos aprendidos en una amplia gama de tareas, al igual que un humano.

DeepMind dijo que el conjunto de datos de Genie fue generado filtrando videos de internet disponibles públicamente, específicamente aquellos que incluían títulos como "speedrun" o "playthrough", mientras excluía palabras como "película" o "unboxing".

Los avances en tecnología de IA, hardware y conjuntos de datos, han llevado a la capacidad de crear un lenguaje coherente y conversacional e imágenes "claras y estéticamente agradables" afirmó DeepMind de Google.

“Al seleccionar palabras clave, verificamos manualmente los resultados para asegurarnos de que típicamente producían videos de jugabilidad de plataformas 2D que no estuvieran superados por otros tipos de videos que comparten palabras clave similares”, señalaron los investigadores.

Genie’s model is general and not constrained to 2D. We also train a Genie on robotics data (RT-1) without actions, and demonstrate that we can learn an action controllable simulator there too. We think this is a promising step towards general world models for AGI. pic.twitter.com/yYLBzefBkz

— Tim Rocktäschel (@_rockt) February 26, 2024

“Con Genie, nuestros futuros agentes de IA pueden ser entrenados en un currículo interminable de nuevos mundos creados”, dijo DeepMind de Google. “En nuestro documento, tenemos una prueba de concepto de que las acciones latentes aprendidas por Genie pueden transferirse a entornos reales diseñados por humanos, pero esto es solo la punta del iceberg de lo que podría ser posible en el futuro.”

Gracias en gran parte al lanzamiento del GPT-4 de OpenAI el año pasado, empresas tecnológicas, incluidas Google, Microsoft y Amazon, han invertido fuertemente en inteligencia artificial generativa. A principios de este mes, Google anunció el lanzamiento de una versión basada en suscripción de su modelo de inteligencia artificial Gemini después de cambiar el nombre de Bard.

Los representantes de Google ni su programa DeepMind respondieron de inmediato a una solicitud de comentario de Decrypt.

Editado por Ryan Ozawa.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Coin Prices