En Resumen
- Nvidia lanzó Eureka, un agente de IA que utiliza modelos de lenguaje grandes (LLMs) para enseñar a los robots habilidades complejas.
- Eureka utiliza IA generativa para escribir algoritmos de recompensa sofisticados que permiten a los robots aprender mediante el aprendizaje por refuerzo.
- Eureka enseña a los robots a realizar casi 30 tareas diferentes, demostrando ser más efectivo que los programas escritos por humanos en más del 50% de los casos.
Los investigadores de Nvidia han logrado un gran avance en destreza robótica gracias a Eureka, un agente de IA que supuestamente puede enseñar a los robots habilidades complejas como girar un bolígrafo tan hábilmente como los humanos.
La nueva técnica, descrita en un artículo publicado el jueves, se basa en los avances recientes en modelos de lenguaje grandes o Large Language Models (LLMs) como GPT-4 de OpenAI. Eureka utiliza la IA generativa para escribir de forma autónoma algoritmos de recompensa sofisticados que permiten a los robots aprender mediante el aprendizaje por refuerzo de prueba y error. Según se detalla en el artículo, este enfoque ha demostrado ser más efectivo en más del 50% que los programas escritos por humanos.
"Eureka también ha enseñado a cuadrúpedos, manos diestras, brazos de cobot y otros robots a abrir cajones, usar tijeras, atrapar pelotas y realizar casi 30 tareas diferentes", dice una publicación oficial en el blog de Nvidia.
Eureka es la última demostración del trabajo pionero de Nvidia en el manejo de la IA mediante modelos de lenguaje. Recientemente, la compañía ha liberado el código fuente de SteerLM, un método que alinea a los asistentes de IA para que sean más útiles entrenándolos con retroalimentación humana.
Al igual que Eureka, SteerLM también utiliza avances en modelos de lenguaje, pero se enfoca en un desafío diferente: mejorar la alineación de los asistentes de IA. SteerLM entrena a los asistentes haciéndolos practicar conversaciones, como un robot que aprende haciendo. El sistema brinda retroalimentación sobre las respuestas del asistente a través de atributos como utilidad, humor y calidad.
Por ejemplo, es como un robot que aprende a bailar a partir de videos etiquetados como buenos o malos, en lugar de que un humano revise miles de bailes al azar y seleccione cuáles son buenos o no (que es la forma en que se entrenan los típicos chatbots de IA). Mediante la práctica repetida y la retroalimentación, los asistentes aprenden a proporcionar respuestas adaptadas a las necesidades del usuario. Esto ayuda a que la IA sea más beneficiosa para aplicaciones del mundo real.
El hilo común es el uso de redes neuronales avanzadas de formas creativas, ya sea enseñando a robots o chatbots. Nvidia está empujando los límites tanto en el hardware como en el software.
Para Eureka, la clave fue combinar tecnologías de simulación como las de Isaac Gym con la destreza de reconocimiento de patrones de los modelos de lenguaje. Eureka puede aprender eficazmente, optimizando sus propios algoritmos de recompensa en múltiples ejecuciones de entrenamiento. Incluso acepta la entrada humana para refinar sus recompensas.
Este enfoque de auto-mejora ha demostrado ser altamente generalizable hasta ahora, entrenando robots de todo tipo.
Eureka y SteerLM de Nvidia no solo están rompiendo barreras, sino que también están enseñando a los robots y a la inteligencia artificial el arte de la sutileza y la interacción perspicaz. Con cada giro de un bolígrafo y una charla ingeniosa, están dibujando un futuro en el que la IA no solo imita, sino que también innova junto a nosotros.