En Resumen

  • El equipo Qwen de Alibaba presentó tres modelos de IA: Qwen-RobotNav, Qwen-RobotManip y Qwen-RobotWorld para robótica encarnada.
  • Qwen-RobotManip se ubicó primero en RoboChallenge Table30-v1, superando a enfoques anteriores en un 20%.
  • Alibaba no reveló precios ni cronogramas, aunque los modelos ya funcionan sobre hardware de Franka y Unitree.

El equipo Qwen de Alibaba lanzó el martes Qwen-Robot Suite: tres modelos fundacionales que conforman lo que ellos llaman un "stack completo para inteligencia encarnada". Qwen-RobotNav maneja la movilidad. Qwen-RobotManip maneja la manipulación. Qwen-RobotWorld simula la física que hace posible a ambos. Cada uno funciona de manera independiente. Juntos, son el momento Android de la robótica—el sistema operativo, no el hardware.

Alibaba es actualmente la única empresa en China que abarca chips, nube, modelos, plataformas de servicio y aplicaciones. Para la empresa, la robótica es la expresión más física de esa apuesta, lo que se conoce como IA encarnada.

Los agentes de IA actualmente dependen de LLMs para potenciar sus decisiones. La forma habitual en que funcionan los robots es mediante modelos de machine learning que, aunque avanzados, carecen de la adaptabilidad de la IA generativa. Los agentes físicos enfrentan una clase de fallos diferente y más difícil: física, no prompts.

Para estos casos de uso, Alibaba presentó este nuevo suite de IA con diferentes componentes:

Qwen-RobotNav unifica cinco tareas de navegación—seguimiento de instrucciones, navegación hacia un punto objetivo, búsqueda de objetos, seguimiento de objetivos y conducción autónoma—cada una exigiendo estrategias de memoria visual diferentes. La mayoría de los modelos codifican de forma fija una sola estrategia. Qwen-RobotNav expone una interfaz parametrizada: presupuesto de tokens, decaimiento temporal, pesos por cámara que un planificador puede reconfigurar a mitad de episodio.

Entrenado con 15,6 millones de muestras con aleatorización en todos los parámetros, logra un 76,5% de éxito en VLN-CE RxR, un benchmark para navegación visual-lingüística en entornos del mundo real, y un 90% de seguimiento en EVT-Bench, que evalúa la capacidad de un agente para seguir consistentemente objetivos en movimiento.

Qwen-RobotManip aborda uno de los mayores desafíos en la manipulación robótica: diferentes robots representan las acciones de maneras fundamentalmente distintas. Un brazo Franka (un tipo de robot con siete ejes de movimiento) opera mediante ángulos articulares, mientras que un robot ALOHA (una plataforma robótica bimanual de bajo costo ampliamente usada en investigación robótica) representa las acciones a través de la posición y orientación de sus pinzas (poses del efector final). Los humanoides añaden otra capa de complejidad, usando coordenadas de cuerpo completo.

Para conectar estos espacios de acción incompatibles, Alibaba sintetizó aproximadamente 38.100 horas de datos de entrenamiento a partir de conjuntos de datos de robots de código abierto y videos humanos—sin depender de recolección de datos propietaria. El modelo se ubica en primer lugar en RoboChallenge Table30-v1, superando a los enfoques anteriores en un 20%.

Qwen-RobotWorld es el más ambicioso: un modelo de mundo en video condicionado por lenguaje que trata el lenguaje natural como una interfaz de acción universal. "Toma la taza roja y vierte agua sobre la flor" funciona sin importar si el actor es una pinza, un vehículo autónomo o un agente de navegación móvil.

El corpus de Conocimiento Mundial Encarnado abarca 8,6 millones de pares de video-texto—200 millones de fotogramas—en manipulación (5,9 millones de muestras, más de 1.300 habilidades, más de 20 morfologías), conducción autónoma (Waymo, NVIDIA PhysicalAI-AD, Bench2Drive), navegación en interiores (VLNVerse) y transferencia de humano a robot a través de 14 brazos robóticos.

Se ubica en primer lugar en EWMBench y DreamGen Bench, dos benchmarks que evalúan si los modelos de mundo predicen y generan entornos físicos realistas. También supera a todos los modelos de código abierto en WorldModelBench y PBench, y obtiene una puntuación perfecta en adherencia a las leyes físicas: leyes de Newton, conservación de masa, dinámica de fluidos, gravedad.

¿El ChatGPT de los robots?

Mientras los laboratorios occidentales (Google DeepMind, Nvidia, Figure, Physical Intelligence) persiguen objetivos similares, la mayoría se enfoca en navegación o manipulación, no en un suite unificado y componible. La integración vertical de Alibaba desde los chips hasta las aplicaciones significa que controlan todo el stack. La base de código abierto los diferencia frente a competidores que dependen de datos privados de robots.

Existen algunas concepciones erróneas que vale la pena aclarar: estos no son robots sino modelos de software—cerebros, no cuerpos. Funcionan sobre hardware de AgileX, Franka, Universal Robots, Unitree y otros.

Además, a pesar de ser modelos de IA generativa para robots, estos no son LLMs como el típico ChatGPT. Un modelo de lenguaje predice tokens. Estos modelos deben entender la física, las relaciones espaciales y las consecuencias de las acciones físicas. Un modelo de lenguaje te dice que un vaso se rompe si se cae. Qwen-RobotWorld predice cómo se rompe—patrón de fractura, dinámica de fluidos, colisiones secundarias. Qwen-RobotManip planifica un agarre que evita la caída por completo.

No esperes tener tu propio robot doméstico pronto. La brecha entre una demostración controlada de un robot colocando fruta en una canasta y un robot trabajando de forma confiable en tu casa es enorme. RoboCasa365, LIBERO-Plus, RoboTwin-Clean2Rand—estos son benchmarks de simulación. El despliegue en el mundo real introduce ruido de sensores, deriva de actuadores y la larga cola de casos extremos que ha humillado a todos los esfuerzos de robótica en la historia, y Alibaba reconoce esto.

Los logros técnicos, sin embargo, son reales. El enfoque de alineación primero de RobotManip resuelve un cuello de botella genuino en el entrenamiento de cruce de encarnaciones. La interfaz de observación parametrizada de RobotNav es una solución ingeniosa al problema de estrategia de contexto. La interfaz de lenguaje como acción universal de RobotWorld es la abstracción correcta para el modelado de mundo entre dominios.

Alibaba no ha revelado precios, cronogramas, ni qué clientes tendrán acceso más allá de los programas piloto.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.