En Resumen

  • Oppo lanzó X-OmniClaw, un framework de agente de IA de código abierto para Android que ejecuta tareas reales directamente en el hardware del usuario.
  • El sistema combina cámara, micrófono y pantalla para percibir el entorno, automatizar apps y mantener memoria semántica entre sesiones.
  • A diferencia de otros agentes móviles que operan en servidores remotos, X-OmniClaw funciona de forma nativa en el dispositivo y ya está disponible en GitHub.

Tu teléfono ya tiene cámara, micrófono y pantalla. Puede ver lo que estás mirando en la vida real y lo que ocurre en su propia pantalla. Y ahora, el equipo de IA del fabricante chino de smartphones Oppo descubrió que todo ese hardware que permanece mayormente sin uso es exactamente lo que se necesita para construir un agente de IA móvil genuinamente útil.

Ese proyecto es X-OmniClaw, publicado por el Multi-X Team. Es un framework de agente de IA de código abierto para Android que convierte tu teléfono en un asistente manos libres y consciente del contexto, capaz de ejecutar tareas reales en aplicaciones reales, sin enrutar todo a través de una copia virtual de tu dispositivo en la nube.

La mayoría de los sistemas de IA móvil no se ejecutan realmente en tu teléfono. Lo hacen en servidores en la nube que alojan copias virtuales de Android, permitiendo que una IA toque y desplace aplicaciones de forma remota. El resultado: sin acceso a tu cámara real, tus fotos o tus archivos locales, solo un extraño usando una copia de tu teléfono.

X-OmniClaw adopta el enfoque contrario. Según el informe técnico, introduce "una arquitectura nativa en el dispositivo que se ejecuta directamente en el hardware físico del usuario, eliminando así la brecha entre entornos simulados y contextos de interacción del mundo real".

El informe usa una analogía automovilística: el smartphone es "el vehículo", X-OmniClaw es "el motor interno de control y percepción", y el modelo de lenguaje en la nube solo se invoca como "el combustible" cuando se necesita razonamiento intensivo. Todo lo demás permanece en local.

Cómo funciona el agente de IA para teléfonos de Oppo

La arquitectura general de X-OmniClaw se basa en tres pilares: Omni Perception, Omni Action y Omni Memory, que funcionan como un bucle continuo, con LLMs en la nube convocados únicamente para razonamiento intensivo, según Oppo.

Oppo's X-OmniClaw Agent technology
Fuente: OPPO AI Center

Omni Perception abarca todo lo que el teléfono puede percibir. Combina las imágenes de la cámara, el contenido de la pantalla y la entrada de voz en un único pipeline. Un modelo de visión-lenguaje interpreta la escena antes de que el agente haga cualquier cosa. Así, si apuntas tu cámara a una botella y preguntas "¿cuánto cuesta esto?", el agente primero determina qué estás mirando, luego abre la aplicación de compras correspondiente y comienza a buscar. Sin conjeturas.

Omni Memory es lo que diferencia a X-OmniClaw de un chatbot de respuesta única. El agente mantiene el contexto entre tareas, cambios de aplicación y sesiones. Además, construye una memoria semántica a largo plazo a partir de tu galería de fotos, convirtiendo imágenes en notas estructuradas sobre objetos, escenas y eventos. El informe señala que "la continuidad en tiempo de ejecución es lo que permite a X-OmniClaw operar como un agente de dispositivo continuo en lugar de un sistema de respuesta única".

Omni Action gestiona la ejecución. Combina datos de interfaz XML con un modelo visual en el dispositivo y OCR —una capa de reconocimiento de caracteres para determinar exactamente dónde tocar, incluso en pantallas cargadas de anuncios donde la estructura sola no es suficiente—. También incluye clonación de comportamiento: navega una vez hasta una página de aplicación enterrada, y el agente podrá repetir ese recorrido al instante mediante un acceso directo deeplink de Android la próxima vez.

Qué puede hacer realmente el agente de IA de Oppo

Oppo compartió algunas de las capacidades del modelo. Por ejemplo, el agente identifica un producto físico a través de la cámara, abre Taobao, desplaza los resultados y devuelve un resumen de precios, sin necesidad de escribir nada.

Oppo también demostró un asistente flotante en pantalla que ayuda a un usuario a resolver ejercicios matemáticos paso a paso: lee la pantalla de forma autónoma, procesa cada pregunta y avanza cuando termina.

Ofreció además otro ejemplo en el que un usuario le pide al agente que monte un video con los mejores momentos a partir de fotos de loros. El sistema escanea la galería, encuentra las fotos correspondientes usando su memoria semántica, abre el editor de video de CapCut mediante deeplink, selecciona los archivos en lote y genera el video. Lo que antes tomaba "varios minutos o más" se convierte en una serie de pasos automatizados.

Fuente: OPPO AI Center

2026: El año de la IA agéntica

Los agentes de IA se han convertido en una de las categorías más comentadas en el mundo tecnológico. OpenClaw —el framework de agente de código abierto que superó las 373.000 estrellas en GitHub y que eventualmente contó con el respaldo de OpenAI— inició la oleada actual al demostrar lo que los agentes persistentes ejecutados localmente podían hacer en PCs. Hermes Agent de Nous Research fue un paso más allá con un bucle de aprendizaje auto-mejorable que potencia sus capacidades con el tiempo.

Ambos se ejecutan principalmente en hardware de escritorio. X-OmniClaw extiende la misma arquitectura al dispositivo que realmente llevas a todas partes. El equipo se basó en el código abierto de HermesApp, y el artículo reconoce explícitamente al modelo de habilidades estructuradas de OpenClaw como inspiración fundamental, adaptándolo luego a la naturaleza multimodal y siempre activa de un smartphone.

El código ya está disponible en GitHub. Oppo afirma que publicará todos los recursos y seguirá actualizando el proyecto a medida que el sistema evolucione.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.