En Resumen
- OpenAI lanzó Operator para permitir a ChatGPT controlar un navegador virtual y realizar tareas del mundo real.
- La función estuvo disponible solo para suscriptores Pro en EE.UU. por $200/mes.
- Operator superó a otros modelos en pruebas de navegación web y sistemas operativos estándar.
OpenAI presentó recientemente una nueva función, denominada Operator, que permite a ChatGPT tomar el control de un navegador virtual para realizar tareas del mundo real como pedir comida o reservar vuelos. Pero hasta ahora, está dirigido a personas con alto poder adquisitivo.
La herramienta, actualmente disponible solo para suscriptores Pro ($200/mes) en EE.UU., marca la primera incursión de la empresa en la navegación web autónoma. Destaca el surgimiento de un sistema financiero estratificado, donde quienes pagan más obtienen acceso a las mejores funciones de IA. Al mismo tiempo, los usuarios que pagan menos están limitados a modelos menos capaces con funcionalidad restringida, lo que podría considerarse poco democrático.
El sistema funciona a través de operator.chatgpt.com, donde los usuarios pueden pedirle a ChatGPT que gestione diversas tareas en línea.
Ha habido algunos intentos de hacer cosas similares en el pasado, desde la tienda de plugins de OpenAI hasta la promesa de los Large Action Models popularizada por Rabbit. Sin embargo, su dependencia de las APIs las hacía inconvenientes y difíciles de configurar.
Lo que hace que esto sea diferente es cómo funciona. En lugar de depender de APIs como sus predecesores, Operator controla un navegador basado en la nube, haciendo clic en botones y completando formularios como lo haría un humano.
Cada vez que Operator hace un movimiento, toma una captura de pantalla para mostrarte lo que está haciendo.
Por ejemplo, si necesitas reservar una entrada para un partido, la IA abrirá su propio navegador, irá a un sitio específico, buscará el partido en cuestión y encontrará las mejores opciones antes de pedirte que confirmes el pago.
También te guiará a través de su proceso de toma de decisiones con pruebas visuales. Si las cosas se complican, hay un botón "Tomar el Control" que permite a los humanos tomar el mando.
Modelo O3 de OpenAI Alcanza Puntuaciones de Nivel Humano, ¿Puede Considerarse AGI?
El último modelo de IA de OpenAI ha logrado lo que muchos pensaban imposible, alcanzando una puntuación sin precedentes de 87,5% en el desafiante benchmark Autonomous Research Collaborative Artificial General Intelligence—básicamente cerca del umbral mínimo de lo que teóricamente podría considerarse "humano". El benchmark ARC-AGI prueba qué tan cerca está un modelo de alcanzar la inteligencia artificial general (AGI), es decir, si puede pensar, resolver problemas y adaptarse como un humano en di...
Para tener éxito donde otros fallaron, OpenAI tuvo que construir su propio modelo de IA para comprender visualmente la información mostrada por un navegador web y controlar acciones con entradas de teclado y ratón. El nuevo modelo, impulsado por GPT-4o, se llamó Computer User Agent (CUA).
Esto no se trata solo de seguir scripts. La IA puede leer y comprender diseños de sitios web, adaptarse a diferentes diseños e incluso manejar ventanas emergentes inesperadas o mensajes de error.

El sistema muestra algunos trucos impresionantes. Dale una foto de tu lista de compras desordenada escrita a mano, y no solo usará GPT-Vision para leerla, sino que realmente pedirá todo desde tu tienda de comestibles preferida.
OpenAI se ha asociado con varias empresas para garantizar operaciones fluidas en sus plataformas.
Al reservar un viaje o pedir comida, la IA puede navegar por servicios como Uber y DoorDash sin problemas, ya que está preconfigurada para comprender sus interfaces.
Este "Modelo de Razonamiento" de IA Gratuito Supera al o1 de OpenAI Evitando Mensualidad de $20
El equipo de Novasky, una “iniciativa colaborativa liderada por estudiantes y asesores del Laboratorio de Sky Computing de UC Berkeley”, ha logrado lo que parecía imposible hace solo unos meses: han creado un modelo de razonamiento de IA de alto rendimiento por menos de $450 en costos de entrenamiento. A diferencia de los Large Language Models (LLM) tradicionales que simplemente predicen la siguiente palabra en una oración, los llamados “modelos de razonamiento” están diseñados para comprender u...
Sin embargo, para sitios web no compatibles, el sistema aún intenta completar tareas usando sus capacidades de control del navegador. Aquí es donde Operator supera a otras alternativas.
Como es habitual, OpenAI compartió algunos puntos de referencia: Supera a otros modelos de última generación, obteniendo 38,1% en OSWorld (dominio en el manejo de Sistemas Operativos estándar) frente al 22% del mejor competidor y 58,1% en WebArena (manejo de sitios de comercio electrónico) frente al 36,2% de los competidores.

Dicho esto, el equipo enfatizó que Operator sigue siendo una vista previa de investigación, por lo que se esperan errores y fallos.
Un posible punto de conflicto podría hacer que los usuarios preocupados por la seguridad se detengan: necesitas confiar a Operator tus credenciales de inicio de sesión.
El navegador en la nube requiere acceso a tus cuentas para realizar cualquier tarea, y dado que no es compatible con navegadores locales, iniciar sesión con un navegador web remoto confiando en la promesa de OpenAI de no almacenar datos sensibles puede parecer una señal de advertencia.
Which Platform Builds the Best AI Agents? We Test ChatGPT, Claude, Gemini and More
You can do anything with AI agents: search for information in your library of documents, build code, scrape the web, get insight and trenchant analysis of complex data, and much more. You can even create a virtual office with a bunch of agents specialized in different tasks and have them work hand-in-hand like your own staff of specialized digital employees. So how hard is this to do? If a regular person wanted to build their own AI financial advisor, for instance, which platform would serve the...
La función está programada para un lanzamiento más amplio muy pronto, con los suscriptores Plus siendo los siguientes en la lista. Los desarrolladores tampoco se quedarán fuera: OpenAI planea lanzar Operator a través de su API en las próximas semanas, creando potencialmente una nueva generación de herramientas de automatización impulsadas por IA.
OpenAI dice que vendrán nuevas instancias más allá del control de navegación web en la nube. El equipo dijo durante su demostración que también están trabajando en expandir la lista de agentes de IA más allá del asistente de propósito general actual.
Editado por Sebastian Sinclair y Josh Quittner