En Resumen
- OpenAI lanzó Operator para permitir a ChatGPT controlar un navegador virtual y realizar tareas del mundo real.
- La función estuvo disponible solo para suscriptores Pro en EE.UU. por $200/mes.
- Operator superó a otros modelos en pruebas de navegación web y sistemas operativos estándar.
OpenAI presentó recientemente una nueva función, denominada Operator, que permite a ChatGPT tomar el control de un navegador virtual para realizar tareas del mundo real como pedir comida o reservar vuelos. Pero hasta ahora, está dirigido a personas con alto poder adquisitivo.
La herramienta, actualmente disponible solo para suscriptores Pro ($200/mes) en EE.UU., marca la primera incursión de la empresa en la navegación web autónoma. Destaca el surgimiento de un sistema financiero estratificado, donde quienes pagan más obtienen acceso a las mejores funciones de IA. Al mismo tiempo, los usuarios que pagan menos están limitados a modelos menos capaces con funcionalidad restringida, lo que podría considerarse poco democrático.
El sistema funciona a través de operator.chatgpt.com, donde los usuarios pueden pedirle a ChatGPT que gestione diversas tareas en línea.
Ha habido algunos intentos de hacer cosas similares en el pasado, desde la tienda de plugins de OpenAI hasta la promesa de los Large Action Models popularizada por Rabbit. Sin embargo, su dependencia de las APIs las hacía inconvenientes y difíciles de configurar.
Lo que hace que esto sea diferente es cómo funciona. En lugar de depender de APIs como sus predecesores, Operator controla un navegador basado en la nube, haciendo clic en botones y completando formularios como lo haría un humano.
Cada vez que Operator hace un movimiento, toma una captura de pantalla para mostrarte lo que está haciendo.
Por ejemplo, si necesitas reservar una entrada para un partido, la IA abrirá su propio navegador, irá a un sitio específico, buscará el partido en cuestión y encontrará las mejores opciones antes de pedirte que confirmes el pago.
También te guiará a través de su proceso de toma de decisiones con pruebas visuales. Si las cosas se complican, hay un botón "Tomar el Control" que permite a los humanos tomar el mando.
Para tener éxito donde otros fallaron, OpenAI tuvo que construir su propio modelo de IA para comprender visualmente la información mostrada por un navegador web y controlar acciones con entradas de teclado y ratón. El nuevo modelo, impulsado por GPT-4o, se llamó Computer User Agent (CUA).
Esto no se trata solo de seguir scripts. La IA puede leer y comprender diseños de sitios web, adaptarse a diferentes diseños e incluso manejar ventanas emergentes inesperadas o mensajes de error.
El sistema muestra algunos trucos impresionantes. Dale una foto de tu lista de compras desordenada escrita a mano, y no solo usará GPT-Vision para leerla, sino que realmente pedirá todo desde tu tienda de comestibles preferida.
OpenAI se ha asociado con varias empresas para garantizar operaciones fluidas en sus plataformas.
Al reservar un viaje o pedir comida, la IA puede navegar por servicios como Uber y DoorDash sin problemas, ya que está preconfigurada para comprender sus interfaces.
Sin embargo, para sitios web no compatibles, el sistema aún intenta completar tareas usando sus capacidades de control del navegador. Aquí es donde Operator supera a otras alternativas.
Como es habitual, OpenAI compartió algunos puntos de referencia: Supera a otros modelos de última generación, obteniendo 38,1% en OSWorld (dominio en el manejo de Sistemas Operativos estándar) frente al 22% del mejor competidor y 58,1% en WebArena (manejo de sitios de comercio electrónico) frente al 36,2% de los competidores.
Dicho esto, el equipo enfatizó que Operator sigue siendo una vista previa de investigación, por lo que se esperan errores y fallos.
Un posible punto de conflicto podría hacer que los usuarios preocupados por la seguridad se detengan: necesitas confiar a Operator tus credenciales de inicio de sesión.
El navegador en la nube requiere acceso a tus cuentas para realizar cualquier tarea, y dado que no es compatible con navegadores locales, iniciar sesión con un navegador web remoto confiando en la promesa de OpenAI de no almacenar datos sensibles puede parecer una señal de advertencia.
La función está programada para un lanzamiento más amplio muy pronto, con los suscriptores Plus siendo los siguientes en la lista. Los desarrolladores tampoco se quedarán fuera: OpenAI planea lanzar Operator a través de su API en las próximas semanas, creando potencialmente una nueva generación de herramientas de automatización impulsadas por IA.
OpenAI dice que vendrán nuevas instancias más allá del control de navegación web en la nube. El equipo dijo durante su demostración que también están trabajando en expandir la lista de agentes de IA más allá del asistente de propósito general actual.
Editado por Sebastian Sinclair y Josh Quittner