En Resumen

  • Microsoft Research lanzó Fara1.5, familia de modelos open source que en benchmarks superó a OpenAI Operator con 72% frente a 58,3%.
  • El modelo fue entrenado usando GPT-5.4 de OpenAI como agente docente, generando datos para entrenar a su propio competidor.
  • Fara1.5-9B ya está disponible en Azure AI Foundry, con versiones de 4.000 y 27.000 millones de parámetros llegando próximamente.

Imagina decirle a tu computadora que busque alquileres vacacionales, compare cinco sitios, rellene el formulario de reserva y confirme el más cercano a la playa. Tú vas a preparar un café. Cuando regresas, ya está listo. Esa es la promesa de los "agentes de uso del computador": una IA que lee la pantalla de tu navegador y hace clics, desplazamientos y escritura exactamente como lo haría un humano, sin necesidad de plugins especiales.

OpenAI intentó esto primero con Operator, lanzado en enero de 2025 a $200 al mes, antes de ser integrado en ChatGPT Agent y discontinuado en agosto. Google tiene Gemini 2.5 Computer Use. Ambos son propietarios, basados en la nube y costosos de ejecutar.

Esta semana, Microsoft Research lanzó un modelo compacto llamado Fara1.5 —y en los benchmarks que importan, supera a ambos.

La familia viene en tres tamaños: 4 mil millones, 9 mil millones y 27 mil millones de parámetros, todos construidos sobre Qwen3.5, un modelo base de Alibaba que Microsoft ajustó para el trabajo en navegadores, con todos los pesos publicados de forma abierta. (Los parámetros determinan la amplitud del conocimiento de un modelo de IA; a mayor cantidad, mayor capacidad.)

Lograrlo requirió replantear todo el proceso de desarrollo desde cero. "Comenzamos con una pregunta simple: ¿qué se necesita para que un modelo pequeño sea genuinamente bueno en tareas agénticas?", escribió el equipo de AI Frontiers en su blog. "La respuesta abarcó todo el ciclo de vida: la generación de datos, los objetivos de entrenamiento, el diseño del modelo y la orquestación tuvieron que rediseñarse juntos, no de forma aislada".

Los benchmarks

Online-Mind2Web es el benchmark que importa en la tarea que Microsoft quería destacar. Evalúa con qué frecuencia un agente de IA completa correctamente 300 tareas diversas del mundo real en 136 sitios web populares en funcionamiento —como comparar productos, rellenar formularios y reservar servicios— con una puntuación expresada como porcentaje de tareas completadas correctamente en internet real y en constante cambio.

Fara1.5-27B obtuvo un 72%. OpenAI Operator, un 58,3%. Gemini 2.5 Computer Use de Google, un 57,3%. Navigator n1 de Yutori, la principal alternativa propietaria, alcanzó el 64,7%. Incluso Fara1.5-9B, el modelo de tamaño medio, llegó al 63,4%, por encima tanto de OpenAI como de Google.

Los rivales de código abierto también quedaron rezagados. GUI-Owl-1.5 de Alibaba, con 8 mil millones de parámetros, obtuvo un 48,6%. MolmoWeb de AI2 alcanzó el 35,3%. El modelo anterior de Microsoft, Fara-7B, logró un 34,1%, lo que hace que esta nueva versión casi duplique su rendimiento en un tamaño comparable.

En WebVoyager, un segundo benchmark que mide el éxito de las tareas en la web en vivo de la misma manera, Fara1.5-27B obtuvo un 88,6%, superando el 87,0% de OpenAI Operator y el 83,0% del Holo2 de H Company, con 30 mil millones de parámetros.

Cómo aprendió

El ingrediente secreto es el pipeline de entrenamiento. Microsoft utilizó un sistema llamado FaraGen1.5 para generar los datos de entrenamiento. El detalle clave: usaron GPT-5.4 —el modelo de OpenAI— como "agente docente" para demostrar cómo completar tareas en el navegador. Esas demostraciones se convierten en los datos de entrenamiento para Fara1.5. En esencia, se está usando el modelo más capaz de OpenAI para entrenar a un rival de código abierto.

También crearon seis réplicas falsas pero completamente funcionales de sitios web reales —clientes de correo electrónico, calendarios, marketplaces— para que el modelo pudiera practicar tareas que requieren inicios de sesión o acciones irreversibles (como enviar un correo o reservar un vuelo) sin tocar cuentas reales. A esto se le llama entrenamiento en dominio sintético, y es una parte importante de por qué Fara1.5 maneja mejor las tareas con acceso restringido que sus predecesores.

Cada modelo está diseñado para detenerse y consultar antes de realizar algo que no pueda deshacerse. "Equilibrar salvaguardas robustas, como los Puntos Críticos, con experiencias de usuario fluidas es fundamental", señaló Yash Lara, Senior PM Lead en Microsoft Research, en declaraciones a VentureBeat. "Contar con una interfaz de usuario, como Magentic-UI de Microsoft Research, es vital para dar a los usuarios la oportunidad de intervenir cuando sea necesario, al tiempo que se evita la fatiga de aprobaciones".

Esto importa porque OpenAI no fue sutil sobre los riesgos cuando lanzó ChatGPT Agent. "Cuando vinculas cuentas a ChatGPT Agent o activas conectores, podrá acceder a datos sensibles de esas fuentes, como correos electrónicos, archivos o información de cuentas", escribió la compañía.

Fara1.5 ejecuta todo a través de MagenticLite, un entorno de navegador en sandbox que registra cada acción y permite a los usuarios detener el agente en cualquier momento.

La IA para navegadores se ha convertido en una carrera muy disputada —Gemini de Google en Chrome, Comet de Perplexity, Claude de Anthropic para Chrome. La ventaja de Fara1.5 es que es abierto: pesos públicos, código de inferencia abierto en GitHub y funciona en el hardware que el usuario controla. Fara1.5-9B ya está disponible en Azure AI Foundry; las variantes de 4 mil millones y 27 mil millones de parámetros llegarán próximamente. Microsoft afirma que planea expandir Fara1.5 más allá del navegador hacia software de escritorio y empresarial.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.