En Resumen

  • Los usuarios de Reddit notaron que Claude se había vuelto más preciso y capaz, gracias a mejoras significativas en los modelos de IA de Anthropic.
  • Anthropic lanzó una versión mejorada de Claude 3.5 Sonnet y una actualización del modelo Haiku ligero, permitiendo a la IA controlar computadoras físicamente.
  • La nueva función de "computer use" de Claude permite a la IA mover cursores, desplazarse por páginas y hacer clic en botones, aunque está en beta y solo disponible a través de la API.

Los usuarios de Reddit lo comentaron primero—Claude de repente se había vuelto más precisomás capaz. Ahora sabemos por qué: Anthropic ha implementado mejoras significativas en sus modelos de IA, incluida una versión mejorada de Claude 3.5 Sonnet y una actualización muy necesaria de su modelo Haiku ligero.

La actualización más inquietante de todas: Estas IA ahora pueden controlar físicamente las computadoras, moviendo cursores, desplazándose por páginas e incluso haciendo clic en botones como lo hacen los humanos.

En una demostración en video, Sam Ringer, un investigador de Anthropic, mostró cómo Claude era capaz de completar un formulario en un sitio web externo desplazándose por una hoja de cálculo, buscando la información de una empresa después de analizar su CRM y luego comprendiendo—y completando—los campos de un formulario.

“Disponible hoy en la API, los desarrolladores pueden dirigir a Claude para usar las computadoras de la misma manera que lo hacen las personas: mirando una pantalla, moviendo un cursor, haciendo clic en botones y escribiendo texto. Claude 3.5 Sonnet es el primer modelo de IA de frontera que ofrece el uso de computadoras”, dijo Anthropic en un anuncio oficial en la mañana de hoy. “Estamos lanzando el uso temprano de computadoras para recibir comentarios de los desarrolladores, y esperamos que la capacidad mejore rápidamente con el tiempo.”

Anthropic parece haber lanzado el modelo antes de hacer el anuncio. Durante horas, los subreddits de Claude y Anthropic se inundaron de personas tratando de entender qué demonios estaba pasando porque su IA estaba haciendo un trabajo tan bueno: los usuarios informaron que era más rápido, más preciso y sorprendentemente dejó de disculparse tanto.

“Claude está de vuelta, mucho mejor. Simplemente te atrapa, responde como si realmente entendiera la intención en lugar de una respuesta muerta y sin vida,” dijo el usuario NextGenAIUser en una publicación de Reddit. “Estuve atascado durante horas en un problema de codificación usando o1-Mini y o1-Preview, obteniendo respuestas cada vez peores. Presenté el problema a Claude con el mismo prompt exacto y lo resolvió sin problemas,” dijo Roth_Skyfire en otro comentario.

Y tenían razón. Anthropic informó que después de la mejora, las habilidades de codificación de Claude 3.5 Sonnet aumentaron del 33,4% al 49% en la prueba verificada SWE-bench, superando a competidores como o1-preview de OpenAI. Eso no es solo un pequeño aumento. Cada referencia única reportada por Anthropic muestra que el nuevo Claude 3.5 Sonnet es mucho mejor que el modelo original.

Imagen: Anthropic

Pero aquí es donde las cosas se ponen realmente interesantes. El Sonnet actualizado no solo es más inteligente; ahora es capaz de controlar tu PC. Anthropic llama a esta nueva función "computer use" y actualmente está en beta pública. La forma en que funciona es que le das acceso a Claude a tu escritorio y una tarea para ejecutar. La IA comenzará a actuar como si fuera un humano usando tu computadora a través de un escritorio remoto: moviendo el cursor, haciendo clic en botones y escribiendo comandos y completando formularios y campos de texto como lo haría un humano.

Sin embargo, esta función solo está disponible a través de la API, por lo que no es algo que los usuarios finales podrán disfrutar a corto plazo.

Anthropic ha entrenado a Claude para interpretar visualmente lo que está sucediendo en tu pantalla. Los desarrolladores pueden instruirlo para realizar tareas como completar formularios, navegar por sitios web o incluso utilizar aplicaciones de software. Es un poco como darle a tu IA la capacidad de sentarse frente a tu computadora y hacer tu trabajo por ti, excepto que no se cansa y (con suerte) no comete tantos errores como solemos cometer los humanos.

La función está en beta porque aún tiene dificultades con algunas cosas básicas: desplazarse y hacer zoom le resultan complicados. Por eso, Anthropic está vigilando de cerca las cosas, almacenando capturas de pantalla durante al menos 30 días y realizando controles de seguridad para detectar cualquier comportamiento cuestionable.

La paranoia de la empresa está bien fundamentada. Hace unos meses, Microsoft introdujo una función llamada “Recall” que permitiría a Copilot+ tomar capturas de pantalla de las computadoras de sus usuarios para que su IA pudiera ser más útil y relevante. Generó tanto ruido que Microsoft tuvo que retrasar sus planes después de que su función de Recuerdo de Copilot+ fuera considerada como 'spyware'—y las autoridades comenzaron a investigarlo.

Pero Anthropic está formado por personas amables, y prometen ser diferentes. “Descubrimos que el Claude 3.5 Sonnet actualizado, incluida su nueva habilidad de uso de computadora, se mantiene en el Nivel 2 de Seguridad de IA—es decir, no requiere un estándar más alto de medidas de seguridad que las que tenemos actualmente en su lugar,” dice el equipo de investigación.

Empresas como Replit ya están integrando la función de uso de la computadora de Claude para ayudar a automatizar las evaluaciones de aplicaciones, mientras que The Browser Company está probando su capacidad para optimizar los flujos de trabajo basados en la web. Estos primeros adoptantes están explorando formas de hacer que Claude maneje tareas que normalmente requerirían docenas, si no cientos, de pasos manuales.

Además, el modelo económico de Anthropic, Claude 3.5 Haiku, ahora es tan potente como su modelo insignia anterior, Claude 3 Opus. Sin embargo, este modelo funciona a una fracción del costo y con una latencia mucho menor, lo que lo hace más accesible sin sacrificar demasiado rendimiento.

Claude 3.5 Haiku es particularmente bueno en tareas de codificación y uso de herramientas, con una puntuación verificada de SWE-bench del 40,6%. Esto lo coloca por delante de algunos de los modelos más caros en el mercado, lo que significa que los desarrolladores con un presupuesto limitado no tendrán que comprometer la calidad.

Claude 3.5 Haiku estará disponible en noviembre.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.