En Resumen

  • Anthropic lanzó los modelos Claude 4, reemplazando a Opus y Sonnet con versiones más potentes.
  • Claude Opus 4 superó a GPT-4.1 y Gemini 2.5 en múltiples benchmarks de codificación y razonamiento.
  • Claude Sonnet 4 fue adoptado por GitHub Copilot, mostrando mejoras en precisión y uso de herramientas.

Anthropic finalmente lanzó su esperada familia de modelos de inteligencia artificial Claude 4 el jueves, que había sido detenida durante meses. La empresa con sede en San Francisco, un actor importante en la industria de IA ferozmente competitiva y valorada en más de $61.000 millones, afirmó que sus nuevos modelos alcanzaron los mejores benchmarks para rendimiento de codificación y ejecución autónoma de tareas.

Los modelos lanzados hoy reemplazan los dos más poderosos de los tres modelos en la familia Claude: Opus, un modelo de vanguardia que sobresale en comprender tareas exigentes, y Sonnet, un modelo de tamaño mediano bueno para tareas cotidianas. Haiku, el modelo más pequeño y eficiente de Claude, no fue modificado y permanece en la versión 3.5.

Claude Opus 4 logró un puntaje del 72,5% en SWE-bench Verified, superando significativamente a los competidores en el benchmark de codificación. GPT-4.1 de OpenAI alcanzó solo el 54,6% en la misma prueba, mientras que Gemini 2.5 Pro de Google llegó al 63,2%. La brecha de rendimiento se extendió a tareas de razonamiento, donde Opus 4 obtuvo 74,9% en GPQA Diamond (básicamente un benchmark de conocimiento general) comparado con el 66,3% de GPT-4.1.

El modelo también superó a su competencia en otros benchmarks que miden competencia en tareas agénticas, matemáticas y consultas multilingües.

Anthropic tuvo en mente a los desarrolladores al pulir Opus 4, prestando especial atención a sesiones de trabajo autónomo sostenidas.

El equipo de IA de Rakuten reportó que el modelo programó independientemente durante casi siete horas en un proyecto complejo de código abierto, representando lo que su Gerente General, Yusuke Kaji, definió como "un salto enorme en las capacidades de IA que dejó al equipo asombrado", según declaraciones que Anthropic compartió con Decrypt. Esta resistencia supera ampliamente los límites típicos de duración de tareas de modelos de IA anteriores.

Ambos modelos de Claude 4 operan como sistemas híbridos, ofreciendo respuestas instantáneas o modos de pensamiento extendido para razonamiento complejo, un concepto cercano a lo que OpenAI planea hacer con GPT-5m cuando fusiona las familias "o" y "GPT" en un modelo.

Opus 4 soporta hasta 128.000 tokens de salida para análisis extendido e integra el uso de herramientas durante las fases de pensamiento, permitiéndole pausar el razonamiento para buscar en la web o acceder a bases de datos antes de continuar. La ventana de contexto completa que estos modelos manejan se acerca a 1 millón de tokens.

Anthropic estableció el precio de Claude Opus 4 en $15 por millón de tokens de entrada y $75 por millón de tokens de salida. Claude Sonnet 4 cuesta $3 por millón de tokens de entrada y $15 por millón de tokens de salida. La empresa ofrece hasta 90% de ahorro en costos a través del almacenamiento en caché de prompts y reducciones del 50% mediante procesamiento por lotes, aunque las tarifas base permanecen sustancialmente más altas que algunos competidores.

Aún así, este es un nivel de precio masivo cuando se compara con opciones de código abierto como DeepSeek R1, que cuesta menos de $3 por millón de tokens de salida. La versión Claude 4 Haiku—que debería ser mucho más barata—aún no ha sido anunciada.

El año de la IA—otra vez

El lanzamiento de Anthropic coincidió con la disponibilidad general de Claude Code, una herramienta agéntica de línea de comandos que permite a los desarrolladores delegar tareas de ingeniería sustanciales directamente desde interfaces de terminal. La herramienta puede buscar repositorios de código, editar archivos, escribir pruebas y confirmar cambios en GitHub mientras mantiene la supervisión del desarrollador durante todo el proceso.

GitHub anunció que Claude Sonnet 4 se convertiría en el modelo base para su nuevo agente de codificación en GitHub Copilot. El CEO Thomas Dohmke reportó hasta 10% de mejora sobre versiones anteriores de Sonnet en evaluaciones internas tempranas, impulsado por lo que llamó "uso adaptativo de herramientas, seguimiento preciso de instrucciones e instintos fuertes de codificación".

Esto pone a Anthropic en competencia directa con lanzamientos recientemente anunciados por OpenAI y Google. La semana pasada, OpenAI presentó Codex, un agente de ingeniería de software basado en la nube, y esta semana Google previsualizó Jules y su nueva familia de modelos Gemini, que también fueron diseñados con sesiones extensas de codificación en mente.

Varios clientes empresariales proporcionaron validación específica de casos de uso. El CEO de Triple Whale, AJ Orbach, dijo que Opus 4 "sobresale para casos de uso de texto a SQL—superando benchmarks internos como el mejor modelo que hemos probado". Baris Gultekin, Jefe de IA de Snowflake, destacó las "instrucciones de herramientas personalizadas y razonamiento avanzado multi-salto" del modelo para aplicaciones de análisis de datos.

El rendimiento financiero de Anthropic respaldó el posicionamiento premium. La empresa reportó $2.000 millones en ingresos anualizados durante el Q1 2025, más del doble respecto a períodos anteriores. Los clientes que gastan más de $100.000 anualmente aumentaron ocho veces, mientras que la empresa aseguró una línea de crédito de $2.500 millones a cinco años para financiar el desarrollo continuo.

Como es usual con cualquier lanzamiento de Anthropic, estos modelos mantienen el enfoque centrado en la seguridad de la empresa, con pruebas extensas por expertos externos incluyendo la organización de seguridad infantil Thorn. La empresa continúa su política de no entrenar con datos de usuarios sin permiso explícito, diferenciándose de algunos competidores en industrias reguladas.

Ambos modelos presentan ventanas de contexto de 200.000 tokens y capacidades multimodales para procesar texto, imágenes y código. Están disponibles a través de la interfaz web de Claude, la API de Anthropic, Amazon Bedrock y la plataforma Vertex AI de Google Cloud. El lanzamiento incluye nuevas capacidades de API como herramientas de ejecución de código, conectores MCP y Files API para integración mejorada del desarrollador.

Editado por Andrew Hayward

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.