7 min lectura
Seis semanas. Eso fue lo que tardó Anthropic en pasar de Opus 4.7 a Opus 4.8.
El nuevo modelo es más rápido e inteligente en las pruebas de referencia, y llega con una serie de nuevas funciones, aunque el precio no cambió: sigue siendo $5 por millón de tokens de entrada y $25 por millón de tokens de salida.
También hay un modo rápido que ejecuta el mismo modelo a 2,5 veces la velocidad por $10 de entrada y $50 de salida por millón. Anthropic señala que esa tarifa es ahora tres veces más barata que lo que costaba el modo rápido en modelos anteriores, lo cual es una forma elegante de decir que antes era mucho más caro.
SWE-bench Pro es probablemente el benchmark más importante para medir qué tan bueno es este modelo. Evalúa si una IA puede resolver problemas difíciles de ingeniería de software en múltiples lenguajes, extraídos de bases de código de producción reales, con una puntuación expresada como porcentaje de problemas resueltos.
En esa prueba, Opus 4.8 alcanzó el 69,2%, frente al 64,3% de Opus 4.7. GPT-5.5 de OpenAI obtuvo un 58,6%, y el Gemini 3.1 Pro de Google quedó rezagado con un 54,2%. Para un modelo al mismo precio, eso representa un avance significativo.
En Humanity's Last Exam —preguntas de nivel experto en decenas de disciplinas académicas, medidas como porcentaje de respuestas correctas— Opus 4.8 alcanzó el 49,8% sin herramientas y el 57,9% con ellas, superando a los tres rivales. En OSWorld-Verified, que evalúa tareas de uso real del ordenador como navegar por interfaces de software, obtuvo un 83,4%, superando levemente el 82,8% de Opus 4.7.
La única derrota fue en Terminal-Bench 2.1, que mide el rendimiento de la IA en tareas de línea de comandos. GPT-5.5 lidera con un 78,2%, mientras que Opus 4.8 obtuvo un 74,6%, mejor que el 66,1% de Opus 4.7 y por delante del 70,3% de Gemini, aunque el segundo puesto sigue siendo, en definitiva, una derrota.
Anthropic ahora permite a los usuarios controlar con qué intensidad razona el modelo. "Alta" es la configuración predeterminada y gestiona bien la mayoría de las tareas, mientras que "Extra" —denominada "xhigh" dentro de Claude Code— dedica más cómputo a problemas más difíciles. "Máx" es el nivel más profundo. "Baja" y "Media" destinan menos tokens a la misma tarea, ahorrando tiempo a cambio de precisión.
El control de esfuerzo aparece junto al selector de modelos en claude.ai y Cowork, disponible en todos los planes. Anthropic afirma que el nivel alto predeterminado utiliza aproximadamente los mismos tokens que el predeterminado de Opus 4.7, pero con mejores resultados, lo que es tanto un logro de ingeniería como un buen mensaje, y probablemente ambas cosas a la vez.
También es importante recordar que el nuevo tokenizador de Anthropic para Opus consume más tokens por tarea. Por lo tanto, los usuarios de Claude inevitablemente terminarán gastando bastante más dinero para completar tareas si optan por Opus en lugar de Claude Sonnet, un modelo menos capaz, pero probablemente suficiente para tareas cotidianas y problemas complejos que no llegan al nivel de la ciencia o la programación de frontera.
Los límites de uso en Claude Code también se aumentaron para absorber el mayor consumo de tokens que generan las configuraciones Extra y Máx.
El equipo de alineación de Anthropic indicó que Opus 4.8 "alcanza nuevos máximos en nuestras métricas de rasgos prosociales, como apoyar la autonomía del usuario y actuar en su mejor interés". De forma más concreta: las tasas de engaño y de cooperación con usos indebidos resultaron significativamente más bajas que en Opus 4.7, y comparables a las de Claude Mythos Preview, el modelo más restringido de Anthropic.
Además, Opus 4.8 tiene cuatro veces menos probabilidades que la versión 4.7 de dejar pasar errores en su propio código sin señalarlos.
La comparación con Mythos merece contexto. Mythos está un nivel por encima de Opus en su totalidad: Anthropic lo describe como "más grande e inteligente que nuestros modelos Opus". Actualmente existe solo como vista previa, accesible a un puñado de organizaciones verificadas que realizan trabajo de ciberseguridad a través de Project Glasswing.
El Instituto de Seguridad de IA del Reino Unido descubrió que podía completar de forma autónoma "The Last Ones", una simulación de ataque a una red corporativa de 32 pasos que normalmente le lleva a los equipos humanos de red team unas 20 horas. Por eso aún no está a la venta. Anthropic afirma que trabaja en salvaguardas de ciberseguridad más robustas, y espera llevar los modelos de clase Mythos a todos "en las próximas semanas".
También se lanza hoy: flujos de trabajo dinámicos en Claude Code, en vista previa de investigación. La función permite a Claude escribir sus propios scripts de orquestación y lanzar subagentes en paralelo dentro de una misma sesión, verificar sus resultados y reportar de vuelta, algo similar a lo que Hermes ya venía haciendo desde hace tiempo.
Los flujos de trabajo dinámicos están disponibles para usuarios de los planes Enterprise, Team y Max, y Anthropic advierte de forma transparente que consumen significativamente más tokens que una sesión estándar de Claude Code.
Los precios de $5/$25 de Anthropic lucen muy distintos comparados con lo que China ha estado haciendo últimamente.
DeepSeek V4 Pro hizo permanente su descuento del 75% la semana pasada: $0,435 por millón de tokens de entrada y $0,87 por millón de tokens de salida. Xiaomi MiMo V2.5 Pro opera a las mismas tarifas a través de proveedores como OpenRouter.
El modo rápido de Anthropic cuesta $10 de entrada y $50 de salida por millón, más caro que el propio Opus 4.8 estándar, y aproximadamente 57 veces más por token de salida que DeepSeek V4 Pro. Las empresas ya han gastado millones de dólares en inferencia en modelos estadounidenses. Si se usan con intensidad, Opus puede llevarte a millones de dólares con bastante rapidez.
La respuesta de Anthropic a la brecha de precios es calidad y seguridad. En SWE-bench Pro, Opus 4.8 supera a los dos modelos chinos. En alineación, ninguno se acerca a los benchmarks publicados por Anthropic.
Eso importa en entornos de producción donde un modelo que coopera silenciosamente con entradas maliciosas representa un riesgo real: industrias reguladas, trabajo legal y cualquier ámbito donde "parecía estar bien" no es un informe post-incidente aceptable. Para todos los demás, la brecha es difícil de ignorar.
Realizamos una prueba rápida de programación para crear un juego 3D de zombis y ver cómo se compara Claude Opus 4.8 con ChatGPT y DeepSeek, sus competidores más populares de Estados Unidos y China. Configuramos Opus 4.8 en alto predeterminado, GPT-5.5 en esfuerzo alto y DeepSeek V4 Pro en esfuerzo alto: tres modelos, un prompt, sin reintentos.
GPT-5.5 terminó primero. Su juego no tenía visuales de zombis ni efectos de sonido. Fue rápido, sí, pero no cumplió con lo solicitado.
DeepSeek V4 Pro llegó segundo con movimiento del ratón, personajes zombis reales, efectos de sonido, mecánicas sólidas y una estética limpia. Sin quejas.
Opus 4.8 tardó aproximadamente tres veces más que GPT-5.5, pero entregó la mejor pantalla de inicio, los mejores diseños de zombis, las mejores mecánicas de juego y efectos de sonido decentes. Fue el más lento, pero el de mejor resultado. Aun así, probablemente eso no es suficiente para justificar usarlo por encima de DeepSeek, dada la diferencia de costos.
Todos los juegos están disponibles en nuestro perfil de Itch.io. GPT-5.5 generó Zombie Typing, Opus generó Typing Dead y DeepSeek V4 Pro generó un juego sin nombre que te lleva directamente a la acción. Lo llamaremos TypeSeek.
Una reseña comparativa completa está en camino. Por ahora: Claude Opus 4.8 programa mejor que GPT-5.5 y Opus 4.7 para este tipo de tarea, al mismo precio que Anthropic ha cobrado desde la versión 4.7. Los desarrolladores que ya pagaban $5 por millón de tokens acaban de obtener un mejor modelo sin costo adicional.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.