Claude Opus 4.7 Está Aquí: el Último Modelo de Anthropic Cumple lo Prometido, Pero es Un Devorador de Tokens

El nuevo modelo insignia de Anthropic superó todos los benchmarks que le pusimos a prueba, consume tokens como un adolescente hambriento y mostró su razonamiento en voz alta.

Por Jose Antonio Lanz

7 min lectura

Anthropic lanzó hoy Claude Opus 4.7, describiendo el modelo como el más capaz de la línea Opus hasta la fecha. Lo probamos, y el mensaje de marketing coincide con los resultados.

"Nuestro último modelo, Claude Opus 4.7, ya está disponible de forma general", señaló la compañía en su anuncio oficial. "Los usuarios reportan poder delegar su trabajo de programación más complejo —el tipo que antes requería supervisión cercana— a Opus 4.7 con total confianza".

El modelo llega tras semanas de quejas de usuarios que aseguraban que Opus 4.6 había perdido su ventaja. Desarrolladores en GitHub, Reddit y X documentaron lo que llamaron "AI shrinkflation": la sensación de que el modelo por el que pagaban había empeorado en silencio. Como reportamos ayer, Anthropic ya preparaba la versión 4.7 mientras trabajaba en algo mucho más poderoso que aún no puede lanzar públicamente: Claude Mythos.

Cuando el anuncio se publicó esta mañana, los usuarios de X que habían sido más críticos con la degradación de la versión 4.6 respondieron rápidamente con sarcasmo: Opus 4.7, bromearon algunos, se sentía como "el Opus 4.6 de antes", la versión que la gente realmente apreciaba, antes de que creyeran que Anthropic había ajustado los parámetros en silencio. Anthropic, por supuesto, ha negado haber degradado los pesos del modelo para gestionar la demanda de cómputo.

Los benchmarks respaldan las afirmaciones de Anthropic. En SWE-bench Multilingual, una prueba que mide habilidades de programación, Opus 4.7 obtuvo un 80,5% frente al 77,8% de la versión 4.6.

En GDPVal-AA, una evaluación de terceros sobre trabajo de conocimiento con valor económico en los sectores financiero y legal, la versión 4.7 alcanzó 1.753 Elo frente a los 1.674 de GPT-5.4, un margen claro sobre su competidor más cercano.

El razonamiento de documentos en OfficeQA Pro mostró el salto más pronunciado: 80,6% para la versión 4.7 frente al 57,1% de la 4.6, mientras que GPT-5.4 y Gemini 3.1 Pro quedaron rezagados con 51,1% y 42,9%, respectivamente. La coherencia a largo plazo en Vending-Bench 2, una prueba que mide el desempeño de los modelos en tareas de contexto extenso y razonamiento —como gestionar un negocio de máquinas expendedoras— arrojó un saldo de $10.937 frente a los $8.018 de la versión 4.6, lo que sirve como indicador de qué tan bien el modelo mantiene un comportamiento útil durante ejecuciones autónomas prolongadas.

La ciberseguridad es el único ámbito donde Anthropic optó deliberadamente por contenerse. Opus 4.7 se lanza con salvaguardas automáticas que detectan y bloquean solicitudes prohibidas o de alto riesgo en materia de ciberseguridad. Anthropic confirmó que "experimentó con medidas para reducir diferencialmente" las capacidades cibernéticas de la versión 4.7 durante el entrenamiento.

Los profesionales de seguridad pueden solicitar acceso a esas funciones a través del nuevo Programa de Verificación Cibernética. Esta es la prueba piloto de la compañía para las salvaguardas que eventualmente deberá implementar con modelos de la clase Mythos a gran escala.

Opus 4.7 es el modelo más potente disponible públicamente. Mythos Preview, el verdadero modelo de frontera de Anthropic, sigue restringido a empresas de seguridad verificadas. Como evaluó el Instituto de Seguridad de IA del Reino Unido la semana pasada, Mythos fue el primer sistema de IA en completar "The Last Ones", una simulación de ataque a redes corporativas de 32 pasos que normalmente lleva 20 horas a equipos humanos de red team.

Opus 4.7 no es eso. Pero es el modelo de cara al público que Anthropic utilizará para evaluar cómo se sostienen esas salvaguardas de seguridad en condiciones reales, antes de atreverse a lanzar algo más avanzado.

En cuanto a los tokens, Opus 4.7 incorpora un tokenizador actualizado que puede mapear el mismo input a aproximadamente 1,0x–1,35x más tokens según el tipo de contenido. El modelo también razona más en niveles de esfuerzo elevados, especialmente en turnos posteriores de flujos de trabajo agénticos. Anthropic publicó una guía de migración para desarrolladores que planeen actualizar desde la versión 4.6.

Realizamos nuestra propia prueba: el mismo prompt de construcción de juego que hemos utilizado para evaluar cada lanzamiento importante de modelo. Opus 4.7 produjo el mejor resultado que hemos obtenido de cualquier modelo. El juego visualmente más pulido, la curva de dificultad más genuinamente desafiante, las mejores mecánicas y las pantallas de victoria y derrota más creativas. El modelo pareció generar niveles de forma procedimental, y ninguno se sintió imposible, un equilibrio que ha fallado en otros modelos repetidamente.

Puedes probar el juego aquí

Emerge: The Game, creado por Claude Opus 4.7

No fue zero-shot. Opus 4.6 había superado esa misma prueba sin correcciones. Opus 4.7 necesitó una ronda de corrección de errores. Podría ser mala suerte —una sola iteración es una muestra muy pequeña—, pero vale la pena destacarlo. Lo que más nos llamó la atención fue cómo el modelo manejó esa ronda: detectó errores adicionales por su cuenta, sin ser orientado hacia ellos. Opus 4.6 normalmente esperaba que le indicaran dónde buscar.

Xiaomi MiMo v2 Pro era el modelo con los mejores resultados hasta ahora, pero a diferencia de Opus, produjo un resultado funcional sin necesidad de más de una iteración. Algunos podrían argumentar que era visualmente más atractivo y contaba con una banda sonora, lo cual representaba una ventaja, pero la lógica y la física del juego quedaron por debajo de Opus tras una sola ronda de correcciones.

Emerge: The Game, creado por Xiaomi MiMo v2 Pro

Además, el modelo de Xiaomi produce estos resultados a una fracción del costo que cobra Anthropic, lo que podría ser un factor decisivo para proyectos serios.

El comportamiento de la cadena de pensamiento también fue diferente a primera vista. A diferencia de la versión 4.6, que ocultaba su razonamiento en un recuadro separado (es decir, no formaba parte de la respuesta final), Opus 4.7 mostró su cadena de pensamiento como parte del texto principal. El razonamiento era visible y rastreable, no oculto detrás de una abstracción de la interfaz, lo cual es positivo para quienes valoran la transparencia. Si Anthropic mantendrá ese comportamiento o eventualmente lo ocultará de nuevo en un bloque no visible aún es una incógnita.

El uso de tokens fue diferente a todo lo que habíamos visto antes. Por primera vez en nuestras pruebas, una sola sesión agotó toda nuestra cuota de tokens. Al observar el modelo trabajar, lo vimos completar un borrador completo, para luego reescribir aparentemente el juego entero desde cero bajo la etiqueta "Rewrite Emerge with bug fixes and improvements", seguido de un segundo pase titulado "Create a rewritten Emerge with bug fixes and improvements".

Esto significa que, si utilizas el modelo para programación en serio, te verás obligado a actualizar tu plan, pagar bastante en tokens de API, o esperar a que Anthropic restablezca tus cuotas de uso. O simplemente podrías usar un modelo comparable que cobre mucho menos.

Opus 4.6 nunca había hecho esto. Sin embargo, es coherente con lo que Anthropic advierte en la guía de migración: más tokens de salida, especialmente en tareas agénticas con niveles de esfuerzo elevados.

Opus 4.7 está disponible desde hoy en Claude.ai, la API de Claude, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry. Los precios no cambian respecto a la versión 4.6: $5 por millón de tokens de entrada y $25 por millón de tokens de salida. Los desarrolladores pueden acceder al modelo mediante la cadena claude-opus-4-7.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados