En Resumen
- Claude Fable 5 no perdió capacidad, pero su nuevo filtro de seguridad desvía muchas consultas a otro modelo.
- BridgeBench detectó una fuerte caída en programación; Arena.AI encontró un rendimiento casi sin cambios.
- Los desarrolladores son los más afectados, mientras que escritura, análisis e investigación mantienen un desempeño estable.
Claude Fable 5 volvió a estar disponible el 1 de julio, y el veredicto en las redes sociales no fue nada favorable: roto, limitado, "lobotomizado", con un rendimiento inferior y distinto al modelo original.
Las críticas de los usuarios fueron contundentes. Ese mismo día, dos evaluaciones independientes, BridgeBench AI y Arena AI, publicaron resultados que llegaron a conclusiones opuestas. Una detectó una degradación severa en la calidad de las respuestas; la otra encontró diferencias tan pequeñas que podrían pasar desapercibidas para la mayoría de los usuarios.
Curiosamente, ambas tienen razón.
La explicación breve es la siguiente: el modelo no se volvió menos inteligente. Lo que cambió fue el sistema de seguridad que decide si Claude Fable 5 puede responder o si la solicitud debe ser desviada a otro modelo. Esa diferencia resulta crucial dependiendo del uso que se le dé a Fable.
Qué midió realmente BridgeBench
BridgeMind, una plataforma de evaluación de IA, volvió a ejecutar su batería completa de pruebas de programación sobre la versión del 1 de julio de Fable 5 el mismo día en que regresó al servicio.
BridgeBench evalúa tareas reales de programación en categorías como depuración, refactorización y resistencia a las alucinaciones, asignando una puntuación de 0 a 100 según el desempeño del modelo. Sobre el papel, los resultados fueron preocupantes: la puntuación en depuración cayó de 86,2 a 25,9; la de refactorización, de 73,6 a 38,4; y la resistencia a las alucinaciones, de 75,9 a 61,7.
Sin embargo, el detalle está en la metodología. De las 12 tareas de depuración en TypeScript, solo tres llegaron realmente a Claude Fable 5. Las otras nueve fueron interceptadas por el nuevo clasificador de seguridad de Anthropic y redirigidas a Claude Opus 4.8. BridgeBench asigna una puntuación de cero cada vez que ocurre ese reemplazo, ya que el modelo que respondió no fue el que estaba siendo evaluado.
El clasificador, implementado como condición para el regreso de Fable, fue entrenado para bloquear la técnica de jailbreak reportada por Amazon, que permitía a Fable 5 identificar y demostrar vulnerabilidades de software. El sistema cumple ese objetivo, pero también bloquea muchas solicitudes que no deberían considerarse riesgosas. La depuración de código TypeScript, por ejemplo, se parece lo suficiente a una tarea de seguridad como para activar el filtro con frecuencia.
Qué midió Arena.AI
Arena.AI, una plataforma de comparación y evaluación de modelos de lenguaje, analizó el mismo problema desde otra perspectiva. El servicio recopila miles de votos anónimos de usuarios que comparan respuestas en categorías como texto, visión, documentos, programación y agentes, y luego clasifica los modelos mediante el sistema Elo, utilizado originalmente en el ajedrez para medir el rendimiento relativo. Cuando dos modelos responden de forma anónima y los usuarios eligen cuál prefieren, la puntuación refleja la calidad percibida por las personas, no el funcionamiento interno de la infraestructura.
La comparación antes y después mostró que Fable 5 prácticamente mantuvo su nivel. La puntuación en desarrollo frontend pasó de 1650 a 1623 Elo, una diferencia que Arena considera dentro del margen de error mientras continúa recopilando datos. El rendimiento en documentos aumentó 34 puntos; el texto especializado mejoró 25; y la escritura creativa subió ligeramente, con nueve puntos adicionales. Las únicas categorías que registraron caídas fueron programación (-18) y solicitudes difíciles (-3), precisamente aquellas donde el clasificador tiene más probabilidades de intervenir antes de que Fable responda.
En otras palabras, cuando Claude Fable 5 es quien realmente responde, su rendimiento sigue siendo el esperado. La frustración expresada en X no parece deberse a que el modelo haya empeorado, sino a que los usuarios pagan por Fable 5 y con frecuencia reciben respuestas generadas por otro modelo.
Quiénes se verán afectados y quiénes no
Los usuarios que utilizan Claude para escribir, analizar documentos, investigar o realizar consultas especializadas probablemente notarán pocos o ningún cambio. Esas son precisamente las categorías en las que Arena.AI observó un rendimiento estable o incluso ligeramente superior. Si existe alguna mejora, probablemente sea demasiado pequeña para percibirse claramente, sobre todo en tareas subjetivas como la escritura creativa.
En la práctica, escritores, investigadores y analistas seguirán obteniendo el desempeño esperado de Fable 5. Para los desarrolladores, la situación es diferente.
Quienes trabajen en áreas relacionadas con la seguridad informática —como gestión de memoria, análisis de vulnerabilidades o tareas que incluyan términos como "vulnerabilidad", "exploit", "hook" o incluso "corregir"— probablemente activarán el sistema de reemplazo con bastante frecuencia.
La diferencia entre el desplome registrado por BridgeBench y la estabilidad observada por Arena se explica por el tipo de tareas evaluadas. BridgeBench utiliza numerosas pruebas de depuración y reparación de código, exactamente el tipo de solicitudes que activan el nuevo clasificador. Arena, en cambio, recopila una gama mucho más amplia de consultas realizadas por usuarios, la mayoría de las cuales no se parecen a código destinado a explotar vulnerabilidades.
Anthropic ha reconocido que el clasificador seguirá mejorándose con el tiempo y admitió que actualmente bloquea demasiadas solicitudes. La prohibición original se produjo después de que investigadores de Amazon descubrieran un método para hacer que Fable identificara y demostrara vulnerabilidades de software, algo que el gobierno de Estados Unidos consideró un riesgo para la seguridad nacional. La solución inicial fue crear un clasificador suficientemente conservador para bloquear ese comportamiento y otros similares, con la intención de hacerlo menos restrictivo más adelante.
Por ahora, Anthropic no ha anunciado una fecha para ese ajuste.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.