En Resumen

  • Anthropic reveló que Claude Fable 5 degradaba en secreto sus respuestas a usuarios sospechosos de desarrollar modelos de IA rivales.
  • La empresa se disculpó y anunció que las solicitudes marcadas serán redirigidas visiblemente a Claude Opus 4.8 en adelante.
  • SemiAnalysis fue una de las primeras firmas en denunciar el problema tras detectar que su investigación de GPUs era interceptada.

Anthropic pasó aproximadamente 48 horas como el villano de la semana en la industria de la IA antes de dar marcha atrás.

La empresa lanzó Claude Fable 5 esta semana para una reacción inmediata por una medida de seguridad incluida en su system card de 319 páginas: el modelo, el primero de la nueva clase Mythos de la compañía, degradaría en secreto sus propias respuestas para los usuarios que sospechara que estaban desarrollando modelos de IA competidores—sin advertencia, sin mensaje de respaldo, simplemente con resultados más deficientes. El jueves, Anthropic estaba disculpándose.

"Las medidas de seguridad invisibles pueden aplicarse de forma más precisa, lo que nos permite lanzar rápidamente con muy pocos falsos positivos. Optamos por medidas de seguridad invisibles por esta razón—y ese fue el balance equivocado", publicó la empresa en X. "Deberían tener visibilidad sobre las medidas de seguridad que tenemos implementadas y el por qué".

"Pedimos disculpas por no haber encontrado el equilibrio correcto."

Desde esta semana, las solicitudes marcadas serán redirigidas de forma visible a Claude Opus 4.8, un modelo menos capaz, en lugar de entregar silenciosamente resultados degradados de Fable. Los usuarios de la API recibirán una razón explícita cuando una solicitud sea rechazada. Anthropic señaló que las notificaciones de respaldo del lado del servidor se implementarán en los próximos días.

Lo que realmente estaba ocurriendo

Para los lectores no técnicos, esto es de lo que realmente trataba la polémica. Claude Fable 5 ya contaba con medidas de seguridad visibles para investigaciones en ciberseguridad y biología—si hacías una pregunta que activaba esos filtros, recibías una notificación de que tu solicitud estaba siendo redirigida al modelo anterior Opus 4.8. Sabías que algo había cambiado. Podías ajustar tu prompt o usar otra herramienta.

Sin embargo, algunos investigadores de biología señalaron que estas medidas eran demasiado extremas.

Sin embargo, la medida de seguridad para el desarrollo de LLMs funcionaba de manera diferente. Si Fable 5 detectaba que trabajabas en cosas como el preentrenamiento de sistemas de IA, el desarrollo de infraestructura de entrenamiento distribuido o el diseño de chips de machine learning, el modelo alteraba silenciosamente su propio comportamiento—a través de modificaciones de prompt, vectores de dirección o ajustes de parámetros—para darte una respuesta de menor calidad sin informártelo. Recibirías una respuesta. Solo que no sería la de Fable 5 por la que pagaste.

Fable 5 se presenta como la cara pública del modelo Mythos más capaz de Anthropic, y los investigadores que lo utilizaban para trabajos legítimos de machine learning no tenían forma de saber que sus resultados estaban contaminados. Un experimento fallido tiene la misma apariencia tanto si tu hipótesis es incorrecta como si el modelo recibió instrucciones silenciosas de rendir por debajo de sus capacidades. Ese es el problema de reproducibilidad que hizo que la comunidad de investigación en IA entrara en modo de colapso total.

El problema era que el clasificador no era tan preciso. La firma de investigación en IA SemiAnalysis fue una de las primeras en señalarlo públicamente tras ver que su investigación de inferencia de GPU era marcada.

El inconveniente de la solución

La rectificación de Anthropic viene acompañada de un reconocimiento directo del balance que está aceptando. Hacer visibles las medidas de seguridad facilita que sean eludidas, lo que significa que el clasificador debe ampliar su alcance para seguir siendo efectivo.

Se esperan más falsos positivos—trabajos legítimos de machine learning que sean interceptados y redirigidos—mientras la empresa ajusta sus sistemas. Anthropic afirmó que está trabajando para reducir los falsos positivos "lo más rápido posible", pero no ofreció ningún plazo.

La empresa también está aplicando el mismo proceso de corrección a sus clasificadores de biología y ciberseguridad, que habían generado sus propias quejas por marcar prompts de investigación inofensivos.

Dicho esto, la preocupación que persiste es que Anthropic no está eliminando esta categoría de restricciones—solo las está haciendo visibles. Para quienes consideran que las restricciones en sí mismas son incorrectas, la disculpa del jueves es una solución parcial. Fable 5 sigue siendo gratuito en los planes Pro, Max, Team y Enterprise hasta el 22 de junio, tras lo cual pasará a ser de uso exclusivo mediante créditos de la API.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.