5 min lectura
El número que todos los grandes laboratorios de IA han estado usando para reclamar la supremacía en codificación acaba de ser declarado inútil.
OpenAI publicó un post esta semana anunciando que SWE-bench Verified, el benchmark de referencia para medir las capacidades de codificación de la IA, está tan plagado de pruebas defectuosas y filtraciones de datos de entrenamiento que ya no dice nada útil sobre si un modelo puede realmente escribir software.
El benchmark funciona así: se le da a una IA un problema real de GitHub de un popular proyecto Python de código abierto, se le pide que corrija el error sin ver las pruebas, y se verifica si su solución hace pasar las pruebas fallidas sin romper nada más.
OpenAI creó SWE-bench Verified en agosto de 2024 como una versión más depurada del benchmark original de 2023, contratando a 93 ingenieros de software para filtrar tareas imposibles o mal diseñadas.
La depuración funcionó suficientemente bien como para que todos los grandes laboratorios comenzaran a citar sus puntuaciones como prueba de progreso. Cuando Anthropic lanzó Claude Opus 4 en mayo de 2025, Decrypt reportó que el modelo obtuvo un 72,5% en SWE-bench Verified, superando el 54,6% de GPT-4.1 y el 63,2% de Gemini 2.5 Pro. Era el benchmark de codificación que importaba.
Desde entonces, cada laboratorio de IA, desde América hasta China, ha mostrado su rendimiento en SWE para reclamar el trono como el mejor modelo en capacidades de codificación.
Imagen: Minimax
Ahora OpenAI afirma que esa carrera fue en parte una ilusión. Según el reporte, el equipo auditó 138 tareas en las que GPT-5.2 falló de manera consistente en 64 ejecuciones independientes, y tuvo a seis ingenieros revisando cada una. Finalmente concluyó que el 59,4% de esas tareas están defectuosas.
Aproximadamente el 35,5% tiene pruebas tan específicamente redactadas que requieren un nombre de función específico que nunca se menciona en la descripción del problema. Otro 18,8% verifica funciones que no formaban parte del problema original, extraídas de pull requests no relacionados.
El problema de contaminación funciona más o menos así: SWE-bench extrae sus problemas de repositorios de código abierto que la mayoría de las empresas de IA rastrean al construir sus conjuntos de entrenamiento. OpenAI comprobó si GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview habían visto las soluciones del benchmark durante el entrenamiento. Los tres las habían visto.
Con solo un ID de tarea y una breve pista, cada modelo podía reproducir de memoria la corrección de código exacta, incluyendo nombres de variables y comentarios en línea que no aparecen en ninguna parte de la descripción del problema. En un caso, los registros de cadena de pensamiento de GPT-5.2 mostraron que el modelo razonaba que un parámetro específico debía haber sido "añadido alrededor de Django 4.1", un detalle que solo se encuentra en las notas de lanzamiento de Django, no en la descripción de la tarea. Estaba respondiendo una pregunta cuya respuesta ya había visto.
OpenAI ahora recomienda SWE-bench Pro, un benchmark más reciente de Scale AI que utiliza bases de código más diversas y licencias que reducen la exposición a datos de entrenamiento. La caída en el rendimiento es llamativa: los modelos que superaban el 70% en el antiguo benchmark Verified obtienen alrededor del 23% en la división pública de SWE-bench Pro, y aún menos en sus tareas privadas.
En el actual ranking público de SWE-bench Verified, OpenAI está lejos del podio del benchmark. Retirar un benchmark en el que estás perdiendo y respaldar uno donde todos empiezan en el 23% reinicia el marcador en un momento conveniente y hace que las afirmaciones de los competidores luzcan menos impresionantes.
Esto cobra especial relevancia considerando que la muy anticipada nueva versión de DeepSeek se rumorea que supera o se acerca enormemente a los modelos de IA estadounidenses, especialmente en tareas agénticas y de codificación, con un modelo gratuito y de código abierto. Ese modelo podría lanzarse en cuestión de días, y SWE-bench Verified puede ser una métrica clave para medir su calidad.
OpenAI afirmó que está desarrollando evaluaciones de autoría privada que no se publicarán antes de las pruebas, señalando su proyecto GDPVal, donde expertos del dominio redactan tareas originales evaluadas por revisores humanos capacitados.
El problema de los benchmarks no es nuevo, ni exclusivo de la codificación. Los laboratorios de IA han pasado por múltiples evaluaciones, cada una útil hasta que los modelos fueron entrenados con ellas o hasta que las tareas resultaron demasiado específicas.
Sin embargo, lo que hace notable este caso es que OpenAI promocionó SWE-bench Verified, lo difundió en múltiples lanzamientos de modelos y ahora documenta públicamente el grado en que ha fallado, incluso mostrando cómo su propio modelo hizo trampa en él.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.