OpenAI Afirma que Benchmark Usado para Medir Habilidades de Codificación de la IA Está "Contaminado"

OpenAI quiere retirar el principal benchmark de codificación de IA—y las razones revelan un problema más profundo sobre cómo toda la industria se mide a sí misma.

5 min lectura

Feb 25, 2026

El número que todos los grandes laboratorios de IA han estado usando para reclamar la supremacía en codificación acaba de ser declarado inútil.

OpenAI publicó un post esta semana anunciando que SWE-bench Verified, el benchmark de referencia para medir las capacidades de codificación de la IA, está tan plagado de pruebas defectuosas y filtraciones de datos de entrenamiento que ya no dice nada útil sobre si un modelo puede realmente escribir software.

El benchmark funciona así: se le da a una IA un problema real de GitHub de un popular proyecto Python de código abierto, se le pide que corrija el error sin ver las pruebas, y se verifica si su solución hace pasar las pruebas fallidas sin romper nada más.

OpenAI creó SWE-bench Verified en agosto de 2024 como una versión más depurada del benchmark original de 2023, contratando a 93 ingenieros de software para filtrar tareas imposibles o mal diseñadas.

La depuración funcionó suficientemente bien como para que todos los grandes laboratorios comenzaran a citar sus puntuaciones como prueba de progreso. Cuando Anthropic lanzó Claude Opus 4 en mayo de 2025, Decrypt reportó que el modelo obtuvo un 72,5% en SWE-bench Verified, superando el 54,6% de GPT-4.1 y el 63,2% de Gemini 2.5 Pro. Era el benchmark de codificación que importaba.

Desde entonces, cada laboratorio de IA, desde América hasta China, ha mostrado su rendimiento en SWE para reclamar el trono como el mejor modelo en capacidades de codificación.

Imagen: Minimax

Ahora OpenAI afirma que esa carrera fue en parte una ilusión. Según el reporte, el equipo auditó 138 tareas en las que GPT-5.2 falló de manera consistente en 64 ejecuciones independientes, y tuvo a seis ingenieros revisando cada una. Finalmente concluyó que el 59,4% de esas tareas están defectuosas.

Aproximadamente el 35,5% tiene pruebas tan específicamente redactadas que requieren un nombre de función específico que nunca se menciona en la descripción del problema. Otro 18,8% verifica funciones que no formaban parte del problema original, extraídas de pull requests no relacionados.

El problema de contaminación funciona más o menos así: SWE-bench extrae sus problemas de repositorios de código abierto que la mayoría de las empresas de IA rastrean al construir sus conjuntos de entrenamiento. OpenAI comprobó si GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview habían visto las soluciones del benchmark durante el entrenamiento. Los tres las habían visto.

Con solo un ID de tarea y una breve pista, cada modelo podía reproducir de memoria la corrección de código exacta, incluyendo nombres de variables y comentarios en línea que no aparecen en ninguna parte de la descripción del problema. En un caso, los registros de cadena de pensamiento de GPT-5.2 mostraron que el modelo razonaba que un parámetro específico debía haber sido "añadido alrededor de Django 4.1", un detalle que solo se encuentra en las notas de lanzamiento de Django, no en la descripción de la tarea. Estaba respondiendo una pregunta cuya respuesta ya había visto.

OpenAI ahora recomienda SWE-bench Pro, un benchmark más reciente de Scale AI que utiliza bases de código más diversas y licencias que reducen la exposición a datos de entrenamiento. La caída en el rendimiento es llamativa: los modelos que superaban el 70% en el antiguo benchmark Verified obtienen alrededor del 23% en la división pública de SWE-bench Pro, y aún menos en sus tareas privadas.

En el actual ranking público de SWE-bench Verified, OpenAI está lejos del podio del benchmark. Retirar un benchmark en el que estás perdiendo y respaldar uno donde todos empiezan en el 23% reinicia el marcador en un momento conveniente y hace que las afirmaciones de los competidores luzcan menos impresionantes.

Esto cobra especial relevancia considerando que la muy anticipada nueva versión de DeepSeek se rumorea que supera o se acerca enormemente a los modelos de IA estadounidenses, especialmente en tareas agénticas y de codificación, con un modelo gratuito y de código abierto. Ese modelo podría lanzarse en cuestión de días, y SWE-bench Verified puede ser una métrica clave para medir su calidad.

OpenAI afirmó que está desarrollando evaluaciones de autoría privada que no se publicarán antes de las pruebas, señalando su proyecto GDPVal, donde expertos del dominio redactan tareas originales evaluadas por revisores humanos capacitados.

El problema de los benchmarks no es nuevo, ni exclusivo de la codificación. Los laboratorios de IA han pasado por múltiples evaluaciones, cada una útil hasta que los modelos fueron entrenados con ellas o hasta que las tareas resultaron demasiado específicas.

Sin embargo, lo que hace notable este caso es que OpenAI promocionó SWE-bench Verified, lo difundió en múltiples lanzamientos de modelos y ahora documenta públicamente el grado en que ha fallado, incluso mostrando cómo su propio modelo hizo trampa en él.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Trump Coin Club Premiará a los 19 Mayores Holders con Suite Privada en la Final de la Copa Mundial

Semanas después de organizar un llamativo evento en Mar-a-Lago, los organizadores detrás de la memecoin del presidente Donald Trump regresan con un plan a largo plazo para los principales tenedores del token. Bill Zanker, un viejo asociado de Trump, ha estado en el centro de la operación de la memecoin del presidente desde que se lanzó a principios del año pasado. Desde entonces, Zanker ha organizado dos reuniones para los tenedores de la memecoin del presidente, ambas con apariciones del propi...

Polymarket en Disputa: Strategy Vendió 32 BTC Antes del 31 de Mayo pero el Mercado de $50 Millones Podría Resolverse en "No"

El gigante de tesorería de Bitcoin, Strategy, anunció el lunes por la mañana que vendió una parte de sus tenencias de BTC por primera vez desde 2022, y el momento de esa venta ha llevado a los apostadores en Polymarket a disputar la resolución propuesta de un mercado que ha atraído más de $50 millones en volumen de operaciones. El mercado en cuestión —que preguntaba a los apostadores si Strategy vendería Bitcoin antes del 31 de mayo— se encuentra actualmente en revisión final después de que dos...

Noticias

Cursos

Profundidades

Monedas

Videos