5 min lectura
Un instituto gubernamental de EE. UU. publicó su veredicto sobre la inteligencia artificial más poderosa de China: ocho meses de retraso, y a medida que pasa el tiempo, la brecha se amplía. Internet leyó la metodología y comenzó a hacer preguntas.
CAISI—el Centro de Estándares e Innovación en Inteligencia Artificial, una unidad dentro de NIST—publicó su evaluación de DeepSeek V4 Pro el 1 de mayo. La conclusión: el buque insignia de peso abierto de DeepSeek "se retrasa respecto a la frontera en aproximadamente 8 meses".
CAISI también lo califica como el modelo de IA chino más capaz que ha evaluado hasta la fecha.
CAISI no promedia las puntuaciones de referencia como la mayoría de los evaluadores. En cambio, aplica la Teoría de Respuesta al Ítem—un método estadístico de pruebas estandarizadas—para estimar la capacidad latente de cada modelo rastreando qué problemas resuelve y cuáles no, a través de nueve puntos de referencia en cinco dominios: ciberseguridad, ingeniería de software, ciencias naturales, razonamiento abstracto y matemáticas.
Los puntajes Elo estimados por el IRT: GPT-5.5 en 1,260 puntos, Claude Opus 4.6 de Anthropic en 999. DeepSeek V4 Pro obtiene alrededor de 800 (±28), lo que está muy cerca del GPT-5.4 mini en 749. En el sistema de CAISI, DeepSeek se sitúa más cerca de la antigua generación de GPT mini que de Opus.
El sistema de puntos en los puntajes de referencia modela los modelos de la misma manera en que los exámenes estandarizados califican a los estudiantes, no por el porcentaje crudo de respuestas correctas, sino por el peso de los problemas que resuelven y los que no, produciendo una estimación de puntos que solo significa algo en relación con otros modelos en la misma evaluación. Cuantos más puntos, mejor es el modelo en términos generales, siendo el puntaje del mejor modelo el punto de referencia para ver qué tan capaz es un modelo.
Es imposible reproducir los resultados de CAISI porque dos de los nueve puntos de referencia no son públicos, y en esos dos puntos de referencia es donde la brecha es más amplia. Por ejemplo, GPT-5.5 obtuvo un 71% en CTF-Archive-Diamond, una de las pruebas de ciberseguridad de CAISI, mientras que DeepSeek registró alrededor del 32%.
En los puntos de referencia públicos, la imagen cambia. GPQA-Diamond—razonamiento científico de nivel de doctorado, puntuado como porcentaje correcto—colocó a DeepSeek en un 90%, un punto por detrás del 91% de Opus 4.6. Los puntos de referencia de la olimpiada de matemáticas (OTIS-AIME-2025, PUMaC 2024, SMT 2025) ubicaron a DeepSeek en un 97%, 96% y 96%. En SWE-Bench Verified—arreglos reales de errores en GitHub, puntuados como porcentaje resuelto—DeepSeek obtuvo un 74% frente al 81% de GPT-5.5. El propio informe técnico de DeepSeek afirma que V4 Pro se equipara con Opus 4.6 y GPT-5.4.
Para la comparación de costos, CAISI filtró cualquier modelo de EE. UU. que tuviera un rendimiento significativamente peor o costara significativamente más por token que DeepSeek. Solo un modelo superó el umbral: GPT-5.4 mini. Esa es toda la frontera de EE. UU., filtrada a una única entrada.
DeepSeek resultó ser más económico en 5 de los 7 puntos de referencia, incluso superando al modelo de IA más pequeño y menos capaz de OpenAI.
<img class="alignnone size-full wp-image-366696" src="https://wp.decrypt.co/wp-content/uploads/2026/05/4-Cost-Comparison.png" alt="" width="1675" height="636" />
<h2>El contraargumento: ¿Es la brecha más grande o más pequeña?</h2>
Criticar la metodología de CAISI no absuelve completamente a DeepSeek. El desarrollador de IA bajo el seudónimo <a href="https://huggingface.co/Ex0bit">Ex0bit</a> respondió directamente: "No hay 'brecha', y nadie está 8 meses atrás. Nos han trolleado en cada lanzamiento cerrado en EE. UU. y nos han desafiado con pesos abiertos."
<blockquote class="twitter-tweet" data-width="550" data-dnt="true"><p lang="en" dir="ltr">There’s no ‘gap’, and no one’s 8 months behind. We’ve been trolled on every closed U.S drop and flexed on with open weights. <a href="https://t.co/dhbDb43b6P">https://t.co/dhbDb43b6P</a> <a href="https://t.co/kl0kAecmyO">pic.twitter.com/kl0kAecmyO</a></p>— Eric (@Ex0byt) <a href="https://twitter.com/Ex0byt/status/2050614628426612756?ref_src=twsrc%5Etfw">May 2, 2026</a></blockquote><script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>
El Índice de Inteligencia de Análisis Artificial v4.0, un sistema de calificación que rastrea la inteligencia del modelo de vanguardia en 10 evaluaciones, muestra a OpenAI cerca de 60 puntos y a DeepSeek en los bajos 50 a partir de mayo de 2026, comprimidos mucho más que hace un año.
Según los benchmarks estandarizados, su metodología muestra que la brecha en realidad se está reduciendo.
<img class="alignnone size-full wp-image-366707" src="https://wp.decrypt.co/wp-content/uploads/2026/05/Frontier-Language-Model-Intelligence-By-Country-Over-Time-4-May-26.png" alt="" width="4512" height="2144" />
<img class="alignnone size-full wp-image-366701" src="https://wp.decrypt.co/wp-content/uploads/2026/05/Frontier-Language-Model-Intelligence-Over-Time-4-May-26-1.png" alt="" width="4512" height="2144" />
<a href="https://decrypt.co/302982/why-china-deepseek-ai-blowing-minds-markets">Cuando DeepSeek apareció por primera vez</a> en enero de 2025, la pregunta era si China ya se había puesto al día. <a href="https://decrypt.co/es/303441/como-los-gigantes-de-la-ia-en-eeuu-estan-respondiendo-a-la-llegada-de-deepseek/">Los laboratorios estadounidenses se apresuraron a responder.</a> El <a href="https://hai.stanford.edu/ai-index/2026-ai-index-report/technical-performance">Informe del Índice de IA 2026 de Stanford</a>—publicado el 13 de abril—informa que la brecha en la tabla de clasificación de Arena entre Claude Opus 4.6 y Dola-Seed-2.0 Preview de China se está reduciendo, separados ahora por solo un 2.7%.
CAISI planea publicar próximamente un informe completo sobre la metodología IRT.Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.