EEUU Dice que los Mejores Modelos de IA de China Están Rezagados: Expertos Difieren

El CAISI del NIST evaluó a DeepSeek V4 Pro utilizando benchmarks privados y un filtro de comparación de costos que excluyó todos los modelos estadounidenses excepto GPT-5.4 mini. Los críticos califican la metodología de conveniente.

5 min lectura

May 5, 2026

Un instituto gubernamental de EE. UU. publicó su veredicto sobre la inteligencia artificial más poderosa de China: ocho meses de retraso, y a medida que pasa el tiempo, la brecha se amplía. Internet leyó la metodología y comenzó a hacer preguntas.

CAISI—el Centro de Estándares e Innovación en Inteligencia Artificial, una unidad dentro de NIST—publicó su evaluación de DeepSeek V4 Pro el 1 de mayo. La conclusión: el buque insignia de peso abierto de DeepSeek "se retrasa respecto a la frontera en aproximadamente 8 meses".

CAISI también lo califica como el modelo de IA chino más capaz que ha evaluado hasta la fecha.

El sistema de puntuación

CAISI no promedia las puntuaciones de referencia como la mayoría de los evaluadores. En cambio, aplica la Teoría de Respuesta al Ítem—un método estadístico de pruebas estandarizadas—para estimar la capacidad latente de cada modelo rastreando qué problemas resuelve y cuáles no, a través de nueve puntos de referencia en cinco dominios: ciberseguridad, ingeniería de software, ciencias naturales, razonamiento abstracto y matemáticas.

Los puntajes Elo estimados por el IRT: GPT-5.5 en 1,260 puntos, Claude Opus 4.6 de Anthropic en 999. DeepSeek V4 Pro obtiene alrededor de 800 (±28), lo que está muy cerca del GPT-5.4 mini en 749. En el sistema de CAISI, DeepSeek se sitúa más cerca de la antigua generación de GPT mini que de Opus.

El sistema de puntos en los puntajes de referencia modela los modelos de la misma manera en que los exámenes estandarizados califican a los estudiantes, no por el porcentaje crudo de respuestas correctas, sino por el peso de los problemas que resuelven y los que no, produciendo una estimación de puntos que solo significa algo en relación con otros modelos en la misma evaluación. Cuantos más puntos, mejor es el modelo en términos generales, siendo el puntaje del mejor modelo el punto de referencia para ver qué tan capaz es un modelo.

Es imposible reproducir los resultados de CAISI porque dos de los nueve puntos de referencia no son públicos, y en esos dos puntos de referencia es donde la brecha es más amplia. Por ejemplo, GPT-5.5 obtuvo un 71% en CTF-Archive-Diamond, una de las pruebas de ciberseguridad de CAISI, mientras que DeepSeek registró alrededor del 32%.

En los puntos de referencia públicos, la imagen cambia. GPQA-Diamond—razonamiento científico de nivel de doctorado, puntuado como porcentaje correcto—colocó a DeepSeek en un 90%, un punto por detrás del 91% de Opus 4.6. Los puntos de referencia de la olimpiada de matemáticas (OTIS-AIME-2025, PUMaC 2024, SMT 2025) ubicaron a DeepSeek en un 97%, 96% y 96%. En SWE-Bench Verified—arreglos reales de errores en GitHub, puntuados como porcentaje resuelto—DeepSeek obtuvo un 74% frente al 81% de GPT-5.5. El propio informe técnico de DeepSeek afirma que V4 Pro se equipara con Opus 4.6 y GPT-5.4.

Para la comparación de costos, CAISI filtró cualquier modelo de EE. UU. que tuviera un rendimiento significativamente peor o costara significativamente más por token que DeepSeek. Solo un modelo superó el umbral: GPT-5.4 mini. Esa es toda la frontera de EE. UU., filtrada a una única entrada.

DeepSeek resultó ser más económico en 5 de los 7 puntos de referencia, incluso superando al modelo de IA más pequeño y menos capaz de OpenAI.

<img class="alignnone size-full wp-image-366696" src="https://wp.decrypt.co/wp-content/uploads/2026/05/4-Cost-Comparison.png" alt="" width="1675" height="636" />
<h2>El contraargumento: ¿Es la brecha más grande o más pequeña?</h2>
Criticar la metodología de CAISI no absuelve completamente a DeepSeek. El desarrollador de IA bajo el seudónimo <a href="https://huggingface.co/Ex0bit">Ex0bit</a> respondió directamente: "No hay 'brecha', y nadie está 8 meses atrás. Nos han trolleado en cada lanzamiento cerrado en EE. UU. y nos han desafiado con pesos abiertos."

<blockquote class="twitter-tweet" data-width="550" data-dnt="true"><p lang="en" dir="ltr">There’s no ‘gap’, and no one’s 8 months behind. We’ve been trolled on every closed U.S drop and flexed on with open weights. <a href="https://t.co/dhbDb43b6P">https://t.co/dhbDb43b6P</a> <a href="https://t.co/kl0kAecmyO">pic.twitter.com/kl0kAecmyO</a></p>&mdash; Eric (@Ex0byt) <a href="https://twitter.com/Ex0byt/status/2050614628426612756?ref_src=twsrc%5Etfw">May 2, 2026</a></blockquote><script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

El Índice de Inteligencia de Análisis Artificial v4.0, un sistema de calificación que rastrea la inteligencia del modelo de vanguardia en 10 evaluaciones, muestra a OpenAI cerca de 60 puntos y a DeepSeek en los bajos 50 a partir de mayo de 2026, comprimidos mucho más que hace un año.

Según los benchmarks estandarizados, su metodología muestra que la brecha en realidad se está reduciendo.

<img class="alignnone size-full wp-image-366707" src="https://wp.decrypt.co/wp-content/uploads/2026/05/Frontier-Language-Model-Intelligence-By-Country-Over-Time-4-May-26.png" alt="" width="4512" height="2144" />


<img class="alignnone size-full wp-image-366701" src="https://wp.decrypt.co/wp-content/uploads/2026/05/Frontier-Language-Model-Intelligence-Over-Time-4-May-26-1.png" alt="" width="4512" height="2144" />

<a href="https://decrypt.co/302982/why-china-deepseek-ai-blowing-minds-markets">Cuando DeepSeek apareció por primera vez</a> en enero de 2025, la pregunta era si China ya se había puesto al día. <a href="https://decrypt.co/es/303441/como-los-gigantes-de-la-ia-en-eeuu-estan-respondiendo-a-la-llegada-de-deepseek/">Los laboratorios estadounidenses se apresuraron a responder.</a> El <a href="https://hai.stanford.edu/ai-index/2026-ai-index-report/technical-performance">Informe del Índice de IA 2026 de Stanford</a>—publicado el 13 de abril—informa que la brecha en la tabla de clasificación de Arena entre Claude Opus 4.6 y Dola-Seed-2.0 Preview de China se está reduciendo, separados ahora por solo un 2.7%.

CAISI planea publicar próximamente un informe completo sobre la metodología IRT.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

DeepClaude Permite Ejecutar Claude Code con DeepSeek V4 "17 Veces Más Barato"

Una nueva herramienta de código abierto llamada DeepClaude permite a los desarrolladores ejecutar Claude Code —el agente de codificación autónomo de Anthropic— con el modelo de DeepSeek como motor. Publicado en GitHub por un desarrollador conocido como aattaran, el proyecto se presenta como la misma experiencia de Claude Code pero "17 veces más barata". Es un simple script de bash y PowerShell, sin nada sofisticado, sin forks ni reescrituras. Con la herramienta también es posible ejecutar Claude...

Colorado Busca Reemplazar Su Ley de IA de 2024 Tras Demanda de xAI y Presión de la Industria

Los legisladores de Colorado buscan reescribir una de las leyes de inteligencia artificial más observadas del país, en un intento por restablecer las normas que regulan el uso de la IA en decisiones que afectan empleos, vivienda y acceso a servicios. La propuesta eliminaría la ley de IA vigente en Colorado, SB24-205, aprobada en 2024, y la reemplazaría con nuevas reglas destinadas a atender las preocupaciones de la industria sin dejar de proteger a los consumidores. "En 2024, la asamblea general...

Noticias

Cursos

Profundidades

Monedas

Videos