En Resumen

  • Nvidia presentó el Nemotron 3 Ultra, modelo de 550.000 millones de parámetros que alcanzó 48 puntos en el Índice de Inteligencia de Artificial Analysis.
  • El modelo supera a rivales como Gemma 4 de Google y GPT-OSS de OpenAI, pero queda seis puntos por debajo del chino Kimi K2.6 de Moonshot AI.
  • Nvidia planea invertir $26.000 millones en IA abierta y ya trabaja en el Nemotron 4 junto a una coalición de ocho laboratorios que incluye a Mistral y Perplexity.

Jensen Huang salió al escenario de Computex en Taipéi el domingo, con su característica chaqueta de cuero, y presentó el Nemotron 3 Ultra: el modelo de IA abierto más grande de Nvidia y, al menos por ahora, el modelo de código abierto más inteligente construido en Estados Unidos. Es bueno. Solo que no lo suficientemente bueno para superar a China.

El modelo cuenta con aproximadamente 550.000 millones de parámetros en total, pero opera con solo 55.000 millones activos en cualquier momento dado, mediante un diseño conocido como mixture-of-experts. Los parámetros determinan la amplitud de conocimiento de un modelo de IA: a mayor cantidad, mayor capacidad.

Para entender cómo funciona un modelo mixture-of-experts, imagina un hospital con cientos de especialistas: cuando llega un paciente, solo acuden los médicos relevantes, no todo el personal. Este enfoque mantiene el costo de ejecución del modelo muy por debajo de lo que sugeriría su número total de parámetros, razón por la cual Nvidia puede afirmar una inferencia 5 veces más rápida y costos un 30% menores que alternativas de código abierto comparables.

El evaluador independiente Artificial Analysis, que colaboró con Nvidia en la evaluación previa al lanzamiento, ubicó al Nemotron 3 Ultra en 48 puntos dentro de su Índice de Inteligencia, un benchmark compuesto que agrega 10 evaluaciones en razonamiento, codificación, conocimiento general y rendimiento agéntico, puntuado en una escala numérica donde mayor puntaje equivale a mayor inteligencia.

Esto lo convierte en el modelo abierto estadounidense de mayor rendimiento por un margen considerable. Las opciones americanas más cercanas son Gemma 4 31B de Google con 39 puntos, Nemotron 3 Super con 36 y el gpt-oss-120b de OpenAI con 33.

La diferencia respecto a su predecesor es notable. Nemotron 3 Super, lanzado en marzo de 2026 con 120.000 millones de parámetros, ya era considerado un sólido modelo abierto para agentes autónomos. El Ultra lo supera por 12 puntos en el índice, lo que en este panorama de benchmarks representa un salto considerable.

Familia Nemotron

Nvidia lleva más tiempo en el negocio de los modelos de lo que la mayoría imagina. El primer modelo con la marca Nemotron se lanzó en noviembre de 2023, y la tercera generación fue anunciada en diciembre de 2025.

La familia viene en tres tamaños: Nano para tareas ligeras, Super para aplicaciones empresariales intermedias, y Ultra para cargas de trabajo de razonamiento complejo. Los tres comparten la misma arquitectura híbrida que combina capas Mamba-2, atención Transformer estándar y enrutamiento mixture-of-experts.

Mamba-2 es una alternativa a la atención estándar que procesa secuencias largas a una fracción del costo, algo relevante cuando se busca un modelo capaz de mantener un millón de tokens en memoria simultáneamente. El Nemotron 3 Ultra soporta una ventana de contexto de 1 millón de tokens, lo que significa que un agente puede, en teoría, tener en vista una base de código completa o cientos de documentos de investigación al mismo tiempo.

El modelo Ultra también incorpora una técnica llamada multi-token prediction (MTP), que permite al modelo predecir varios tokens futuros a la vez en lugar de uno por uno, acelerando la generación. Los tres modelos Nemotron 3 fueron post-entrenados mediante aprendizaje por refuerzo en múltiples entornos interactivos, enseñándoles a planificar y ejecutar tareas de varios pasos en lugar de limitarse a responder preguntas.

Los pesos del Ultra son públicos y sus recetas de entrenamiento están siendo liberadas. ¿Se necesita una supercomputadora para ejecutarlo? Básicamente, sí: un modelo de 550.000 millones de parámetros vive en territorio de centros de datos. Sin embargo, se puede acceder a él a través de la API de Nvidia o de proveedores en la nube sin necesidad de tener el hardware propio, del mismo modo en que cualquiera ya usa GPT o Claude desde un navegador.

Modelo rápido, cerebro más lento

La velocidad es donde el Nemotron 3 Ultra realmente destaca. En un endpoint de DeepInfra previo al lanzamiento, el modelo procesó más de 300 tokens de salida por segundo. Los modelos chinos de su clase de inteligencia —DeepSeek V4 Pro y Kimi K2.6— se sirven a 50–100 tokens por segundo a través de sus APIs comerciales hoy en día. Esa diferencia de velocidad importa para los despliegues en el mundo real, especialmente para los agentes autónomos que ejecutan tareas largas de múltiples pasos, donde la espera en cada etapa se acumula rápidamente.

Sin embargo, la velocidad bruta no resuelve el debate sobre inteligencia. El gráfico publicado por Artificial Analysis cuenta la historia real con claridad. En el eje vertical —inteligencia— el Nemotron 3 Ultra se ubica en 48 puntos, lo cual es notable, pero el Kimi K2.6 de China, desarrollado por Moonshot AI, alcanza 54. Esa diferencia de seis puntos en el índice representa una brecha significativa: el Kimi K2.6 fue lanzado en abril de 2026 y actualmente ocupa el cuarto lugar entre todos los modelos de IA a nivel global, tanto cerrados como abiertos, situándose a solo tres puntos de los modelos propietarios de Anthropic, Google y OpenAI, todos empatados en 57.

La situación de los modelos abiertos estadounidenses no es nueva. Los laboratorios chinos han estado inundando el ecosistema abierto con modelos potentes, mientras que las empresas americanas —OpenAI, Anthropic, Google— mantienen sus mejores sistemas detrás de APIs. Según reportó Decrypt en marzo, los modelos de código abierto chinos pasaron de representar aproximadamente el 1,2% del uso global de modelos abiertos a finales de 2024 a cerca del 30% para finales de 2025. Nvidia es el mayor nombre estadounidense que intenta revertir activamente esa tendencia, con un plan a cinco años divulgado públicamente para invertir $26.000 millones en el desarrollo de IA de código abierto.

El Nemotron 3 Ultra es el resultado más visible de esa apuesta hasta ahora. Nvidia también anunció que ya trabaja en el Nemotron 4 —la próxima generación—, desarrollado a través de la Coalición Nemotron, un grupo de ocho laboratorios de IA que incluye a Mistral AI y Perplexity, que Nvidia reunió en marzo de 2026 para codesarrollar modelos frontera de código abierto en infraestructura DGX Cloud. El Nemotron 3 Ultra llega el 4 de junio.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.