6 min lectura
Nvidia acaba de lanzar Nemotron 3 Super, un modelo de código abierto con 120.000 millones de parámetros diseñado para hacer una sola cosa bien: ejecutar agentes de IA autónomos sin disparar el presupuesto de cómputo.
Los sistemas multiagente generan muchos más tokens que un chat normal: cada llamada a herramientas, cada paso de razonamiento y cada fragmento de contexto se reenvía desde cero. Como resultado, los costos se disparan, los modelos tienden a desviarse y los agentes comienzan a olvidar cuál era su objetivo original... o al menos pierden precisión.
Nemotron 3 Super es la respuesta de Nvidia a todo eso. El modelo ejecuta 12.000 millones de parámetros activos de un total de 120.000 millones, utilizando un diseño de mezcla de expertos (MoE) que mantiene la inferencia económica sin sacrificar la profundidad de razonamiento que requieren los flujos de trabajo complejos. Cuenta con una ventana de contexto de 1 millón de tokens, lo que permite a los agentes mantener en memoria una base de código completa, o cerca de 750.000 palabras, antes de colapsar.
Para construir su modelo, Nvidia combinó tres componentes que rara vez aparecen juntos en la misma arquitectura: capas de espacio de estados Mamba-2, una alternativa más rápida y eficiente en memoria a la atención para manejar secuencias largas de tokens; capas de atención Transformer para una recuperación precisa; y un nuevo diseño "Latent MoE" que comprime las representaciones de tokens antes de enrutarlos hacia los expertos. Esto permite al modelo activar cuatro veces más especialistas al mismo costo de cómputo.
El modelo también fue preentrenado de forma nativa en NVFP4, el formato de punto flotante de 4 bits de Nvidia. En la práctica, esto significa que el sistema aprendió a operar con precisión dentro de la aritmética de 4 bits desde la primera actualización de gradiente, en lugar de ser entrenado con alta precisión y comprimido después, lo que suele provocar pérdidas de rendimiento.
Para entender el contexto: la precisión de un modelo se mide en bits. La precisión completa, conocida como FP32, es el estándar de referencia, pero también es extremadamente costosa de ejecutar a escala. Los desarrolladores suelen reducir la precisión para ahorrar cómputo intentando preservar el rendimiento.
Es como comprimir una imagen 4K a 1080p: la imagen sigue viéndose igual a simple vista, solo con menos detalle. Normalmente, pasar de 32 bits de precisión a 4 bits arruinaría la capacidad de razonamiento de un modelo. Nemotron evita ese problema aprendiendo a operar con baja precisión desde el principio, en lugar de ser forzado a ello después.
Comparado con su propio predecesor, Nemotron 3 Super ofrece más de cinco veces el rendimiento de inferencia. Frente a rivales externos, es 2,2 veces más rápido que el GPT-OSS 120B de OpenAI en rendimiento de inferencia, y 7,5 veces más rápido que el Qwen3.5-122B de Alibaba.
Realizamos nuestra propia prueba rápida para medir el rendimiento y el razonamiento se mantuvo sólido, incluso con prompts deliberadamente vagos, mal redactados o basados en información incorrecta. El modelo detectó pequeños errores en el contexto sin que se le pidiera, resolvió problemas de matemáticas y lógica con claridad, y no se desestabilizó cuando la pregunta en sí era ligeramente imprecisa.
El pipeline de entrenamiento completo es público: los pesos están disponibles en Hugging Face, con 10 billones de tokens de preentrenamiento curados observados durante 25 billones en total durante el entrenamiento, 40 millones de muestras de post-entrenamiento y recetas de aprendizaje por refuerzo en 21 configuraciones de entorno. Perplexity, Palantir, Cadence y Siemens ya están integrando el modelo en sus flujos de trabajo.
El modelo podría ser una pieza de una estrategia más amplia. Un reporte financiero de 2025 muestra que Nvidia planea invertir $26.000 millones en los próximos cinco años para construir modelos de IA de código abierto. Los ejecutivos también lo confirmaron.
Bryan Catanzaro, vicepresidente de investigación en deep learning aplicado, señaló a Wired que la compañía terminó recientemente el preentrenamiento de un modelo con 550.000 millones de parámetros. Nvidia lanzó su primer modelo Nemotron en noviembre de 2023, pero ese reporte deja claro que esto ya no es un proyecto secundario.
La inversión es estratégica considerando que los chips de Nvidia siguen siendo la infraestructura por defecto para entrenar y ejecutar modelos de frontera. Los modelos optimizados para su hardware ofrecen a los clientes una razón integrada para mantenerse en Nvidia, a pesar de los esfuerzos de competidores por usar otro hardware. Sin embargo, hay una presión más urgente detrás del movimiento: Estados Unidos está perdiendo la carrera del open source en IA, y la está perdiendo rápido.
Los modelos abiertos chinos pasaron de representar apenas el 1,2% del uso global de modelos abiertos a finales de 2024 a aproximadamente el 30% para finales de 2025, según una investigación de OpenRouter y Andreessen Horowitz. El Qwen de Alibaba superó al Llama de Meta como el modelo de código abierto autoalojado más utilizado, de acuerdo con Runpod. Empresas estadounidenses como Airbnb lo adoptaron para servicio al cliente. Startups de todo el mundo están construyendo sobre él. Más allá de la cuota de mercado, ese nivel de adopción genera dependencias de infraestructura difíciles de revertir.
Mientras que gigantes estadounidenses como OpenAI, Anthropic y Google mantienen sus mejores modelos bloqueados detrás de APIs, laboratorios chinos como DeepSeek y Alibaba han inundado el ecosistema abierto. Meta era el único gran actor estadounidense que competía en código abierto con Llama, pero Zuckerberg señaló recientemente que la compañía podría no hacer que sus futuros modelos sean completamente abiertos.
La brecha entre el "mejor modelo propietario" y el "mejor modelo abierto" solía ser enorme, y favorecía a Estados Unidos. Esa brecha es ahora muy pequeña, y el lado abierto del balance es cada vez más chino.
Debajo de todo esto también hay una amenaza de hardware. Se espera ampliamente que pronto se lance un nuevo modelo de DeepSeek, y se rumorea que fue entrenado íntegramente en chips fabricados por Huawei, una empresa china sancionada. De confirmarse, daría a desarrolladores de todo el mundo, especialmente en China, una razón concreta para comenzar a probar el hardware de Huawei. La empresa china Ziphu AI ya lo está haciendo.
Ese es el escenario que Nvidia más necesita prevenir: que los modelos abiertos chinos y los chips chinos construyan un ecosistema que no necesite a Nvidia en absoluto.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.