En Resumen

  • Inception Labs presentó Mercury 2, que genera 1.000 tokens por segundo frente a 89 de Claude Haiku 4.5.
  • Augment Code reportó una caída del 82% en latencia y 90% en costos al reemplazar Claude Opus 4.7.
  • Mercury 2 alcanzó 90% en AIME 2026, superando el 69,1% de DiffusionGemma de Google en el mismo test.

Inception Labs presentó Mercury 2 el jueves, describiéndolo como el modelo de lenguaje de razonamiento más rápido del mundo. Según el anuncio de la compañía, genera alrededor de 1.000 tokens por segundo —los fragmentos de texto que un modelo de IA lee y escribe— frente a aproximadamente 89 tokens por segundo del Claude Haiku 4.5 Reasoning de Anthropic y 71 del GPT-5 Mini de OpenAI.

Eso lo coloca en la misma categoría de velocidad que Google reclamaría posteriormente para DiffusionGemma.

Ambos modelos logran esa velocidad abandonando el enfoque de máquina de escribir para redactar. Un chatbot estándar escribe una palabra, verifica lo que acaba de escribir, y luego escribe la siguiente, repitiendo el ciclo hasta completar la respuesta. Los modelos de difusión, en cambio, llenan un bloque de texto con tokens de marcador aleatorios y eliminan el ruido a través de una serie de pasadas paralelas —el mismo truco que convierte estática en una foto en generadores de imágenes como Stable Diffusion— hasta que todo el bloque se consolida en una respuesta terminada de una sola vez.

Donde los dos divergen es en lo que sobrevive a ese proceso. En AIME 2026 —construido a partir de problemas reales del American Invitational Mathematics Examination y puntuado como el porcentaje resuelto correctamente— Mercury 2 alcanzó el 90%. Google probó DiffusionGemma en el mismo conjunto, donde obtuvo 69,1%, mientras que el Gemma 4 estándar, sin difusión, obtuvo 88,3% en la misma prueba.

En GPQA, un benchmark de ciencias a nivel doctoral puntuado de la misma manera, los dos modelos casi empatan: Mercury 2 con 77% frente al 73,2% de DiffusionGemma. Sin embargo, la propia guía para desarrolladores de Google recomienda el Gemma 4 estándar para aplicaciones que exigen máxima calidad, admitiendo que DiffusionGemma queda por detrás en todos los aspectos.

La afirmación de velocidad también se sostiene fuera del laboratorio. Augment Code, una empresa de agentes de programación con IA, reemplazó a Claude Opus 4.7 de Anthropic por Mercury 2 en su subagente de compactación de contexto y registró una caída del 82% en latencia y una reducción del 90% en costos, manteniendo la misma calidad de salida, según un estudio de caso conjunto.

Inception se construyó sobre la investigación de su fundador Stefano Ermon, profesor de Stanford que coescribió algunas de las técnicas de difusión basadas en puntuación que impulsan los generadores de imágenes actuales. La ronda de financiamiento de $50 millones de la startup atrajo el respaldo del brazo de capital de riesgo de Nvidia y de los inversores individuales Andrew Ng y Andrej Karpathy.

Para usuarios no técnicos, lo más importante que la mayoría no nota hasta que lo siente es el "flujo". Los modelos tradicionales te hacen esperar entre pensamientos en una sesión larga. Los modelos de difusión como este hacen que la IA se sienta al mismo ritmo que tú: autocompletado instantáneo, iteraciones rápidas en código o planes, y subagentes que pueden manejar el trabajo repetitivo de alto volumen sin arrastrar todo el sistema.

Esa capa de subagentes es el cambio arquitectónico interesante. Los sistemas complejos de IA ya no son un solo modelo gigante e inteligente. Son orquestas de asistentes especializados: uno para razonamiento profundo, varios para resúmenes rápidos, enrutamiento, búsqueda de herramientas, verificación de salida, etc. Los modelos secuenciales hacen que esas llamadas utilitarias sean costosas y lentas. Los de difusión paralela las hacen lo suficientemente baratas y rápidas como para usarlas sin restricciones.

Advertencias realistas para usuarios comunes: estos modelos aún son mejores para las partes de los flujos de trabajo que son sensibles a la velocidad y de alto volumen, más que para el razonamiento frontera más difícil (donde los modelos autorregresivos más grandes podrían aún tener ventaja por ahora). Mercury 2 no tiene pesos abiertos, así que por ahora es solo API/nube. Y al igual que la versión de Google, el ecosistema completo (runtimes locales, frameworks de agentes) todavía está poniéndose al día para hacerlo funcionar sin fricciones en todas partes.

Los casos de uso que surgen de inmediato: programación rápida en tiempo real y "vibe coding" donde el modelo mantiene el ritmo de tus ediciones, sistemas de programación o soporte multiagente donde ocurren muchas subllamadas rápidas, interfaces de voz que no se sienten con retraso, y cualquier autocompletado o predicción de siguiente acción sensible a la latencia. A escala, el ahorro en costos y energía por mayor rendimiento en hardware estándar se acumula rápidamente.

Los números que Inception comparte (y las evaluaciones independientes) presentan el caso de forma visual: Mercury 2 se ubica en el cuadrante de "rápido y bueno" para modelos de difusión, llevando lo que antes requería hardware exótico a GPUs convencionales.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.