Google Reduce Hasta 6 Veces Memoria de la IA sin Pérdida de Precisión, Alarmando al Sector de Hardware

La técnica reduce la memoria necesaria para ejecutar LLMs a medida que crecen las ventanas de contexto, una restricción clave en la implementación de IA.

4 min lectura

Mar 26, 2026

Google Research publicó el miércoles TurboQuant, un algoritmo de compresión que reduce un importante cuello de botella en la memoria de inferencia al menos 6x sin ninguna pérdida de precisión.

El paper está programado para ser presentado en ICLR 2026, y la reacción en línea fue inmediata.

El CEO de Cloudflare, Matthew Prince, lo calificó como el momento DeepSeek de Google. Las acciones de empresas de memoria, como Micron, Western Digital y Seagate, cayeron ese mismo día.

¿Es real?

La eficiencia en la cuantización es en sí misma un gran logro. Pero "cero pérdida de precisión" necesita contexto.

TurboQuant apunta al caché KV —el bloque de memoria GPU que almacena todo lo que un modelo de lenguaje necesita recordar durante una conversación.

A medida que las ventanas de contexto crecen hacia millones de tokens, esos cachés se expanden hasta cientos de gigabytes por sesión. Ese es el verdadero cuello de botella. No la potencia de cómputo, sino la memoria bruta.

Los métodos de compresión tradicionales intentan reducir esos cachés redondeando números hacia abajo —de flotantes de 32 bits a 16, a enteros de 8 a 4 bits, por ejemplo. Para entenderlo mejor, piensa en reducir una imagen de 4K a Full HD, a 720p, y así sucesivamente. Es fácil reconocer que es la misma imagen en general, pero hay más detalle en resolución 4K.

El problema: deben almacenar "constantes de cuantización" adicionales junto a los datos comprimidos para evitar que el modelo pierda coherencia. Esas constantes añaden entre 1 y 2 bits por valor, erosionando parcialmente las ganancias.

TurboQuant afirma eliminar por completo ese overhead.

Lo logra mediante dos subalgoritmos. PolarQuant separa la magnitud de la dirección en los vectores, y QJL (Quantized Johnson-Lindenstrauss) toma el pequeño error residual restante y lo reduce a un único bit de signo —positivo o negativo— sin constantes almacenadas.

El resultado, según Google, es un estimador matemáticamente imparcial para los cálculos de atención que impulsan los modelos transformer.

En benchmarks con Gemma y Mistral, TurboQuant igualó el rendimiento de precisión completa bajo una compresión de 4x, incluyendo una recuperación perfecta en tareas de "aguja en un pajar" con hasta 104.000 tokens.

Para contextualizar por qué esos benchmarks importan, ampliar el contexto utilizable de un modelo sin pérdida de calidad ha sido uno de los problemas más difíciles en el despliegue de LLMs.

Ahora, la letra pequeña.

"Cero pérdida de precisión" aplica a la compresión del caché KV durante la inferencia —no a los pesos del modelo. Comprimir los pesos es un problema completamente distinto y más complejo. TurboQuant no los toca.

Lo que comprime es la memoria temporal que almacena los cálculos de atención durante la sesión, lo cual es más tolerante porque esos datos pueden, en teoría, reconstruirse.

También existe la brecha entre un benchmark limpio y un sistema en producción que atiende miles de millones de solicitudes. TurboQuant fue probado en modelos de código abierto —Gemma, Mistral, Llama— no en la propia arquitectura Gemini de Google a escala.

A diferencia de las ganancias de eficiencia de DeepSeek, que requirieron decisiones arquitectónicas profundas integradas desde el inicio, TurboQuant no requiere reentrenamiento ni ajuste fino, y afirma tener un overhead de tiempo de ejecución despreciable. En teoría, se integra directamente en los pipelines de inferencia existentes.

Esa es la parte que inquietó al sector de hardware de memoria —porque si funciona en producción, cada gran laboratorio de IA operará de forma más eficiente con las mismas GPUs que ya posee.

El paper llegará a ICLR 2026. Hasta que se implemente en producción, el titular de "cero pérdida" permanece en el laboratorio.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Comité Bancario del Senado Aprueba la Ley CLARITY Pese a Tensiones por Negocios Cripto de Trump

El Comité Bancario del Senado votó para avanzar la Ley CLARITY, una pieza clave de legislación sobre criptomonedas, hacia una votación en el pleno del Senado. El jueves, los demócratas del Senado se dividieron en su apoyo a la Ley CLARITY durante la votación crucial, con dos miembros pro-cripto del partido votando a favor del histórico proyecto de ley cripto, y todos los demás votando en contra. El Sen. Ruben Gallego (D-AZ) y Angela Alsobrooks (D-MD) votaron a favor de la legislación, a pesar d...

Tienda de Ropa Vinculada a Kash Patel Desaparece Tras Distribuir Malware para Robar Criptomonedas

Una tienda de ropa vinculada al director del FBI, Kash Patel, apareció desconectada el viernes después de que observadores advirtieran que el sitio web de Based Apparel distribuía malware diseñado para vaciar billeteras cripto. Hasta que el sitio web aparentemente se desconectó, los visitantes con macOS recibían indicaciones para instalar el malware "ClickFix" copiando y pegando un comando en la terminal de su sistema, lo que ponía en riesgo tokens de sesión, datos del navegador y billeteras cr...

SEC Frena Plan Para Permitir Trading de Acciones Tokenizadas Ante Preocupaciones: Bloomberg

La Comisión de Bolsa y Valores de Estados Unidos (SEC) retiró sus planes de publicar una exención amplia que permitiría a las firmas cripto de EE.UU. negociar acciones tokenizadas y otros activos tokenizados, según Bloomberg reportó el viernes. La medida frena un esfuerzo de alto perfil para integrar la blockchain en los mercados de valores convencionales. El personal de la agencia se había preparado para publicar la llamada exención de innovación tan pronto como esta semana, según personas fam...

Noticias

Cursos

Profundidades

Monedas

Videos