4 min lectura
Google Research publicó el miércoles TurboQuant, un algoritmo de compresión que reduce un importante cuello de botella en la memoria de inferencia al menos 6x sin ninguna pérdida de precisión.
El paper está programado para ser presentado en ICLR 2026, y la reacción en línea fue inmediata.
El CEO de Cloudflare, Matthew Prince, lo calificó como el momento DeepSeek de Google. Las acciones de empresas de memoria, como Micron, Western Digital y Seagate, cayeron ese mismo día.
La eficiencia en la cuantización es en sí misma un gran logro. Pero "cero pérdida de precisión" necesita contexto.
TurboQuant apunta al caché KV —el bloque de memoria GPU que almacena todo lo que un modelo de lenguaje necesita recordar durante una conversación.
A medida que las ventanas de contexto crecen hacia millones de tokens, esos cachés se expanden hasta cientos de gigabytes por sesión. Ese es el verdadero cuello de botella. No la potencia de cómputo, sino la memoria bruta.
Los métodos de compresión tradicionales intentan reducir esos cachés redondeando números hacia abajo —de flotantes de 32 bits a 16, a enteros de 8 a 4 bits, por ejemplo. Para entenderlo mejor, piensa en reducir una imagen de 4K a Full HD, a 720p, y así sucesivamente. Es fácil reconocer que es la misma imagen en general, pero hay más detalle en resolución 4K.
El problema: deben almacenar "constantes de cuantización" adicionales junto a los datos comprimidos para evitar que el modelo pierda coherencia. Esas constantes añaden entre 1 y 2 bits por valor, erosionando parcialmente las ganancias.
TurboQuant afirma eliminar por completo ese overhead.
Lo logra mediante dos subalgoritmos. PolarQuant separa la magnitud de la dirección en los vectores, y QJL (Quantized Johnson-Lindenstrauss) toma el pequeño error residual restante y lo reduce a un único bit de signo —positivo o negativo— sin constantes almacenadas.
El resultado, según Google, es un estimador matemáticamente imparcial para los cálculos de atención que impulsan los modelos transformer.
En benchmarks con Gemma y Mistral, TurboQuant igualó el rendimiento de precisión completa bajo una compresión de 4x, incluyendo una recuperación perfecta en tareas de "aguja en un pajar" con hasta 104.000 tokens.
Para contextualizar por qué esos benchmarks importan, ampliar el contexto utilizable de un modelo sin pérdida de calidad ha sido uno de los problemas más difíciles en el despliegue de LLMs.
Ahora, la letra pequeña.
"Cero pérdida de precisión" aplica a la compresión del caché KV durante la inferencia —no a los pesos del modelo. Comprimir los pesos es un problema completamente distinto y más complejo. TurboQuant no los toca.
Lo que comprime es la memoria temporal que almacena los cálculos de atención durante la sesión, lo cual es más tolerante porque esos datos pueden, en teoría, reconstruirse.
También existe la brecha entre un benchmark limpio y un sistema en producción que atiende miles de millones de solicitudes. TurboQuant fue probado en modelos de código abierto —Gemma, Mistral, Llama— no en la propia arquitectura Gemini de Google a escala.
A diferencia de las ganancias de eficiencia de DeepSeek, que requirieron decisiones arquitectónicas profundas integradas desde el inicio, TurboQuant no requiere reentrenamiento ni ajuste fino, y afirma tener un overhead de tiempo de ejecución despreciable. En teoría, se integra directamente en los pipelines de inferencia existentes.
Esa es la parte que inquietó al sector de hardware de memoria —porque si funciona en producción, cada gran laboratorio de IA operará de forma más eficiente con las mismas GPUs que ya posee.
El paper llegará a ICLR 2026. Hasta que se implemente en producción, el titular de "cero pérdida" permanece en el laboratorio.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.