Google abarata la inteligencia artificial con TurboQuant, un algoritmo que reduce seis veces la memoria que consumen los modelos

29 de marzo de 2026

130

El 24 de marzo, Google Research publicó TurboQuant, un algoritmo que comprime el caché KV hasta seis veces sin perder calidad, presentado en ICLR 2026, la conferencia más importante de aprendizaje automático del año.

El problema que resuelve es más cotidiano y más caro de lo que parece. Cada vez que un usuario interactúa con ChatGPT, Gemini o Claude, el modelo necesita recordar todo lo que se ha dicho en la conversación. Esa memoria de trabajo se llama KV cache y crece con cada mensaje. En conversaciones largas o documentos extensos, ese espacio se vuelve enorme: ejecutar un modelo grande para 512 usuarios al mismo tiempo puede consumir hasta 512 gigabytes de memoria solo en el caché, casi cuatro veces lo que necesita el modelo en sí.

La novedad de TurboQuant no está solo en la compresión, sino en cómo la consigue. El algoritmo cuantiza los cachés KV de los modelos de lenguaje hasta 3 bits sin ninguna pérdida de precisión, y en pruebas sobre las GPU H100 de Nvidia, la versión de 4 bits multiplicó por ocho el rendimiento en el cálculo de logits de atención respecto a las claves sin cuantizar en 32 bits. El proceso se divide en dos etapas: PolarQuant, que convierte los vectores de datos a coordenadas polares y elimina el coste de memoria que acarrean los métodos tradicionales de cuantización, y QJL, que aplica la transformada de Johnson-Lindenstrauss para reducir cada valor residual a un solo bit de signo, sin ningún coste adicional de memoria.

Los resultados en los bancos de prueba estándar son los que más llaman la atención. El modelo comprimido obtuvo resultados idénticos al modelo original en los benchmarks de comprensión de textos, generación de código y resumen. Los investigadores usan la expresión «neutralidad absoluta de calidad». No aproximada. Idéntica. El método no requiere entrenamiento ni ajuste fino e introduce una sobrecarga de tiempo de ejecución despreciable, lo que lo hace adecuado para su despliegue en sistemas de inferencia en producción.

Las implicaciones económicas son inmediatas. Un modelo de 690.000 millones de parámetros cuantizado con la técnica de 4 bits en chips Blackwell reduce el coste por millón de tokens desde un dólar en configuraciones densas hasta 0,05 dólares. El mercado lo tomó como una amenaza directa a los fabricantes de memoria: las acciones de SK Hynix, Samsung y Micron cayeron al conocerse la noticia, ante el temor de los inversores a que en el futuro se necesiten menos chips de memoria. Morgan Stanley salió al paso con una lectura distinta: según el banco, TurboQuant no reduce la demanda de computación sino que la intensifica, porque la inferencia más barata impulsa un mayor uso y, con él, más necesidad de infraestructura.

En la comunidad tecnológica, la comparación que más circuló fue la de Pied Piper, la empresa ficticia de la serie Silicon Valley cuya tecnología de compresión sin pérdidas cambiaría las reglas del juego. El CEO de Cloudflare, Matthew Prince, lo describió como el momento DeepSeek de Google, en referencia a las ganancias de eficiencia logradas por el modelo chino a una fracción del coste de sus rivales. La diferencia es que TurboQuant existe y ya tiene fecha de presentación oficial.