2026-03-27 美国 来源:https://news.aibase.com/zh/news/26595 领域:信息
关键词:
据AIbase网3月26日消息,美国谷歌公司推出全新向量量化压缩算法TurboQuant。该算法通过创新的PolarQuant与QJL技术,将大语言模型推理过程中的键值缓存内存需求降至原来的六分之一,在英伟达H100芯片上进行注意力计算时,速度提升达8倍,且在多项长上下文基准测试中实现零精度损失。这一突破性进展有望大幅降低AI部署成本,加速长上下文应用落地。