美国英伟达公司与麻省理工大学、香港大学合作推出AI框架Fast-dLLM,推理速度提升27.6倍

2025-06-03  全球 来源:https://www.aibase.com/zh/news/18582 领域:信息

关键词:

据AIbase网6月3日消息,美国英伟达公司与麻省理工大学、香港大学合作推出AI框架Fast-dLLM,显著提升了扩散模型的推理速度,最高可达27.6倍。Fast-dLLM框架中引入了两项核心创新:KV缓存机制和置信度感知并行解码策略。KV缓存通过将序列划分为块,预计算并存储其他块的激活值,减少了计算冗余。置信度解码策略则根据设定的阈值选择性解码高置信度的词元,从而避免了同步采样可能带来的依赖冲突,确保生成质量不受影响。Fast-dLLM在加速的同时,准确率仅下降了1-2个百分点,展示了其在速度与质量之间的良好平衡。这一研究成果为扩散模型在实际语言生成任务中的应用提供了更为强大的支持,使其有能力与自回归模型进行竞争,为未来的广泛应用奠定了坚实基础。