美国苹果公司和英伟达公司联合研发出解码新方法,可显著提升大语言模型的推理速度

2024-12-21  中国 来源:其他 作者:刘纪铖 领域:信息

关键词:

据solidot网12月19日消息,美国苹果公司和英伟达公司合作通过开源Recurrent Drafter(ReDrafter)推测解码方法,可显著提升大语言模型的推理速度。ReDrafter技术是一种结合束搜索和动态树注意力的新方法,可使大模型生成文本的速度更快。据悉,ReDrafter现已集成到英伟达的TensorRT-LLM推理加速框架中,生成tokens的速度最高提升2.7倍,有效降低了用户延迟和计算成本。

消息来源:https://www.solidot.org/story?sid=80098