2024-12-21 中国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据solidot网12月19日消息,美国苹果公司和英伟达公司合作通过开源Recurrent Drafter(ReDrafter)推测解码方法,可显著提升大语言模型的推理速度。ReDrafter技术是一种结合束搜索和动态树注意力的新方法,可使大模型生成文本的速度更快。据悉,ReDrafter现已集成到英伟达的TensorRT-LLM推理加速框架中,生成tokens的速度最高提升2.7倍,有效降低了用户延迟和计算成本。
消息来源:https://www.solidot.org/story?sid=80098