美国加州大学洛杉矶分校联合Meta AI推出d1新框架,大幅提升AI推理速度

2025-04-30  美国 来源:其他 领域:信息

关键词:

据VentureBeat网4月28日消息,美国加州大学洛杉矶分校(UCLA)联合Meta AI推出名为d1的新框架。该框架通过强化学习技术显著提升了扩散式大语言模型(dLLMs)的推理能力。具体来看,d1框架包含两个阶段的后期训练过程:首先是监督微调(SFT),使用高质量推理示例的数据集对模型进行微调;其次是采用名为diffu-GRPO的新算法进行强化学习训练,这一算法为dLLMs估计对数概率提供了一种高效方法,并在每次更新步骤中随机遮蔽部分输入提示,从而增强模型的学习效果。测试结果显示,经过d1处理的模型在各项任务中表现出色,尤其是在生成较长的响应时,模型显示出自我修正和回溯的能力,表明其具备更强的解决问题的策略。