2025-04-08 美国 来源:其他 领域:信息
关键词:
据TechWeb网4月7日消息,美国谷歌公司联合卡内基梅隆大学和MultiOn发布了关于合成数据在大型模型训练中应用的重要研究成果。研究人员引入直接偏好优化(DPO)方法,该方法会为每个问题解决步骤分配一个优势值,以反映其相对于理想解决方案的价值,从而使模型能够在强化学习框架内动态调整策略,更高效地从合成数据中学习和改进。为验证合成数据的有效性,研究团队选用DeepSeek-Math-7B和LLaMa2-7B等模型,在GSM8K和MATH数据集上开展了全面测试。结果显示,经过正向和负向合成数据预训练的大模型,在数学推理任务上的性能提升了八倍。这一研究充分彰显了合成数据在增强大模型逻辑推理能力方面的巨大潜力。