全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

中国腾讯混元开源首个面向世界模型强化学习后训练框架，世界模型交互准确率提升近35%

2026-03-11 中国来源：https://www.ithome.com/0/927/538.htm 领域：信息

关键词：

据IT之家3月10日消息，腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。该框架是一个专为长时序、交互式世界模型设计的强化学习（RL）后训练框架，是此前发布的混元世界模型1.5官方强化学习扩展模块，能够让世界模型的交互更加准确，体验更好。通过引入强化学习机制，可直接“引导”模型如何更准确地遵循用户指令探索世界，并保持长时序的视觉一致性。实验表明，WorldCompass能提升SOTA开源世界模型（WorldPlay）的交互准确率和视觉保真度，特别是在复杂的组合动作场景下，交互准确率提升了近35%。在最为困难的复合动作场景下，使用WorldCompass训练后的模型，准确率提升至55%左右，提升幅度超过35%。对于基础动作，准确率也提升了约10%。