2026-03-11 中国 来源:https://www.ithome.com/0/927/538.htm 领域:信息
关键词:
据IT之家3月10日消息,腾讯混元3D团队宣布开源业界首个面向世界模型的强化学习后训练框架WorldCompass。该框架是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架,是此前发布的混元世界模型1.5官方强化学习扩展模块,能够让世界模型的交互更加准确,体验更好。通过引入强化学习机制,可直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。实验表明,WorldCompass能提升SOTA开源世界模型(WorldPlay)的交互准确率和视觉保真度,特别是在复杂的组合动作场景下,交互准确率提升了近35%。在最为困难的复合动作场景下,使用WorldCompass训练后的模型,准确率提升至55%左右,提升幅度超过35%。对于基础动作,准确率也提升了约10%。