AI解魔方新突破:预训练一个“世界模型”,强化学习性能提升40%!

大型语言模型在预训练、微调和强化学习等一系列“修炼”后,展现出惊人的能力。但我们是否想过,这些训练阶段是如何塑造模型内部的“世界观”的?一个更清晰、更准确的内部世界模型,又能否让AI在后续的学习中如虎添翼?

ArXiv URL:http://arxiv.org/abs/2512.03400v1

最近,来自哈佛、普林斯顿等顶尖高校的研究者们,通过一个精巧的二阶魔方实验,为我们揭示了答案。研究发现,先让模型显式地学习“世界规则”,能显著提升其后期强化学习的效果,在最难的任务上性能提升高达40%!

实验设定:一个精巧的魔方世界

为了精准研究这个问题,研究者们选择了一个需要规划和推理的完美“沙盒”——二阶魔方。

任务很简单:给Transformer一个被打乱的魔方状态序列,让它生成一串能还原魔方的“最优”步骤。

魔方任务流程图

这里的关键在于,模型在训练时只看得到初始状态和最终的解法步骤,却看不到每一步操作后魔方的中间状态。

这意味着,模型必须在内部自己“脑补”出魔方的样子,并理解每一个转动(动作)会如何改变魔方的状态(世界)。这个内部的“脑补”过程,就是所谓的世界模型(World Model)。

如何构建一个更好的“世界模型”?

研究者们设计了三种不同的训练策略,来比较隐式学习和显式学习世界模型的效果:

  1. 标准微调(Standard Fine-Tuning):这是最常见的方法。直接让模型学习从打乱的魔方预测正确解法,完全依赖模型通过预测下一个Token来隐式地领悟魔方的规则。

  2. 世界模型预训练(State-Prediction Pretraining):分两步走。

    • 第一步,先不教模型解魔方,而是给它看随机的转动步骤,并要求它准确预测出每一步之后魔方的确切状态(24个色块的颜色)。这等于在显式地给模型“上物理课”,让它先掌握魔方世界的运行规律。

    • 第二步,再用标准方法微调模型,让它学习解魔方。

  3. 联合训练(Joint Training):一种折中方案。在训练解魔方的同时,增加一个辅助任务,要求模型也能预测出魔方的状态。这相当于一边学解题,一边巩固物理规则。

探针与干预:深入AI的“大脑”

模型内部的世界模型到底有多清晰?研究者们用了两种巧妙的方法来“窥探”和“测试”模型的内部表征。

线性探针(Linear Probing)

这就像给模型装上一个“脑电图仪”。研究者训练了一个简单的线性分类器(探针),尝试从模型内部的隐藏状态$h$中解码出当前魔方的确切状态。

解码的准确率越高,说明模型内部对魔方状态的表征越清晰、越有条理。

探针准确率对比

结果如上图所示,经过“世界模型预训练”(Pre-Train)或“联合训练”(Joint-Train)的模型,其探针准确率显著高于标准微调模型。这证明显式学习确实构建了更优质的内部世界表征。

因果干预(Causal Intervention)

光能“读懂”还不够,这个内部表征真的在指导模型的决策吗?

研究者进行了一项更大胆的“脑外科手术”:在模型生成下一步操作前,强行干预其内部的隐藏状态,将它脑中的魔方状态$S$“篡改”成另一个状态$T$。

如果模型真的依赖这个内部表征,那么它的下一步决策应该会从“解决魔方S的合理步骤”变为“解决魔方T的合理步骤”。

因果干预成功率

实验结果(如上图左)表明,经过显式世界模型训练的模型,其干预成功率更高。这说明,它们的决策更加依赖于内部构建的那个清晰的世界模型,而不是一些虚无缥缈的统计关联。

更好的世界模型,更强的后期性能

现在,我们来到了最关键的问题:一个更清晰的世界模型,对模型的最终性能有多大帮助?

研究团队在上述三种训练策略的基础上,都增加了一个强化学习后期训练(Post-training with GRPO)阶段。GRPO会通过多次尝试(rollouts)并给予奖励(解开魔方则奖励为1,否则为0)来进一步优化模型的策略。

最终性能对比

上图是最终的对决结果,揭示了惊人的发现:

这表明,一个坚实、清晰的世界模型为后续的强化学习提供了一个绝佳的起点,让模型能够更高效地探索和学习,最终达到更高的高度。

结论

这项研究通过一个简单而优雅的魔方实验,清晰地证明了“世界模型”在AI能力形成中的关键作用。

它告诉我们,与其让模型在海量数据中“野蛮生长”,不如先花些心思教它理解这个世界的“基本法”。这种“先懂规则,再学策略”的范式,不仅能构建出更鲁棒、更可解释的内部表征,还能极大地释放强化学习等后期训练方法的潜力。

虽然目前实验仅限于魔方任务,但它所揭示的原理——更好的世界模型可以带来更好的后期训练性能——无疑为未来构建更强大、更可靠的AI系统指明了一条充满希望的道路。