Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction
DeepMind重磅:自回归模型竟是EBM?揭秘Next-Token预测的“全局规划”能力

长期以来,大语言模型(LLM)圈子里存在一种普遍的质疑:基于 Next-Token Prediction(下一词预测)的自回归模型,真的具备逻辑推理和规划能力吗?还是说它们仅仅是依靠概率惯性滑行的“随机鹦鹉”?
ArXiv URL:http://arxiv.org/abs/2512.15605v1
毕竟,自回归模型(ARMs)看起来非常短视——它们只盯着下一个词。而另一种被称为 基于能量的模型(Energy-Based Models, EBMs),虽然能从全局视角评估整个序列的优劣,拥有天然的“上帝视角”,但因为计算极其困难,一直未能成为主流。
Google DeepMind 的最新研究打破了这一固有认知。
这篇题为《Autoregressive Language Models are Secretly Energy-Based Models》的论文提出了一个颠覆性的观点:自回归模型在本质上就是基于能量的模型。 它们虽然表面上在做下一词预测,但暗地里却在通过学习“软价值函数”来通过局部预测实现全局规划。
这一发现不仅为 LLM 的“规划能力”提供了坚实的理论支撑,还统一了监督学习、强化学习和能量模型这三大领域。
两大阵营的对立与统一
在深入技术细节前,我们需要先理清两个主角的关系:
-
自回归模型(Autoregressive Models, ARMs):这是当前 LLM(如 GPT 系列)的主流范式。
-
特点:利用链式法则,将序列生成分解为一步步的条件概率。
-
优势:训练高度并行,采样简单(Ancestral Sampling)。
-
劣势:看起来只能“走一步看一步”。
-
-
基于能量的模型(Energy-Based Models, EBMs):
-
特点:定义一个能量函数(或奖励函数)$R(x, y)$ 来给整个输入输出对打分。能量越高,生成的序列越好。
-
优势:天然具备全局视野(Lookahead),因为它直接对完整序列建模。
-
劣势:极难训练和采样,因为需要计算一个极其复杂的配分函数(Partition Function)来归一化概率。
-
DeepMind 的研究人员通过数学推导发现,这两个看似对立的模型,在函数空间上其实存在一个显式的双射(Bijection)关系。也就是说,每一个 ARM 都对应一个唯一的 EBM,反之亦然。
核心揭秘:从局部到全局的数学桥梁
论文的核心贡献在于建立了一个转换机制,能够将 EBM 的全局能量函数 $r$ 转化为 ARM 的局部预测函数 $q$。
这就好比你有一个全局的导航地图(EBM),告诉你哪条路最终得分最高;DeepMind 证明了,你可以把这张地图无损地转化为每一个路口的具体路标(ARM),只要你按照路标走,最终走出的路径就等同于地图规划的最优路径。
这个转换的数学表达涉及到了强化学习中的核心概念——软贝尔曼方程(Soft Bellman Equation)。
具体来说,ARM 在预测下一个 token $y_t$ 时,其输出的 logits $q(s_t, y_t)$ 实际上包含了由两部分组成的信息:
-
当前的即时奖励 $r(s_t, y_t)$。
-
对未来的预期价值 $V_q(s_t \oplus y_t)$。
公式如下:
\[q(s_t, y_t) = r(s_t, y_t) + V_q(s_t \oplus y_t)\]这里的 $V_q$ 被称为软价值函数(Soft Value Function),它本质上是一个 Log-Sum-Exp (LSE) 操作,代表了从当前状态出发,未来所有可能路径的“概率总和”的对数。
这意味着什么?
这意味着,一个训练完美的自回归模型,当它在预测下一个词时,它不仅仅是在看“下一个词像什么”,而是在计算“如果我选了这个词,未来整个句子的总能量(质量)会是多少”。ARM 通过学习这个 $V_q$ 函数,隐式地学会了向后看(Lookahead)。
为什么说 Teacher Forcing 是最优解?
我们在训练 LLM 时,通常使用 Teacher Forcing(即在训练时强制输入真实的上一时刻 token,而不是模型生成的 token)。这种做法常被诟病会导致训练和推理的不匹配(Exposure Bias)。
然而,基于上述的 ARM-EBM 等价性,论文推导出了一个惊人的结论:监督学习下的 ARM 训练,完全等价于 EBM 的训练。
当我们最小化 ARM 的负对数似然损失(NLL)时,我们实际上是在通过 Teacher Forcing 蒸馏一个最优的 EBM。这从理论上证明了,尽管 Teacher Forcing 看起来简单粗暴,但它在函数空间上确实是在寻找最优解。
RLHF 的本质:从 EBM 到 ARM 的蒸馏
目前的 LLM 训练流程通常包含“预训练 -> SFT -> RLHF”。这篇论文为 RLHF(基于人类反馈的强化学习)提供了一个非常清晰的视角。
在 RLHF 阶段,我们通常希望最大化奖励 $R$ 同时保持与参考模型的 KL 散度约束(即 MaxEnt RL 框架)。论文指出,MaxEnt RL 的最优解本质上就是一个 EBM。
但是,直接在推理时使用这个 EBM 是不现实的(太慢了)。所以我们实际上做的是:
-
定义一个理想的 EBM(由奖励模型定义)。
-
训练一个 ARM(我们的策略模型 Policy)去逼近这个 EBM。
这个过程就是将 EBM 蒸馏为 ARM 的过程。DeepMind 进一步给出了理论误差界限,证明了 ARM 确实可以有效地逼近 EBM 的分布。
总结与启示
这篇论文用优雅的数学语言,化解了“短视的预测”与“全局的规划”之间的矛盾。
-
统一视角:自回归模型(ARM)和能量模型(EBM)是一体两面。ARM 是 EBM 在时序分解下的表现形式。
-
潜藏的规划能力:Next-Token Prediction 不仅仅是简单的模式匹配。只要模型容量足够大,它就能学到包含未来信息的“软价值函数”,从而在每一步预测中实现“深谋远虑”。
-
算法自信:这为我们目前使用的主流训练范式(Teacher Forcing, RLHF)提供了强有力的理论背书。
下次当你看到 GPT 生成了一个精妙绝伦的长回复时,请记住:它不仅仅是在猜下一个字,它是在每一步都权衡了无数种未来的可能性,并选择了能量最高的那条世界线。