Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction

DeepMind重磅：自回归模型竟是EBM？揭秘Next-Token预测的“全局规划”能力

长期以来，大语言模型（LLM）圈子里存在一种普遍的质疑：基于 Next-Token Prediction（下一词预测）的自回归模型，真的具备逻辑推理和规划能力吗？还是说它们仅仅是依靠概率惯性滑行的“随机鹦鹉”？

ArXiv URL：http://arxiv.org/abs/2512.15605v1

毕竟，自回归模型（ARMs）看起来非常短视——它们只盯着下一个词。而另一种被称为 基于能量的模型（Energy-Based Models, EBMs），虽然能从全局视角评估整个序列的优劣，拥有天然的“上帝视角”，但因为计算极其困难，一直未能成为主流。

Google DeepMind 的最新研究打破了这一固有认知。

这篇题为《Autoregressive Language Models are Secretly Energy-Based Models》的论文提出了一个颠覆性的观点：自回归模型在本质上就是基于能量的模型。 它们虽然表面上在做下一词预测，但暗地里却在通过学习“软价值函数”来通过局部预测实现全局规划。

这一发现不仅为 LLM 的“规划能力”提供了坚实的理论支撑，还统一了监督学习、强化学习和能量模型这三大领域。

两大阵营的对立与统一

在深入技术细节前，我们需要先理清两个主角的关系：

自回归模型（Autoregressive Models, ARMs）：这是当前 LLM（如 GPT 系列）的主流范式。
- 特点：利用链式法则，将序列生成分解为一步步的条件概率。
- 优势：训练高度并行，采样简单（Ancestral Sampling）。
- 劣势：看起来只能“走一步看一步”。
基于能量的模型（Energy-Based Models, EBMs）：
- 特点：定义一个能量函数（或奖励函数）$R(x, y)$ 来给整个输入输出对打分。能量越高，生成的序列越好。
- 优势：天然具备全局视野（Lookahead），因为它直接对完整序列建模。
- 劣势：极难训练和采样，因为需要计算一个极其复杂的配分函数（Partition Function）来归一化概率。

DeepMind 的研究人员通过数学推导发现，这两个看似对立的模型，在函数空间上其实存在一个显式的双射（Bijection）关系。也就是说，每一个 ARM 都对应一个唯一的 EBM，反之亦然。

核心揭秘：从局部到全局的数学桥梁

论文的核心贡献在于建立了一个转换机制，能够将 EBM 的全局能量函数 $r$ 转化为 ARM 的局部预测函数 $q$。

这就好比你有一个全局的导航地图（EBM），告诉你哪条路最终得分最高；DeepMind 证明了，你可以把这张地图无损地转化为每一个路口的具体路标（ARM），只要你按照路标走，最终走出的路径就等同于地图规划的最优路径。

这个转换的数学表达涉及到了强化学习中的核心概念——软贝尔曼方程（Soft Bellman Equation）。

具体来说，ARM 在预测下一个 token $y_t$ 时，其输出的 logits $q(s_t, y_t)$ 实际上包含了由两部分组成的信息：

当前的即时奖励 $r(s_t, y_t)$。
对未来的预期价值 $V_q(s_t \oplus y_t)$。

公式如下：

\[q(s_t, y_t) = r(s_t, y_t) + V_q(s_t \oplus y_t)\]

这里的 $V_q$ 被称为软价值函数（Soft Value Function），它本质上是一个 Log-Sum-Exp (LSE) 操作，代表了从当前状态出发，未来所有可能路径的“概率总和”的对数。

这意味着什么？

这意味着，一个训练完美的自回归模型，当它在预测下一个词时，它不仅仅是在看“下一个词像什么”，而是在计算“如果我选了这个词，未来整个句子的总能量（质量）会是多少”。ARM 通过学习这个 $V_q$ 函数，隐式地学会了向后看（Lookahead）。

为什么说 Teacher Forcing 是最优解？

我们在训练 LLM 时，通常使用 Teacher Forcing（即在训练时强制输入真实的上一时刻 token，而不是模型生成的 token）。这种做法常被诟病会导致训练和推理的不匹配（Exposure Bias）。

然而，基于上述的 ARM-EBM 等价性，论文推导出了一个惊人的结论：监督学习下的 ARM 训练，完全等价于 EBM 的训练。

当我们最小化 ARM 的负对数似然损失（NLL）时，我们实际上是在通过 Teacher Forcing 蒸馏一个最优的 EBM。这从理论上证明了，尽管 Teacher Forcing 看起来简单粗暴，但它在函数空间上确实是在寻找最优解。

RLHF 的本质：从 EBM 到 ARM 的蒸馏

目前的 LLM 训练流程通常包含“预训练 -> SFT -> RLHF”。这篇论文为 RLHF（基于人类反馈的强化学习）提供了一个非常清晰的视角。

在 RLHF 阶段，我们通常希望最大化奖励 $R$ 同时保持与参考模型的 KL 散度约束（即 MaxEnt RL 框架）。论文指出，MaxEnt RL 的最优解本质上就是一个 EBM。

但是，直接在推理时使用这个 EBM 是不现实的（太慢了）。所以我们实际上做的是：

定义一个理想的 EBM（由奖励模型定义）。
训练一个 ARM（我们的策略模型 Policy）去逼近这个 EBM。

这个过程就是将 EBM 蒸馏为 ARM 的过程。DeepMind 进一步给出了理论误差界限，证明了 ARM 确实可以有效地逼近 EBM 的分布。

总结与启示

这篇论文用优雅的数学语言，化解了“短视的预测”与“全局的规划”之间的矛盾。

统一视角：自回归模型（ARM）和能量模型（EBM）是一体两面。ARM 是 EBM 在时序分解下的表现形式。
潜藏的规划能力：Next-Token Prediction 不仅仅是简单的模式匹配。只要模型容量足够大，它就能学到包含未来信息的“软价值函数”，从而在每一步预测中实现“深谋远虑”。
算法自信：这为我们目前使用的主流训练范式（Teacher Forcing, RLHF）提供了强有力的理论背书。

下次当你看到 GPT 生成了一个精妙绝伦的长回复时，请记住：它不仅仅是在猜下一个字，它是在每一步都权衡了无数种未来的可能性，并选择了能量最高的那条世界线。