破解AI智能体训练“死亡螺旋”：LLDS让Qwen2.5性能大涨37.8%

当AI智能体（Agent）学会使用搜索引擎等外部工具时，它们解决复杂问题的能力将发生质的飞跃。然而，一条“捷径”式的训练方法——组相对策略优化（Group Relative Policy Optimization, GRPO）却隐藏着一个致命缺陷：模型在训练中常常毫无征兆地“突然死亡”，性能一落千丈。

ArXiv URL：http://arxiv.org/abs/2512.04220v1

这究竟是为什么？最近，来自UBC、UC Berkeley等顶尖机构的研究者们，终于揪出了导致这场“悲剧”的幕后黑手，并提出了一种极其简单有效的“解药”，不仅稳定了训练过程，还让Qwen2.5系列模型在多项问答任务上性能飙升，最高提升达37.8%！

AI智能体的“阿喀琉斯之踵”：GRPO与训练崩溃

让大模型学会使用工具，强化学习（RL）是一条必经之路。

GRPO因其收敛快、无需价值函数等优点，在工具集成强化学习（Tool-Integrated Reinforcement Learning, TIRL）领域备受青睐，知名工作Search-R1就采用了该方法。

然而，美好的表象下是残酷的现实。

研究人员发现，使用GRPO训练的智能体，尤其是在需要多轮工具交互的复杂任务中，经常会遭遇灾难性的训练崩溃。

模型奖励值会突然断崖式下跌，仿佛一夜之间忘记了所有技能。

尽管人们早已观察到这一现象，但其背后的根本原因一直是个谜。

揭开谜底：懒惰似然位移与“死亡螺旋”

这篇研究首次系统性地指出了问题的根源：懒惰似然位移（Lazy Likelihood Displacement, LLD）。

这是一个听起来有点拗口，但现象却非常直观的概念。

简单来说，就是在GRPO的优化过程中，模型对正确答案和错误答案的“信心”（即生成概率的似然值）都出现了停滞甚至系统性下降。

整个过程可以分为三个触目惊心的阶段：

早期停滞：训练初期，尽管任务奖励在上升，但正确答案的似然值却原地踏步。
稳定衰减：随着训练进行，似然值开始单调下降，危险信号已经出现。
加速崩溃：似然值急剧下跌，导致梯度爆炸，最终引发奖励雪崩。

研究者将这个自我强化的恶性循环命名为LLD死亡螺旋（LLD Death Spiral）：

似然下降 ➡️ 模型信心不足 ➡️ 来自低似然错误答案的负梯度被放大 ➡️ 进一步扼杀正确答案的似然 ➡️ 梯度爆炸 ➡️ 彻底崩溃！

如下图所示，在崩溃前夕，模型的熵（不确定性）会急剧飙升，这正是LLD问题恶化的一个明确信号。

精准“手术”：轻量级正则化方法LLDS

找到了病因，如何对症下药？研究者提出了一种名为LLDS（Likelihood-Preserving Regularization）的轻量级似然保持正则化方法。

LLDS的设计堪称“外科手术”般的精准与优雅。

它只在必要的时候、对必要的部分进行干预，其核心是两层巧妙的选择机制：

响应级门控：只在一个轨迹（response）的整体似然值下降时，正则化项才会被激活。
令牌级选择性：激活后，只惩罚那些导致似然下降的特定Token。

用公式表达其核心思想如下：

\[L\_{\rm LLDS} = \mathbf{1}\!\left[\Delta\_{\text{total}} > 0\right] \cdot \sum\_{y\_{i}\in\mathbf{y}} \max\left(0, \Delta\_{y_i}\right)\]

其中$ \mathbf{1}[\cdot] $是响应级门控，只有当整个响应的似然下降时（$\Delta_{\text{total}} > 0$）才生效。而$ \max(0, \cdot) $则保证只对似然下降的Token（$\Delta_{y_i} > 0$）施加惩罚。

这种“点到为止”的设计，既能有效阻止似然值的无故下滑，又最大限度地减少了对GRPO正常优化的干扰。

效果惊人：全面稳定与性能飞跃

LLDS的效果立竿见影。

研究者在Qwen2.5-3B和7B的Base与Instruct版本上进行了实验。结果显示，原生的GRPO训练无一例外地在300步内崩溃。

而加入了LLDS之后，所有模型的训练都变得异常稳定，奖励持续攀升，成功摆脱了“死亡螺旋”的宿命。

更重要的是，稳定的训练带来了实打实的性能提升。

在覆盖通用问答和多跳问答的7个基准测试中，LLDS方法取得了全面胜利。

在Qwen2.5-3B模型上，性能平均提升+37.8%。
在Qwen2.5-7B模型上，性能平均提升+32.0%。

这些数据雄辩地证明，LLDS不仅是GRPO的“救星”，更是释放其潜力的“催化剂”。

结语

这项研究不仅为我们揭示了GRPO在工具集成场景下频繁崩溃的深层原因——懒惰似然位移（LLD），还提供了一个即插即用、效果显著的解决方案LLDS。

它也给所有AI研究者和工程师带来了一个重要的启示：在训练AI智能体时，别只盯着奖励曲线！

似然值的动态变化是更早、更可靠的“健康晴雨表”。通过监控并维持似然值的稳定，我们才能构建出更强大、更可靠的AI智能体，让它们在通往通用人工智能的道路上行稳致远。