破解AI智能体训练“死亡螺旋”:LLDS让Qwen2.5性能大涨37.8%

当AI智能体(Agent)学会使用搜索引擎等外部工具时,它们解决复杂问题的能力将发生质的飞跃。然而,一条“捷径”式的训练方法——组相对策略优化Group Relative Policy Optimization, GRPO)却隐藏着一个致命缺陷:模型在训练中常常毫无征兆地“突然死亡”,性能一落千丈。

ArXiv URL:http://arxiv.org/abs/2512.04220v1

这究竟是为什么?最近,来自UBC、UC Berkeley等顶尖机构的研究者们,终于揪出了导致这场“悲剧”的幕后黑手,并提出了一种极其简单有效的“解药”,不仅稳定了训练过程,还让Qwen2.5系列模型在多项问答任务上性能飙升,最高提升达37.8%

Qwen2.5-7B模型性能对比

AI智能体的“阿喀琉斯之踵”:GRPO与训练崩溃

让大模型学会使用工具,强化学习(RL)是一条必经之路。

GRPO因其收敛快、无需价值函数等优点,在工具集成强化学习Tool-Integrated Reinforcement Learning, TIRL)领域备受青睐,知名工作Search-R1就采用了该方法。

然而,美好的表象下是残酷的现实。

研究人员发现,使用GRPO训练的智能体,尤其是在需要多轮工具交互的复杂任务中,经常会遭遇灾难性的训练崩溃。

模型奖励值会突然断崖式下跌,仿佛一夜之间忘记了所有技能。

尽管人们早已观察到这一现象,但其背后的根本原因一直是个谜。

揭开谜底:懒惰似然位移与“死亡螺旋”

这篇研究首次系统性地指出了问题的根源:懒惰似然位移Lazy Likelihood Displacement, LLD)。

这是一个听起来有点拗口,但现象却非常直观的概念。

简单来说,就是在GRPO的优化过程中,模型对正确答案和错误答案的“信心”(即生成概率的似然值)都出现了停滞甚至系统性下降。

整个过程可以分为三个触目惊心的阶段:

  1. 早期停滞:训练初期,尽管任务奖励在上升,但正确答案的似然值却原地踏步。

  2. 稳定衰减:随着训练进行,似然值开始单调下降,危险信号已经出现。

  3. 加速崩溃:似然值急剧下跌,导致梯度爆炸,最终引发奖励雪崩。

似然位移动态过程

研究者将这个自我强化的恶性循环命名为LLD死亡螺旋LLD Death Spiral):

似然下降 ➡️ 模型信心不足 ➡️ 来自低似然错误答案的负梯度被放大 ➡️ 进一步扼杀正确答案的似然 ➡️ 梯度爆炸 ➡️ 彻底崩溃!

如下图所示,在崩溃前夕,模型的熵(不确定性)会急剧飙升,这正是LLD问题恶化的一个明确信号。

训练过程中的熵变化

精准“手术”:轻量级正则化方法LLDS

找到了病因,如何对症下药?研究者提出了一种名为LLDS(Likelihood-Preserving Regularization)的轻量级似然保持正则化方法。

LLDS的设计堪称“外科手术”般的精准与优雅。

它只在必要的时候、对必要的部分进行干预,其核心是两层巧妙的选择机制:

用公式表达其核心思想如下:

\[L\_{\rm LLDS} = \mathbf{1}\!\left[\Delta\_{\text{total}} > 0\right] \cdot \sum\_{y\_{i}\in\mathbf{y}} \max\left(0, \Delta\_{y_i}\right)\]

其中$ \mathbf{1}[\cdot] $是响应级门控,只有当整个响应的似然下降时($\Delta_{\text{total}} > 0$)才生效。而$ \max(0, \cdot) $则保证只对似然下降的Token($\Delta_{y_i} > 0$)施加惩罚。

这种“点到为止”的设计,既能有效阻止似然值的无故下滑,又最大限度地减少了对GRPO正常优化的干扰。

效果惊人:全面稳定与性能飞跃

LLDS的效果立竿见影。

研究者在Qwen2.5-3B和7B的Base与Instruct版本上进行了实验。结果显示,原生的GRPO训练无一例外地在300步内崩溃。

而加入了LLDS之后,所有模型的训练都变得异常稳定,奖励持续攀升,成功摆脱了“死亡螺旋”的宿命。

不同模型上GRPO与GRPO+LLDS的训练奖励对比

更重要的是,稳定的训练带来了实打实的性能提升。

在覆盖通用问答和多跳问答的7个基准测试中,LLDS方法取得了全面胜利。

这些数据雄辩地证明,LLDS不仅是GRPO的“救星”,更是释放其潜力的“催化剂”。

结语

这项研究不仅为我们揭示了GRPO在工具集成场景下频繁崩溃的深层原因——懒惰似然位移LLD),还提供了一个即插即用、效果显著的解决方案LLDS。

它也给所有AI研究者和工程师带来了一个重要的启示:在训练AI智能体时,别只盯着奖励曲线!

似然值的动态变化是更早、更可靠的“健康晴雨表”。通过监控并维持似然值的稳定,我们才能构建出更强大、更可靠的AI智能体,让它们在通往通用人工智能的道路上行稳致远。