$ΔL$ Normalization: Rethink Loss Aggregation in RLVR


TL;DR

本文提出了一种名为 $ΔL$ 的新型损失聚合方法,通过构建一个无偏且方差最小的策略梯度估计器,有效解决了在带可验证奖励的强化学习(RLVR)中因响应长度变化巨大导致的高梯度方差和训练不稳定问题。

关键定义

本文的核心论述建立在对现有方法的统一分析和统计学优化之上,关键定义如下:

相关工作

当前,带可验证奖励的强化学习(RLVR)在提升大语言模型推理能力方面取得了显著进展。然而,RLVR 训练面临一个独特的挑战:模型生成的响应轨迹在长度上差异巨大,从几十到几千个 token 不等,且长度通常随训练进行而增长。这种长度的剧烈变化会导致梯度方差过高,进而造成训练不稳定甚至模型性能崩溃。

为了解决这个问题,现有工作提出了不同的损失聚合(即梯度聚合)策略:

尽管这些方法在经验上取得了一定的效果,但缺乏系统的理论分析。本文通过分析发现,GRPO 和 DAPO 引入了与长度相关的偏见(Bias),导致训练后期收敛速度减慢;同时,DAPO 和 Dr. GRPO 会产生较高的梯度方差(具体为高变异系数 CV),导致训练过程不稳定。

因此,本文旨在解决的核心问题是:如何设计一种损失聚合方法,使其既能提供对真实策略梯度的无偏估计,又能从理论上最小化梯度方差,从而实现稳定高效的 RLVR 训练?

本文方法

理论分析与问题重构

本文首先从一个统一的视角重新审视了现有的损失聚合方法。所有方法都可以看作是对一系列无范数化样本级梯度 ${\mathbf{g}_i}_{i=1}^G$ 的线性组合。

核心观察:梯度方差与响应长度成正比

通过理论推导和经验验证,本文确认了一个关键的统计特性:单个样本的梯度方差与其响应长度成正比,即 $\mathrm{Var}(\mathbf{g}_i) \approx V \cdot L_i$,其中 $V$ 是一个常数。这意味着更长的响应会自然地引入更大的梯度噪声,这是导致训练不稳定的根源。

梯度方差与长度关系 上图显示,样本梯度与其期望梯度的偏差平方(即方差的体现)随着响应长度的增加而线性增长。

现有方法的偏见-方差剖析

基于上述观察,本文对现有方法进行了偏见-方差分析,总结如下表:

方法 $E(\mathbf{g})$ (期望) $\mathrm{Var}(\mathbf{g})$ (方差) $\mathrm{CV}(\mathbf{g})$ (变异系数)
GRPO $\left(\tfrac{1}{G}\sum_{i=1}^{G}\tfrac{1}{L_{i}}\right)\nabla_{\theta}J(\theta)$ $\tfrac{V}{G^{2}}\sum_{i=1}^{G}\tfrac{1}{L_{i}}$ $\left({\sqrt{\sum_{i=1}^{G}\tfrac{1}{L_{i}}}}\right)^{-1}\cdot\tfrac{\sqrt{V}}{\ \mid \nabla_{\theta}J(\theta)\ \mid }$ $\downarrow$ 低
DAPO $\left(\tfrac{G}{\sum_{i=1}^{G}L_{i}}\right)\nabla_{\theta}J(\theta)$ $\tfrac{V}{\sum_{i=1}^{G}L_{i}}$ $\tfrac{\sqrt{\sum_{i=1}^{G}L_{i}}}{G}\cdot\tfrac{\sqrt{V}}{\ \mid \nabla_{\theta}J(\theta)\ \mid }$ $\uparrow$ 高
Dr. GRPO $\tfrac{1}{M}\nabla_{\theta}J(\theta)$ $\tfrac{V\sum_{i=1}^{G}L_{i}}{G^{2}M^{2}}$ $\tfrac{\sqrt{\sum_{i=1}^{G}L_{i}}}{G}\cdot\tfrac{\sqrt{V}}{\ \mid \nabla_{\theta}J(\theta)\ \mid }$ $\uparrow$ 高
Ours ($ΔL$) $\tfrac{1}{M}\nabla_{\theta}J(\theta)$ $\tfrac{V}{M^{2}\sum_{i=1}^{G}\tfrac{1}{L_{i}}}$ $\left({\sqrt{\sum_{i=1}^{G}\tfrac{1}{L_{i}}}}\right)^{-1}\cdot\tfrac{\sqrt{V}}{\ \mid \nabla_{\theta}J(\theta)\ \mid }$ $\downarrow$ 低

此分析揭示了:

  1. GRPO 和 DAPO 是有偏的:其梯度期望受变化的 $L_i$ 影响,随着训练中响应变长,梯度范数会缩小,拖慢收敛。
  2. DAPO 和 Dr. GRPO 具有高变异系数(CV):这意味着它们的梯度更新信噪比较低,更容易产生不稳定的优化。

$ΔL$:无偏最小方差估计器

为了同时解决偏见和高方差问题,本文将损失聚合问题重构成一个经典的统计优化问题:寻找最佳线性无偏估计器(Best Linear Unbiased Estimator)

具体地,任务是寻找一组系数 ${x_i}$,构造聚合梯度 $\hat{\mathbf{g}} = \sum_{i=1}^{G} x_i \mathbf{g}_i$,使其满足:

  1. 无偏性: $\mathbb{E}[\hat{\mathbf{g}}]$ 与真实梯度 $\nabla_{\theta}J(\theta)$ 成一个固定比例,即 $\sum_{i=1}^{G} x_i = \text{const}$。
  2. 最小方差: $\mathrm{Var}[\hat{\mathbf{g}}]$ 达到最小。

利用拉格朗日乘子法求解该约束优化问题,得到最优权重 $x_i^{\star}$ 应与 $\frac{1}{\mathrm{Var}(\mathbf{g}_i)}$ 成正比。考虑到 $\mathrm{Var}(\mathbf{g}_i) \propto L_i$,则最优权重 $x_i^{\star} \propto \frac{1}{L_i}$。

创新点

本文提出的 $ΔL$ 方法正是基于此原理,并引入超参数 $\alpha$ 来提供灵活性。其聚合权重的计算方式为:

\[x_{i}=\frac{1}{M}\frac{L_{i}^{-\alpha}}{\sum_{j=1}^{G}L_{j}^{-\alpha}}, \quad i=1,\dots,G\]

其中 $M$ 是一个固定缩放常数。

优点

实验结论

本文在 CountDown 和 Math 两个任务上,使用 Qwen2.5-3B 和 Qwen2.5-7B 模型进行了广泛实验。

训练动态对比 上图展示了在不同任务、模型和最大长度设置下,$ΔL$ 与基线方法的训练动态对比。$ΔL$ 普遍实现了更稳定的训练和更高的收敛精度。

关键实验结果

不同场景下的表现

最终结论

$ΔL$ 方法被证明是一种非常有效的损失聚合策略。它通过在理论上保证无偏性最小化方差,成功解决了 RLVR 训练中的核心痛点,带来了更稳定、高效的训练过程和更强的模型性能。