GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

GRPO多奖励训练“失效”?GDPO解耦归一化:AIME准确率提升6.3%

随着 DeepSeek-R1 等模型的爆火,组相对策略优化Group Relative Policy Optimization, GRPO)几乎成了强化学习(RL)微调的标配。大家都在用它来提升模型的推理能力。

ArXiv URL:http://arxiv.org/abs/2601.05242v1

但是,当你的需求不再单一,而是希望模型“既要准确,又要简练,还要格式规范”时,直接套用 GRPO 真的没问题吗?

来自香港科技大学和 NVIDIA 的研究团队给出了否定的答案。他们发现,在多奖励(Multi-reward)场景下,GRPO 存在一个严重的“奖励崩塌”Reward Collapse)问题,可能导致训练失败。为此,他们提出了一种新的优化方法——GDPO,通过简单的“解耦归一化”策略,不仅解决了崩塌问题,还在数学推理任务(AIME)上带来了高达 6.3% 的准确率提升。

为什么 GRPO 在多奖励场景下会“崩塌”?

在实际应用中,我们往往希望模型同时满足多个目标。例如在“工具调用”任务中,我们既希望模型选对工具(准确性奖励),又希望它输出的 JSON 格式严丝合缝(格式奖励)。

通常的做法是将这些奖励加权求和,然后扔给 GRPO 去优化。然而,研究人员发现,这种“先求和、再归一化”的粗暴做法,会丢失大量信息。

让我们看一个直观的例子:

假设有两个奖励 $r_1$ 和 $r_2$。

在 GRPO 的机制下,它会先计算总奖励 $r_{\text{sum}}$,然后在组内计算优势(Advantage)。问题在于,不同的奖励组合(比如“高+低”和“中+中”)可能加起来的总分是一样的。

一旦总分一样,GRPO 归一化后的“优势值”就变得一模一样。这就导致模型无法区分“偏科”和“平庸”,训练信号的分辨率大幅下降。论文将这种现象称为奖励崩塌。这不仅导致收敛次优,严重时甚至会让训练直接失败。

GDPO:简单即是美,解耦归一化

为了解决这个问题,论文提出了 GDPOGroup reward-Decoupled Normalization Policy Optimization)。

GDPO 的核心思想非常直观:先各算各的账,最后再汇总。

与 GRPO 直接对“总分”进行归一化不同,GDPO 将归一化过程解耦了:

  1. 独立归一化:对于每一个单独的奖励信号(如准确性、格式、长度),先分别在组内进行归一化,计算出各自的优势 $A_1, A_2, \dots, A_n$。

  2. 求和:将这些归一化后的优势值相加,得到总优势 $A_{\text{sum}}$。

  3. 二次归一化:为了保证数值稳定性,最后再进行一次 Batch 级别的归一化。

Refer to caption

(a) GDPO 概览:对每个奖励单独进行组内归一化,保留了不同奖励分量的相对差异。

通过这种方式,GDPO 能够敏锐地捕捉到不同奖励分量的相对变化。即使两个样本的总分相同,如果它们的得分构成不同,GDPO 也能给出不同的梯度信号,从而引导模型走向更精细的优化方向。

实验验证:全面超越 GRPO

研究团队在工具调用、数学推理和代码推理三个截然不同的任务上对比了 GDPO 和 GRPO。

1. 工具调用(Tool Calling):格式与准确率双丰收

在工具调用任务中,模型需要同时优化“准确率”和“格式正确性”。

实验结果显示,使用 Qwen2.5-1.5B 模型时,GDPO 在 BFCL-v3 基准测试上的平均准确率比 GRPO 提升了约 2.7%,格式正确率提升了超过 4%

Refer to caption

(b) 奖励趋势对比:GDPO(蓝色)在正确性和格式奖励上都比 GRPO(橙色)收敛得更好、更高。

2. 数学推理(Math Reasoning):既聪明又高效

这是目前最受关注的领域。研究者在 DeepScaleR-Preview 数据集上训练了 DeepSeek-R1-1.5B/7B 和 Qwen3-4B。目标是:提高解题准确率,同时限制回复长度(越简练越好)。

这是一个典型的“既要又要”的冲突场景。结果令人印象深刻:

这说明 GDPO 不仅能让模型更聪明,还能更听话地遵守长度约束,实现了准确率与效率的完美平衡。

3. 代码推理(Coding):三目标优化

在更复杂的代码生成任务中,研究者引入了三个奖励:通过率(Pass)、长度约束(Length)和 Bug 率(Bug Ratio)。

即使面对三个目标的复杂权衡,GDPO 依然稳稳胜出,在保持高 Pass 率的同时,显著降低了 Bug 率和代码长度。

总结与启示

这篇论文给当前火热的 RL 微调泼了一盆清醒的冷水,也送来了一剂良药。它提醒我们:当我们在 RL 中引入多个奖励信号时,不要盲目照搬 GRPO。

GDPO 的成功证明了,在多目标优化中,保留每个目标的独立统计特性是至关重要的。如果你正在尝试复现 DeepSeek-R1 的效果,或者在做涉及多维度偏好对齐(如安全性+有用性)的 RLHF,GDPO 绝对是一个值得尝试的、更稳健的替代方案。

核心技术点回顾: