Understanding R1-Zero-Like Training: A Critical Perspective


TL;DR

本文通过剖析 R1-Zero 类训练,揭示了其基座模型与强化学习算法(GRPO)中存在的偏见,并提出了一种无偏的优化方法 Dr. GRPO,从而以更高效的方式提升了模型的数学推理能力。

关键定义

相关工作

当前,DeepSeek-R1-Zero 证明了直接对基座大模型进行大规模强化学习是一种有效且简洁的后训练方法,可以显著提升模型的推理能力,而无需监督微-调(SFT)。这种方法伴随着“RL 缩放现象”,即模型性能随响应长度的增加而提升,并涌现出“Aha 时刻”等自我反思能力。许多开源复现工作主要基于 Qwen2.5 系列模型。

然而,这一过程的内在机制尚不清晰。本文旨在深入探究并解决两个核心问题:

  1. 基座模型的影响:当前用于复现的基座模型(如 Qwen2.5)是否真的像宣称的那样是“纯粹的”基座模型?它们的预训练特性如何影响强化学习的效果?
  2. 强化学习算法的偏见:当前使用的强化学习算法(如 GRPO)是否存在优化偏见,从而人为地导致了某些现象(如响应长度不断增加)?

本文方法

本文从基座模型强化学习算法两个方面对 R1-Zero 类训练进行了批判性分析,并提出了一种名为 Dr. GRPO 的无偏见优化算法。

对基座模型的分析

研究发现,基座模型的预训练特性对 R1-Zero 类训练的结果有深远影响。

基座模型 + 模板 AIME24 AMC MATH500 Minerva OlympiadBench 平均值
Qwen2.5-Math-1.5B            
(4-shot prompting) 0.0 20.0 50.4 12.1 15.9 19.7
R1 template 0.0 9.6 21.2 6.6 2.2 7.9
Qwen template 20.0 32.5 33.0 12.5 22.8 24.2
无模板 16.7 43.4 61.8 15.1 28.4 33.1
Qwen2.5-Math-7B            
(4-shot prompting) 3.3 22.5 61.6 10.7 20.9 23.8
R1 template 0.0 0.0 0.0 0.0 0.1 0.0
Qwen template 16.7 38.6 50.6 9.9 16.6 26.5
无模板 0.2 45.8 69.0 21.3 34.7 38.2

Figure 4: Cases showing that DeepSeek-V3-Base already exhibits “Aha moment” even before RL tunning.

对强化学习算法的分析与 Dr. GRPO

本文对 GRPO 算法进行了深入分析,并指出了其固有的优化偏见。

创新点:识别 GRPO 的优化偏见

GRPO 的 PPO 风格目标函数为:

\[\mathcal{J}_{GRPO}(\pi_{\theta})=\mathbb{E}_{\mathbf{q}\sim p_{\mathcal{Q}},\{\mathbf{o}_i\}_{i=1}^{G}\sim\pi_{\theta_{old}}(\cdot \mid \mathbf{q}})} \frac{1}{G}\sum_{i=1}^{G}{\color[rgb]{1,0,0}\frac{1}{ \mid \mathbf{o}_i \mid }}\sum_{t=1}^{ \mid \mathbf{o}_i \mid }\left\{\dots\right\}\]

其优势函数(advantage)$\hat{A}_{i,t}$ 计算为:

\[\hat{A}_{i,t}=\frac{R(\mathbf{q},\mathbf{o}_i)-\operatorname{mean}({\{R(\mathbf{q},\mathbf{o}_1),\dots,R(\mathbf{q},\mathbf{o}_G)\}})}{{\color[rgb]{1,0,0}\operatorname{std}({\{R(\mathbf{q},\mathbf{o}_1),\dots,R(\mathbf{q},\mathbf{o}_G)\}})}}\]

本文指出,公式中红色部分引入了两种偏见:

  1. 响应级长度偏见 (Response-level length bias): 由损失函数中的 $$1/ o_i $$ 项引入。对于奖励为正的正确回答,该项会给予较短的回答更大的梯度更新,鼓励模型生成简短的正确答案。但对于奖励为负的错误回答,该项会减少对较长回答的惩罚,导致模型在犯错时倾向于生成越来越长的无效思考过程。
  2. 问题级难度偏见 (Question-level difficulty bias): 由优势函数中按问题(per-question)计算的 \(std(...)\) 分母引入。对于奖励方差很小的问题(即太容易或太难,导致模型回答几乎全对或全错),该项会给予过大的权重,而在中等难度问题上权重较小,从而扭曲了优化方向。

Figure 5: Illustration of the biases in GRPO.

Dr. GRPO: 无偏见的优化方法

为了解决上述偏见,本文提出了 Dr. GRPO。其核心改动非常简单:移除引入偏见的两项归一化,即去掉损失函数中的 \(1/|o_i|\) 和优势函数计算中的 \(std(...)\) 分母。

Figure 1: Left: Dr. GRPO introduces simple yet significant modifications to address the biases in GRPO, by removing the length and std normalization terms. Right: Our unbiased optimizer effectively prevents the model from generating progressively longer incorrect responses, thereby enhancing token efficiency.

优点

Dr. GRPO 作为一个无偏见的优化器,带来了显著的好处:

实验结论

本文通过一系列实验验证了其分析和方法的有效性。

Figure 6: Comparison of Dr. GRPO and GRPO in terms of training dynamics (Top) and evaluation results (Bottom).

Figure 7: The average benchmark accuracy of different {template, question set} combinations during RL training.

Figure 2: Model performance comparison.