DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning


TL;DR

本文通过大规模强化学习(无论是纯粹应用于基础模型还是结合少量冷启动数据),成功地激发并显著增强了大型语言模型的推理能力,推出了DeepSeek-R1系列模型,并验证了可以将这种高级推理能力通过蒸馏有效地迁移到更小的模型中。

关键定义

相关工作

当前,训练后(post-training)阶段已成为提升大型语言模型(LLM)能力的关键环节,尤其是在推理方面。领域内的前沿(SOTA)工作,如OpenAI的o1系列模型,通过在推理时增加思维链的长度,在数学、编码和科学推理等任务上取得了显著进展。然而,如何有效地实现测试时计算扩展(test-time scaling)对整个研究界来说仍是一个开放性问题。

现有的探索方向包括基于过程的奖励模型(process-based reward models)、强化学习以及蒙特卡洛树搜索(MCTS)等搜索算法。尽管这些方法取得了一定的成果,但尚未有任何一种方法能在通用推理性能上达到与OpenAI o1系列模型相媲美的水平。

本文旨在解决的核心问题是:能否仅通过纯粹的强化学习,而不依赖任何监督数据,来激发LLM的推理潜力,并使其达到或超越当前最先进的水平。同时,本文也探索如何通过一个更完善的流程来解决纯RL方法可能带来的可读性差、语言混杂等问题。

本文方法

本文的核心方法是利用大规模强化学习来提升LLM的推理能力。作者提出了两种具体的实现路径:DeepSeek-R1-Zero,一种纯粹的RL探索;以及DeepSeek-R1,一个更成熟和用户友好的多阶段训练流程。

DeepSeek-R1-Zero:在基础模型上进行强化学习

DeepSeek-R1-Zero旨在探索在没有任何监督数据的情况下,LLM通过纯粹的RL过程自我演化出推理能力的潜力。

创新点

该方法的核心创新在于直接将RL应用于基础模型(DeepSeek-V3-Base),绕过了传统的SFT预备步骤。它证明了推理能力可以作为一种“涌现”行为,通过奖励信号被激励出来,而非必须通过模仿人类标注的CoT数据来学习。

算法与奖励

\[\mathcal{J}_{GRPO}(\theta)=\mathbb{E}_{[q\sim P(Q),\{o_{i}\}_{i=1}^{G}\sim\pi_{\theta_{old}}(O \mid q)]} \\ \frac{1}{G}\sum_{i=1}^{G}\left(\min\left(\frac{\pi_{\theta}(o_{i} \mid q)}{\pi_{\theta_{old}}(o_{i} \mid q)}A_{i},\text{clip}\left(\frac{\pi_{\theta}(o_{i} \mid q)}{\pi_{\theta_{old}}(o_{i} \mid q)},1-\varepsilon,1+\varepsilon\right)A_{i}\right)-\beta\mathbb{D}_{KL}\left(\pi_{\theta} \mid \mid \pi_{ref}\right)\right),\]

其中优势$A_i$由组内奖励计算得出:

\[A_{i}=\frac{r_{i}-{\mathrm{mean}(\{r_{1},r_{2},\cdots,r_{G}\})}}{{\mathrm{std}(\{r_{1},r_{2},\cdots,r_{G}\})}}.\]

涌现与不足

训练过程中,DeepSeek-R1-Zero自发地学会了通过增加思考时间(生成更长的CoT)来解决复杂问题,并涌现出如自我反思、探索不同解题路径等高级行为,甚至出现了类似“啊哈时刻(aha moment)”的自我修正。

DeepSeek-R1-Zero在训练过程中平均响应长度的变化

然而,这种纯粹RL训练出的模型存在可读性差、中英文混杂等问题,不适合直接面向用户。

DeepSeek-R1-Zero中间版本的“啊哈时刻”示例
问题: 如果 $a>1$,那么 $\sqrt{a-\sqrt{a+x}}=x$ 的实数解之和等于
响应:
要解方程 $\sqrt{a-\sqrt{a+x}}=x$,我们先两边平方……
$\left(\sqrt{a-\sqrt{a+x}}\right)^{2}=x^{2}\implies a-\sqrt{a+x}=x^{2}.$
重新整理以分离内部的平方根项:
$(a-x^{2})^{2}=a+x\implies a^{2}-2ax^{2}+(x^{2})^{2}=a+x\implies x^{4}-2ax^{2}-x+(a^{2}-a)=0$
……
等等,等等。等等。这里有个我可以标记的啊哈时刻。
让我们逐步重新评估,以确定正确的和是否可以为……
我们从这个方程开始:
$\sqrt{a-\sqrt{a+x}}=x$
首先,让我们两边平方:
$a-\sqrt{a+x}=x^{2}\implies\sqrt{a+x}=a-x^{2}$
接下来,我可以再次对两边进行平方,处理这个方程:……
……

DeepSeek-R1:带冷启动的强化学习

为了解决DeepSeek-R1-Zero的不足,并进一步提升性能,本文设计了一个包含四个阶段的精细化训练流程来构建DeepSeek-R1。

流程与创新

  1. 阶段一:冷启动 (Cold Start) 在RL开始前,先用数千条高质量、人类友好的长CoT数据对基础模型进行SFT。这些数据通过精心设计,确保了输出格式的可读性,并为模型后续的RL探索提供了有利的起点。

  2. 阶段二:面向推理的强化学习 (Reasoning-oriented RL) 在冷启动模型的基础上,应用与R1-Zero相同的GRPO算法进行RL训练。此阶段专注于提升编码、数学、科学等推理能力。为解决语言混杂问题,额外引入了一个语言一致性奖励,鼓励模型在CoT中使用目标语言。

  3. 阶段三:拒绝采样与监督微调 (Rejection Sampling and SFT) 当RL收敛后,使用该阶段的模型通过拒绝采样(只保留正确答案的生成轨迹)来收集约60万条高质量的推理数据。同时,结合了约20万条来自DeepSeek-V3的非推理数据(如写作、事实问答等)来增强模型的通用能力。最后,使用这约80万条的混合数据对原始的基础模型(DeepSeek-V3-Base)进行新一轮的SFT。

  4. 阶段四:全场景强化学习 (RL for all Scenarios) 为了进一步对齐人类偏好,对上一阶段微调后的模型进行第二轮RL。此阶段结合了规则奖励(用于推理任务)和神经奖励模型(用于评估通用任务的有用性和无害性),旨在同时优化模型的推理、有用性和安全性。

蒸馏:赋予小模型推理能力

为了让更高效的小型模型也能具备强大的推理能力,本文采用了一种直接的蒸馏方法。

实验结论

实验结果有力地证实了本文方法的有效性。

DeepSeek-R1的基准测试性能

关键结果

模型 AIME 2024   MATH-500 GPQA LiveCode CodeForces
  pass@1 cons@64 pass@1 Diamond pass@1 Bench pass@1 rating
OpenAI-o1-mini 63.6 80.0 90.0 60.0 53.8 1820
OpenAI-o1-0912 74.4 83.3 94.8 77.3 63.4 1843
DeepSeek-R1-Zero 71.0 86.7 95.9 73.3 50.0 1444
模型 AIME 2024   MATH-500 GPQA Diamond LiveCodeBench
  pass@1 cons@64 pass@1 pass@1 pass@1
QwQ-32B-Preview 50.0 60.0 90.6 54.5 41.9
DeepSeek-R1-Zero-Qwen-32B 47.0 60.0 91.6 55.0 40.2
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2

存在不足

最终结论

本文成功证明了通过大规模强化学习可以有效激发和提升LLM的推理能力。DeepSeek-R1的多阶段管线不仅实现了与业界顶尖模型相媲美的推理性能,而且兼顾了输出的可读性和通用性。更重要的是,研究发现通过蒸馏,可以将这种来之不易的推理能力高效地赋予各种规模的开源模型,为整个社区的发展提供了宝贵的资源和途径。