The Art of Scaling Reinforcement Learning Compute for LLMs


TL;DR

本文通过大规模系统性研究,首次为大语言模型(LLMs)的强化学习(RL)训练提出了一个可预测的规模化框架,并基于此提出了一套名为 \(ScaleRL\) 的最佳实践方法,旨在将RL训练的规模化从“艺术”转变为可预测的“科学”。

关键定义

本文的核心是建立一个用于预测RL性能的框架,其关键是使用S型(sigmoidal)函数来拟合计算量与性能之间的关系。

图片:S型曲线参数解释

相关工作

本文方法

本文的方法论核心分为两部分:首先,通过大规模实证研究,识别出影响RL规模化效率和性能上限的关键设计选择;其次,基于这些发现,整合出一套名为\(ScaleRL\)的最佳实践配方。

大规模实证研究

本文在8B参数规模的模型上进行了超过400,000 GPU小时的实验,系统性地研究了多种设计选择对S型扩展曲线中渐近性能 $A$ 和计算效率 $B$ 的影响。

图片:流行的RL方法

异步RL设置

本文首先对比了两种主流的异步离策略(off-policy)RL设置:

实验表明,\(PipelineRL\) 在不牺牲渐近性能 $A$ 的前提下,显著提升了计算效率 $B$。

图片:PipelineRL基础架构

算法选择

在\(PipelineRL-8\)的基础上,本文进一步探索了六个算法设计维度:

\(ScaleRL\):可预测规模化的RL配方

基于上述实证研究,本文整合出了 \(ScaleRL\) 配方。它并非一个全新的算法,而是现有最佳实践的集合。

\(ScaleRL\) 核心组件

\(ScaleRL\) 是一套异步RL配方,具体包括:

  1. 异步框架:\(PipelineRL-8\)。
  2. 长度控制:强制长度中断,通过在超长生成后附加特定短语来终止思考过程。
  3. 损失函数:CISPO损失,结合了REINFORCE和截断重要性采样。
  4. 损失聚合与归一化:提示级损失聚合与批次级优势归一化。
  5. 精度:在LoRA头使用FP32精度。
  6. 数据策略:零方差过滤和自适应提示过滤(移除通过率>0.9的提示)。

其损失函数 $\mathcal{J}_{\mathrm{\texttt}}(\theta)$ 定义为:

\[\mathcal{J}_{\mathrm{\texttt{{ScaleRL}}}}(\theta)=\hskip-6.99997pt\underset{\begin{subarray}{c}x\sim D,\\ \{y_{i}\}_{i=1}^{G}\sim\pi_{gen}^{\theta_{old}}(\cdot\mid x)\end{subarray}}{\mathbb{E}}\hskip-3.99994pt\left[\frac{1}{\sum_{g=1}^{G} \mid y_{g} \mid }\sum_{i=1}^{G}\sum_{t=1}^{ \mid y_{i} \mid }\texttt{sg}(\mathrm{min}(\rho_{i,t},\epsilon))\hat{A}_{i}^{\text{norm}}\,\log\pi_{train}^{\theta}(y_{i,t})\right],\]

其中 \(sg\) 是停止梯度函数,$\rho_{i,t}$ 是Token级重要性采样比率,$\hat{A}^{\mathrm{norm}}_{i}$ 是批次归一化后的优势。

图片:10万GPU小时规模的RL训练预测与实际表现

实验结论

本文通过一系列精心设计的实验,验证了其提出的规模化框架和 \(ScaleRL\) 配方的有效性。

关键实验发现

  1. 渐近天花板效应 (Asymptotic Ceilings):不同的RL方法在计算资源无限时,其性能会饱和于不同的上限 $A$。例如,更换损失函数类型(从DAPO到CISPO)能显著提高这个天花板。
  2. 交叉效应 (Crossover Effects):在低计算量下表现更优的方法,在高计算量下可能表现更差。本文的S型曲线框架能够通过早期训练数据拟合参数,从而预测长期扩展潜力,帮助研究者识别真正可扩展的方法。
  3. 效率与上限的分离: 许多常见的干预措施,如优势归一化、数据课程等,主要影响的是计算效率 $B$(即达到上限的速度),而对性能上限 $A$ 的影响不大。

\(ScaleRL\)的性能验证

图片:10万GPU小时规模化训练

图片:ScaleRL的留一法消融实验结果

最终结论

本文成功地为LLM的RL训练建立了一个严谨的科学框架,并提供了一套名为 \(ScaleRL\) 的实用配方。这项工作将RL训练的规模化从依赖直觉和昂贵试错的“艺术”,推向了类似于预训练阶段的可预测、可度量的“科学”,为未来高效评估和开发新的RL算法铺平了道路。