The Art of Scaling Reinforcement Learning Compute for LLMs

ArXiv URL: http://arxiv.org/abs/2510.13786v1
作者: David Brandfonbrener; Sai Surya Duvvuri; Lovish Madaan; Rishabh Tiwari; Inderjit S. Dhillon; Devvrit Khatri; Rachit Bansal; Rishabh Agarwal
发布机构: Harvard University; Meta; Periodic Labs; UCL; University of California, Berkeley; University of Texas at Austin

TL;DR

本文通过大规模系统性研究，首次为大语言模型（LLMs）的强化学习（RL）训练提出了一个可预测的规模化框架，并基于此提出了一套名为 $ScaleRL$ 的最佳实践方法，旨在将RL训练的规模化从“艺术”转变为可预测的“科学”。

关键定义

本文的核心是建立一个用于预测RL性能的框架，其关键是使用S型（sigmoidal）函数来拟合计算量与性能之间的关系。

计算-性能S型曲线 (Sigmoidal Compute-Performance Curve)：本文提出使用以下S型函数来建模在独立同分布（iid）验证集上的预期奖励 $R_C$ 与训练计算量 $C$ 之间的关系：
\[R_{C}-R_{0}=(A-R_{0}) \times \frac{1}{1+(C_{\text{mid}}/C)^{B}}\]
其中：
- $A$：渐近性能 (Asymptotic Performance)，表示在计算量趋于无穷大时模型可以达到的最高性能（或通过率）上限。
- $B$：缩放指数 (Scaling Exponent)，决定了性能曲线的陡峭程度，代表了计算效率。$B$ 值越大，达到性能上限所需计算量越少。
- $C_{\text{mid}}$：计算中点 (Compute Midpoint)，代表达到一半渐近奖励增益时所需的计算量，与计算效率 $B$ 共同决定了学习速度。
- $R_0$：初始奖励。

图片：S型曲线参数解释

本文方法

本文的方法论核心分为两部分：首先，通过大规模实证研究，识别出影响RL规模化效率和性能上限的关键设计选择；其次，基于这些发现，整合出一套名为$ScaleRL$的最佳实践配方。

大规模实证研究

本文在8B参数规模的模型上进行了超过400,000 GPU小时的实验，系统性地研究了多种设计选择对S型扩展曲线中渐近性能 $A$ 和计算效率 $B$ 的影响。

图片：流行的RL方法

异步RL设置

本文首先对比了两种主流的异步离策略（off-policy）RL设置：

PPO-off-policy-$k$：生成器（generators）为一批提示生成轨迹，然后训练器（trainers）对这批数据进行 $k$ 次梯度更新。
PipelineRL-$k$：生成器以流式方式持续生成轨迹，训练器完成一次更新后立即将新参数推送给生成器。这减少了训练过程中的空闲时间。

实验表明，$PipelineRL$ 在不牺牲渐近性能 $A$ 的前提下，显著提升了计算效率 $B$。

图片：PipelineRL基础架构

算法选择

在$PipelineRL-8$的基础上，本文进一步探索了六个算法设计维度：

损失函数类型 (Loss Type)：对比了DAPO、GSPO和CISPO。实验发现，CISPO（截断重要性采样的普通策略梯度）和GSPO（序列级重要性采样）显著优于DAPO，能够达到更高的渐近性能 $A$。CISPO在训练后期表现略好。
LoRA头的FP32精度 (FP32 Precision for LLM logits)：由于生成器和训练器使用不同计算核心，会导致数值不匹配，影响重要性采样（IS）比率的计算。在模型的LoRA头使用FP32精度进行计算，可以显著缓解此问题，将渐近性能 $A$ 从0.52提升至0.61。
损失聚合 (Loss Aggregation)：对比了样本平均、提示平均和Token平均三种方式。发现“提示平均”（每个prompt贡献相同的权重）能达到最高的渐近性能。
优势归一化 (Advantage Normalization)：对比了提示级、批次级和无归一化三种方式。发现三者性能相似，“批次级归一化”在理论上更稳健且表现略好。
零方差过滤 (Zero-Variance Filtering)：对于那些所有生成结果奖励都相同的“零方差”提示，它们不产生有效梯度信号。实验证明，在计算损失时过滤掉这些提示，可以提升渐近性能。
自适应提示过滤 (Adaptive Prompt Filtering)：作为一种数据课程（data curriculum）策略，对于那些通过率已经很高的“简单”提示（例如通过率 > 0.9），将其从后续训练中永久移除。这能更好地利用计算资源，提升扩展性。

$ScaleRL$：可预测规模化的RL配方

基于上述实证研究，本文整合出了 $ScaleRL$ 配方。它并非一个全新的算法，而是现有最佳实践的集合。

$ScaleRL$ 核心组件

$ScaleRL$ 是一套异步RL配方，具体包括：

异步框架：$PipelineRL-8$。
长度控制：强制长度中断，通过在超长生成后附加特定短语来终止思考过程。
损失函数：CISPO损失，结合了REINFORCE和截断重要性采样。
损失聚合与归一化：提示级损失聚合与批次级优势归一化。
精度：在LoRA头使用FP32精度。
数据策略：零方差过滤和自适应提示过滤（移除通过率>0.9的提示）。

其损失函数 $\mathcal{J}_{\mathrm{\texttt}}(\theta)$ 定义为：

\[\mathcal{J}_{\mathrm{\texttt{{ScaleRL}}}}(\theta)=\hskip-6.99997pt\underset{\begin{subarray}{c}x\sim D,\\ \{y_{i}\}_{i=1}^{G}\sim\pi_{gen}^{\theta_{old}}(\cdot\mid x)\end{subarray}}{\mathbb{E}}\hskip-3.99994pt\left[\frac{1}{\sum_{g=1}^{G} \mid y_{g} \mid }\sum_{i=1}^{G}\sum_{t=1}^{ \mid y_{i} \mid }\texttt{sg}(\mathrm{min}(\rho_{i,t},\epsilon))\hat{A}_{i}^{\text{norm}}\,\log\pi_{train}^{\theta}(y_{i,t})\right],\]

其中 $sg$ 是停止梯度函数，$\rho_{i,t}$ 是Token级重要性采样比率，$\hat{A}^{\mathrm{norm}}_{i}$ 是批次归一化后的优势。

图片：10万GPU小时规模的RL训练预测与实际表现

实验结论

本文通过一系列精心设计的实验，验证了其提出的规模化框架和 $ScaleRL$ 配方的有效性。

关键实验发现

渐近天花板效应 (Asymptotic Ceilings)：不同的RL方法在计算资源无限时，其性能会饱和于不同的上限 $A$。例如，更换损失函数类型（从DAPO到CISPO）能显著提高这个天花板。
交叉效应 (Crossover Effects)：在低计算量下表现更优的方法，在高计算量下可能表现更差。本文的S型曲线框架能够通过早期训练数据拟合参数，从而预测长期扩展潜力，帮助研究者识别真正可扩展的方法。
效率与上限的分离: 许多常见的干预措施，如优势归一化、数据课程等，主要影响的是计算效率 $B$（即达到上限的速度），而对性能上限 $A$ 的影响不大。

$ScaleRL$的性能验证

可预测性: 在一个高达10万GPU小时的单次RL训练中，$ScaleRL$ 的实际性能与仅根据早期训练数据（约1.5k GPU小时）外推的S型曲线高度吻合，证明了该框架在极大计算规模下的预测能力。

图片：10万GPU小时规模化训练

有效性: 通过留一法（Leave-One-Out, LOO）消融实验，证实了$ScaleRL$中的每一个组件都对整体性能有积极贡献。$ScaleRL$始终是所有配置中表现最好的，无论是在渐近性能还是计算效率上都优于或持平于其他变体。

图片：ScaleRL的留一法消融实验结果

泛化性: $ScaleRL$ 的可预测规模化能力在多个维度上都得到了验证，包括增大批次大小、增加生成长度（最高32,768个Token）、在数学和代码上进行多任务RL训练，以及应用于更大的专家混合（MoE）模型。

最终结论

本文成功地为LLM的RL训练建立了一个严谨的科学框架，并提供了一套名为 $ScaleRL$ 的实用配方。这项工作将RL训练的规模化从依赖直觉和昂贵试错的“艺术”，推向了类似于预训练阶段的可预测、可度量的“科学”，为未来高效评估和开发新的RL算法铺平了道路。