BroRL: Scaling Reinforcement Learning via Broadened Exploration

ArXiv URL: http://arxiv.org/abs/2510.01180v1
作者: Fang Wu; Jian Hu; Jan Kautz; Ximing Lu; Pavlo Molchanov; Yejin Choi; Zaid Harchaoui; Yi Dong; Mingjie Liu; Shizhe Diao; 等11人
发布机构: NVIDIA; Stanford University; University of Washington

TL;DR

本文提出了一种名为 BroRL 的强化学习扩展范式，它通过显著增加每个样本的探索次数 (rollouts) 来拓宽探索范围，从而有效克服了传统按训练步数扩展方法遭遇的性能瓶颈，实现了持续且高效的模型性能提升。

关键定义

本文的核心论证建立在一个原创的理论分析框架之上，并沿用了一些强化学习领域的标准术语。以下是理解本文最关键的概念：

质量平衡方程 (Mass Balance Equation) 分析: 本文独创的理论分析方法，借鉴了物理学中分析质量传递的思想。该方法用于精确刻画单步强化学习更新过程中，正确和不正确Token的概率质量总和的变化率，从而揭示了不同因素对策略优化的影响。
正确Token的概率质量 ($Q_pos$): 指模型对一个给定问题所有可能正确答案（Token）所分配的概率之和。$Q_pos$ 的增加直接关联到模型解决问题成功率（如 $pass@k$ 指标）的提升。
概率二阶矩 (Second Moments of Probability): 衡量概率分布集中度的指标，如 $$A\_2, B\_2, U\_{\mathrm{pos},2}, U\_{\mathrm{neg},2}$$。它们分别代表“已采样正确Token”、“已采样错误Token”、“未采样正确Token”和“未采样错误Token”的概率平方和。这些值在本文的理论公式中用以量化不同Token集合对整体概率质量变化的影响。
批次情绪 (Batch “Mood” $S_R$): 定义为 $$S\_R = R\_c P\_{\mathrm{pos}} + R\_w P\_{\mathrm{neg}}$$，表示一个批次内所有已采样Token的奖励加权概率总和。$$S\_R > 0$$ 表示这是一个“奖励为正”的批次，反之亦然。该值决定了未采样Token的概率质量将如何变化。

本文方法

理论分析：质量平衡方程

本文的理论核心是基于一个简化的单步 RLVR 更新模型，通过质量平衡方程来分析正确Token的总概率质量 $$Q\_{\mathrm{pos}}$$ 的变化 $$\Delta Q\_{\mathrm{pos}}$$。

Refer to caption

分析得出的核心方程为：

\[\Delta Q_{\mathrm{pos}}=\frac{\eta}{N}\Big[(R_{c}-S_{R})Q_{\mathrm{neg}}A_{2}\;+\;(S_{R}-R_{w})Q_{\mathrm{pos}}B_{2}\;+\;S_{R}\big(Q_{\mathrm{pos}}U_{\mathrm{neg},2}-Q_{\mathrm{neg}}U_{\mathrm{pos},2}\big)\Big]\]

这个方程将 $$\Delta Q\_{\mathrm{pos}}$$ 分解为三个部分，揭示了RL更新的内部动态：

已采样-正确项：$$(R\_c - S\_R)Q\_{\mathrm{neg}}A\_2$$。此项源于对采样到的正确Token进行奖励。它总是非负的，意味着奖励正确的Token总会从错误Token的概率池 ($$Q\_{\mathrm{neg}}$$) 中“抽取”概率，从而增加正确Token的概率质量。
已采样-错误项：$$(S\_R - R\_w)Q\_{\mathrm{pos}}B\_2$$。此项源于对采样到的错误Token进行惩罚。它也总是非负的，因为降低错误Token的概率会释放出概率质量，并按比例分配给正确Token的概率池 ($$Q\_{\mathrm{pos}}$$)。
未采样-耦合项：$$S\_R(Q\_{\mathrm{pos}}U\_{\mathrm{neg},2} - Q\_{\mathrm{neg}}U\_{\mathrm{pos},2})$$。此项来自未被采样的Token，其正负符号不确定，是导致训练不稳定的关键。它的影响取决于批次的“情绪”$$S\_R$$ 以及未采样区域中正确与错误Token的概率集中度。例如，在一个奖励为正的批次 ($$S\_R > 0$$) 中，如果未采样的错误Token比正确Token更集中 ($$U\_{\mathrm{neg},2} > U\_{\mathrm{pos},2}$$)，该项为正；反之则为负，可能抵消前两项带来的收益。

创新点

本文方法 BroRL (Broad Reinforcement Learning) 的本质创新在于，它识别并解决了强化学习过程中的一个关键不稳定性来源——“未采样-耦合项”。

与以往方法的本质区别：传统方法如 ProRL 致力于通过增加训练步数来扩展RL，而 BroRL 则开辟了一个新的扩展维度：增加每个训练样本的 探索次数（rollouts per example, $$N$$）。

核心优点：

稳定化学习信号：理论分析明确指出，随着探索次数 $$N$$ 的增大，未采样Token的概率二阶矩 $$U\_{\mathrm{pos},2}$$ 和 $$U\_{\mathrm{neg},2}$$ 会指数级衰减 ($$\mathbb{E}[U\_2(p)] = p^2(1-p)^N$$ )。这意味着，通过采用极大的 $$N$$（如512），不稳定的“未采样-耦合项”的影响可以被有效抑制。这使得整体的策略更新 $$\Delta Q\_{\mathrm{pos}}$$ 趋向于稳定为正，确保了学习过程的持续改进。
克服知识萎缩：大的 $$N$$ 保证了对解空间的充分探索，使得模型在学习新知识时，不会忘记或损害已有的正确知识（即消除了知识萎缩 phenomenon of knowledge shrinkage）。
计算与数据效率：在实践中，BroRL 在相同的训练时间内，通过大 $$N$$ 的设计实现了更高的计算效率。它在算法层面减少了动态采样过程中的样本丢弃率，并在硬件层面将计算从内存密集型转化为计算密集型，从而将训练吞吐量提升了近一倍。

Refer to caption

BroRL 建立在 ProRLv2 框架之上，采用 PPO 算法，但将每个prompt的rollout数量 $$N$$ 从16大幅提升至512。为适应增大的有效批次大小，学习率也根据批次大小的平方根进行了相应调整，以维持训练稳定。

实验结论

仿真实验

为验证理论分析的正确性，本文首先构建了一个Token级别的模拟器。实验设置了一个包含128,000个Token的词汇表，其中10,000个为正确Token。

Refer to caption

仿真结果与理论预测高度一致：

更快的性能提升：更大的探索次数 $$N$$ 使得正确Token的总概率质量 $$Q\_{\mathrm{pos}}$$ 增长更快、更稳定。
消除知识萎缩：当 $$N$$ 较小时，部分正确Token的概率在训练中会下降（即知识萎缩）。而当 $$N$$ 足够大时（如512），这种负面影响完全消失，所有正确Token的概率都能得到提升。

这证实了通过增加 $$N$$ 来抑制未采样项负面影响的理论是有效的。

大模型实证研究

本文在真实的大语言模型上进行了实验。实验在一个已经经过3000步ProRL训练并已达到性能饱和的1.5B模型上继续进行。

Pass@1 成功率分析：在同等计算成本下，对比了继续使用ProRL（小 $$N=16$$）和切换到BroRL（大 $$N=512$$）的训练效果。结果呈现三种典型轨迹：

BroRL 表现持续优于 ProRL。
ProRL 性能下降，而 BroRL 持续改进。
两者均无明显提升（表明对于某些极难问题，$$N=512$$ 可能仍不足够）。大多数任务属于前两种情况，从统计学上看，配对t检验显示 BroRL 相比 ProRL 具有显著的优势（$$p=6.5\times 10^{-7}$$），证明了其更强的学习动态和泛化能力。

Refer to caption