SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling

SortedRL:简单排个序,LLM强化学习训练吞吐量提升近40%,性能最高涨18%

当今的大模型(LLM)要变得更会推理,尤其是解决复杂的数学和逻辑问题时,强化学习(RL)已成为一把不可或缺的利器。然而,这条路并不平坦。一个巨大的瓶颈正拖慢整个进程:RL训练中高达70%的时间,都可能消耗在漫长的文本生成(Rollout)阶段。

ArXiv URL:http://arxiv.org/abs/2603.23414v1

想象一下,GPU集群正在全力运转,但因为一批任务中总有几个“慢郎中”(需要生成超长文本),导致大部分算力只能“干瞪眼”等着,这就是所谓的计算“气泡”。最近,来自微软亚洲研究院等机构的一项研究 SortedRL,提出了一种极为巧妙的策略,仅通过在线“排个序”,就几乎完美地解决了这个难题。

RL训练的“气泡”困境

在典型的LLM强化学习流程中,模型需要先根据提示(prompt)生成一系列解决方案(即Rollout),然后根据这些方案的好坏(奖励)来更新自身参数。问题在于,不同提示生成文本的长度天差地别。

图1:RL训练的耗时分析

图1(a)清晰地显示,在需要长思维链(CoT)的任务中,Rollout阶段占据了绝大部分训练时间。

如下图所示,在一个批次中,多数任务可能很快完成,但少数任务需要生成极长的文本。由于更新步骤必须等待批次中所有任务都生成完毕,这导致了严重的资源浪费和效率低下,形成了巨大的计算“气泡”。

图2:Rollout中的长度分布与等待时间

图1(c)展示了生成长度的长尾分布特性,这正是“气泡”问题的根源。

有人可能会问,为什么不直接用大模型推理服务中常见的连续批处理Continuous Batching)技术呢?因为RL训练要求生成和更新步骤紧密同步,模型参数在不断变化,这使得那些为静态模型设计的优化技术难以直接应用。

SortedRL:化繁为简的在线调度策略

为了刺破这些“气泡”,SortedRL提出了一种在线长度感知调度Online Length-Aware Scheduling)策略。其核心思想非常直观:不再让快的等慢的,而是让快的先“跑”!

图3:SortedRL框架概览

SortedRL通过一个长度感知控制器和状态化Rollout缓冲区,实现了动态、高效的训练流程。

该方法主要包含三大关键设计:

1. 在线长度感知调度

这是SortedRL的灵魂。系统在Rollout过程中实时监控每个任务的生成长度。一旦收集到足够数量的“短”输出,就立即将它们打包送去训练,而不用等待那些仍在生成中的“长”输出。

更妙的是,用这些短样本更新后的模型,会立刻被用来继续生成剩余的长样本。这不仅极大地减少了GPU的空闲时间,还自然而然地形成了一种微课程Micro-curriculum):模型总是先从简单的(短的)任务学起,再挑战复杂的(长的)任务,这有助于提升学习效率和稳定性。

2. 可控的离策略(Off-policy)采样

SortedRL提供了两种灵活的运行模式:

这种设计允许研究者在训练稳定性和计算效率之间做出灵活的权衡。

3. 协同设计的RL基础设施

为了支撑上述调度策略,研究者专门设计了一套RL基础设施。它包含一个长度感知控制器Length-aware Controller)来管理Rollout过程,以及一个状态化Rollout缓冲区Stateful Rollout Buffer)来动态协调数据流和模型更新,从而最大化吞吐量。

惊人的实验效果

SortedRL的效果堪称立竿见影,无论在效率还是性能上都取得了显著突破。

效率大幅提升:计算“气泡”几乎消失

在吞吐量测试中,研究者对比了基线方法与SortedRL的两种模式。结果显示,SortedRL的完全在线策略模式部分离策略模式分别带来了7.57%39.48%的吞吐量提升。

图4:不同策略下的Rollout吞吐量对比

更直观的是“气泡率”的下降。基线方法的计算气泡率高达74%,而SortedRL的两种模式分别将其压缩到了惊人的5.81%3.37%!这意味着GPU的有效利用率得到了极大提升。

性能显著增强:更强的数学与逻辑推理

在逻辑推理任务上,使用LLaMA-3.1-8B模型,SortedRL仅用减少40.74%的样本就达到了与基线相同的性能水平,展现了卓越的样本效率。

图5:逻辑推理任务上的性能对比

SortedRL(绿色实线)更快地达到了高分,并且模型更早开始探索生成更长的、更复杂的推理路径。

在更具挑战性的数学问题上(如AIME 24、Minerva等),研究团队使用Qwen-2.5-32B模型进行了测试。在消耗相同训练数据的情况下,SortedRL带来的性能提升在3.9%到18.4%之间。特别是在高难度的AIME 2024竞赛题上,准确率提升超过了18%

Benchmark Baseline SortedRL (On-Policy) SortedRL (Partial)
MATH500 46.80 49.40 (+2.60) 48.60 (+1.80)
Minerva 34.00 36.80 (+2.80) 35.80 (+1.80)
OlympiadBench 18.00 18.60 (+0.60) 19.80 (+1.80)
AIME 2024 10.31 12.21 (+1.90) 11.25 (+0.94)

表格1:在多个数学基准测试中,SortedRL的两种模式均优于基线。

结论

SortedRL用一种极其优雅和简单的方式,解决了长期困扰LLM强化学习训练的效率瓶颈。它通过在线感知和调度生成长度,不仅将计算“气泡”几乎完全消除,大幅提升了硬件利用率和训练吞吐量,还通过隐式的课程学习机制,实现了更高的样本效率和最终性能。

这项工作证明,有时解决复杂系统问题的答案,可能就隐藏在对问题根源的深刻洞察和一次巧妙的“排序”之中。对于未来想要训练更强推理能力、需要更长思维链的大模型而言,SortedRL无疑提供了一条更高效、更经济的路径。