DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning


TL;DR

本文提出了一种名为 DLER 的强化学习训练配方,通过改进优化技术(而非设计复杂的长度惩罚函数)来解决模型输出过长的问题,在将响应长度缩短超过70%的同时,还能超越基线模型的准确率,实现了顶尖的准确率-效率权衡。

关键定义

相关工作

当前的推理语言模型(如 OpenAI-o1, DeepSeek-R1)通过生成冗长的思维链(Chain of Thought, CoT)取得了强大的性能,但这导致了过高的Token使用量、延迟和在简单问题上的输出冗余。为了提升“每Token的智能”,即在保证准确率的同时最大化效率,研究者们探索了多种方法,包括提示工程、监督微调和强化学习(RL)。

在这些方法中,基于RL的方法被认为是最有原则性的途径,它们通常在奖励函数中引入长度惩罚。然而,尽管现有方法显著减少了推理长度,但它们常常导致准确率下降,尤其是在不同难度的任务上表现不一。此前的研究普遍认为,准确率的下降是由于长度惩罚函数设计不佳,因此致力于设计更复杂的惩罚机制。

本文挑战了这一主流观点,旨在解决的核心问题是:在使用简单的长度惩罚(如截断)时,由次优的强化学习优化技术导致的准确率下降问题。本文假设,性能瓶颈不在于惩罚函数本身,而在于优化过程。

本文方法

本文的核心思想是,通过改进强化学习的优化过程,而非设计复杂的惩ें罚函数,来解决在使用长度惩罚时遇到的准确率下降问题。作者首先回归到最简单的长度惩罚——截断(truncation),即对超过预设长度的响应奖励直接置零。通过分析,作者识别出标准 RL 优化(如 GRPO)在这种设置下面临的三大挑战,并提出了相应的解决方案,最终整合成 DLER 配方。

挑战与解决方案

1. 高奖励方差与有偏的优势估计

问题:截断惩罚导致奖励信号出现大量零值,极大地增加了奖励的方差。在使用如 GRPO 这类基于提示级别(prompt-wise)进行优势估计的算法时,高方差会引入显著的偏差,导致训练不稳定和性能下降。 解决方案:采用批次级奖励归一化 (Batch-wise reward normalization)。通过在整个批次(batch)而非单个提示的生成组内计算均值和标准差来归一化优势,可以有效平滑由截断引入的奖励噪声,从而获得更稳定和无偏的优势估计。其优势计算公式变为:

\[A_{i,t}^{\mathrm{norm}} = \frac{A_{i,t} - \mathrm{mean}_{\mathrm{batch}}(A_{i,t})}{\mathrm{std}_{\mathrm{batch}}(A_{i,t})}\]

其中 $A_{i,t} = R’_{i} - \mathrm{mean}({R’_{i}}_{i=1}^{G})$。

2. 熵崩溃限制了探索

问题:在训练过程中,模型的输出分布熵会急剧下降,即“熵崩溃”。这导致模型过早地收敛到一小组相似的响应上,限制了对多样化推理路径的探索。分析发现,这个问题与PPO类算法中的重要性采样比例裁剪(clipping)有关,许多具有探索性的、高熵、低概率的Token(如 “Hmm”, “Alternatively”, “thus” 等)的梯度因被裁剪而无法更新。

解决方案:采用更高的上界裁剪阈值。通过将裁剪的上界 $\epsilon_{high}$ 设置得比下界更大,可以保留这些关键探索性Token的梯度,鼓励模型在训练中进行更多样化的行为探索,从而缓解熵崩溃问题。

3. 长度惩罚导致训练信号稀疏

问题:长度惩罚导致了两种极端情况,都对训练不利:

  1. 全零奖励:对于难题,模型生成的所有响应都可能因超长而被截断,导致该提示的所有奖励均为零,模型无法从中学习如何改进。
  2. 全正奖励:对于简单题,模型很容易在长度预算内给出正确答案,导致所有响应都获得正奖励。这会使模型过拟合于生成过短的响应,而未充分利用长度预算去探索更优的解法。

解决方案:采用动态采样 (Dynamic sampling)。在构建每个训练批次时,过滤掉那些所有响应奖励全为零或全为正的提示,并重新采样,直到批次中包含有价值的(即奖励有正有负)训练信号。这种方法形成了一种隐式的课程学习,随着训练的进行,模型能力增强,能够处理更难的、最初无法解决的问题。

DLER 训练配方

DLER (Doing Length pEnalty Right) 正是上述三种解决方案与简单截断惩罚的结合体。它通过系统性地解决优化过程中的偏差、探索和信号稀疏问题,使得模型能够在长度受限的情况下有效学习,最终在大幅缩短输出的同时保持甚至提升准确率。

Difficulty-Aware DLER (DA-DLER)

为了进一步提升效率,本文提出了DA-DLER。该方法根据模型对问题的掌握程度(通过采样响应的正确率来衡量)动态调整截断长度。对于模型已经能够可靠解决的“简单”问题,施加更严格的长度限制;对于“困难”问题,则给予更宽松的长度预算。这种自适应策略能更精细地压榨冗余,实现更高的效率。

实验结论

主要结果

实验在 DeepSeek-R1-1.5B/7B 模型上进行,并与 Laser、AdaptThink 等多种先进的推理压缩方法进行比较。结果表明,DLER 在所有基准测试中均取得了最先进的准确率-效率权衡。

Model MATH (acc) AIME-24 (acc) AMC (acc) Minerva (acc) Olympiad (acc) Avg. Len Len. $\downarrow$
1.5B Models              
DeepSeek-R1-1.5B 86.41 31.87 80.00 45.42 46.21 10459 -
Laser-DE-L4096-1.5B (ours) [] 85.27 30.62 78.89 43.68 46.21 3786 64%
DLER-R1-1.5B (ours) 86.95 34.38 80.00 45.42 48.31 2466 76%
DA-DLER-R1-1.5B (ours) 86.68 33.75 79.44 44.97 48.31 2106 80%
7B Models              
DeepSeek-R1-7B 93.37 54.38 81.67 56.55 65.17 7725 -
Laser-DE-L4096-7B (ours) [] 92.83 55.00 81.67 57.00 66.21 3183 59%
DLER-R1-7B (ours) 94.21 55.62 84.41 57.90 68.28 2405 69%
DA-DLER-R1-7B (ours) 93.94 55.00 83.33 57.45 67.24 2127 72%

测试时扩展性与效率

DLER 不仅在训练效率上表现出色,在测试时也展现出巨大优势。由于响应长度大幅缩短,模型可以并行生成多个候选答案(并行思考),在相同的“思考时间”内获得远超基线模型的准确率。

优化配方的重要性

实验还证明了本文的核心论点:优化配方比惩罚函数设计更重要。当将 DLER 的优化配方应用于其他已发表的复杂长度惩罚函数(如 Cosine, Laser-DE 等)时,所有模型的性能都得到了显著提升,并共同定义了一个新的、更优的准确率-长度帕累托前沿。这表明,无论采用何种惩罚函数,DLER 提供的优化方案都能解锁其潜力,实现更好的效果。

最终结论

本文的发现揭示了一个关键点:在通过强化学习提升大模型推理效率时,真正的瓶颈是优化算法本身,而不是惩罚函数的设计。通过 DLER 这一精心设计的优化配方,即使使用最简单的截断惩罚,也能实现最先进的准确率-效率权衡,为构建更实用、更高效的推理模型提供了新的思路和强大的工具。