DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

ArXiv URL: http://arxiv.org/abs/2510.15110v1
作者: Xin Dong; Min-Hung Chen; Kwang-Ting Cheng; Jan Kautz; Hongxu Yin; Shih-Yang Liu; Ximing Lu; Pavlo Molchanov; Yejin Choi; Yu-Chiang Frank Wang; 等12人
发布机构: HKUST; NVIDIA

TL;DR

本文提出了一种名为 DLER 的强化学习训练配方，通过改进优化技术（而非设计复杂的长度惩罚函数）来解决模型输出过长的问题，在将响应长度缩短超过70%的同时，还能超越基线模型的准确率，实现了顶尖的准确率-效率权衡。

关键定义

DLER (Doing Length pEnalty Right)：一个旨在激励模型生成“每个Token更具智能”的输出的综合训练配方。它并非一个新算法，而是将四种关键技术结合：1) 简单的截断长度惩罚（超过长度预算则奖励为零）；2) 批次级奖励归一化（Batch-wise reward normalization）；3) 更高的策略更新裁剪阈值；4) 动态采样。
Difficulty-Aware DLER (DA-DLER)：DLER 的一个难度感知扩展版本。它根据模型在特定问题上的表现（正确率）动态调整截断长度，对简单问题使用更短的长度限制，对难题则放宽限制，以进一步提升效率。
Update-selective weight merging：一种在强化学习训练数据稀缺时使用的更新选择性权重合并策略。该方法将经过 DLER 训练的简洁模型与原始基线模型的权重进行合并，旨在恢复因数据不足可能导致的准确性下降，同时保留大部分的长度缩减效果。

本文方法

本文的核心思想是，通过改进强化学习的优化过程，而非设计复杂的惩ें罚函数，来解决在使用长度惩罚时遇到的准确率下降问题。作者首先回归到最简单的长度惩罚——截断（truncation），即对超过预设长度的响应奖励直接置零。通过分析，作者识别出标准 RL 优化（如 GRPO）在这种设置下面临的三大挑战，并提出了相应的解决方案，最终整合成 DLER 配方。

挑战与解决方案

1. 高奖励方差与有偏的优势估计

问题：截断惩罚导致奖励信号出现大量零值，极大地增加了奖励的方差。在使用如 GRPO 这类基于提示级别（prompt-wise）进行优势估计的算法时，高方差会引入显著的偏差，导致训练不稳定和性能下降。 解决方案：采用批次级奖励归一化 (Batch-wise reward normalization)。通过在整个批次（batch）而非单个提示的生成组内计算均值和标准差来归一化优势，可以有效平滑由截断引入的奖励噪声，从而获得更稳定和无偏的优势估计。其优势计算公式变为：

\[A_{i,t}^{\mathrm{norm}} = \frac{A_{i,t} - \mathrm{mean}_{\mathrm{batch}}(A_{i,t})}{\mathrm{std}_{\mathrm{batch}}(A_{i,t})}\]

其中 $A_{i,t} = R’_{i} - \mathrm{mean}({R’_{i}}_{i=1}^{G})$。

2. 熵崩溃限制了探索

问题：在训练过程中，模型的输出分布熵会急剧下降，即“熵崩溃”。这导致模型过早地收敛到一小组相似的响应上，限制了对多样化推理路径的探索。分析发现，这个问题与PPO类算法中的重要性采样比例裁剪（clipping）有关，许多具有探索性的、高熵、低概率的Token（如 “Hmm”, “Alternatively”, “thus” 等）的梯度因被裁剪而无法更新。

解决方案：采用更高的上界裁剪阈值。通过将裁剪的上界 $\epsilon_{high}$ 设置得比下界更大，可以保留这些关键探索性Token的梯度，鼓励模型在训练中进行更多样化的行为探索，从而缓解熵崩溃问题。

3. 长度惩罚导致训练信号稀疏

问题：长度惩罚导致了两种极端情况，都对训练不利：

全零奖励：对于难题，模型生成的所有响应都可能因超长而被截断，导致该提示的所有奖励均为零，模型无法从中学习如何改进。
全正奖励：对于简单题，模型很容易在长度预算内给出正确答案，导致所有响应都获得正奖励。这会使模型过拟合于生成过短的响应，而未充分利用长度预算去探索更优的解法。

解决方案：采用动态采样 (Dynamic sampling)。在构建每个训练批次时，过滤掉那些所有响应奖励全为零或全为正的提示，并重新采样，直到批次中包含有价值的（即奖励有正有负）训练信号。这种方法形成了一种隐式的课程学习，随着训练的进行，模型能力增强，能够处理更难的、最初无法解决的问题。

DLER 训练配方

DLER (Doing Length pEnalty Right) 正是上述三种解决方案与简单截断惩罚的结合体。它通过系统性地解决优化过程中的偏差、探索和信号稀疏问题，使得模型能够在长度受限的情况下有效学习，最终在大幅缩短输出的同时保持甚至提升准确率。

Difficulty-Aware DLER (DA-DLER)

为了进一步提升效率，本文提出了DA-DLER。该方法根据模型对问题的掌握程度（通过采样响应的正确率来衡量）动态调整截断长度。对于模型已经能够可靠解决的“简单”问题，施加更严格的长度限制；对于“困难”问题，则给予更宽松的长度预算。这种自适应策略能更精细地压榨冗余，实现更高的效率。

实验结论

主要结果

实验在 DeepSeek-R1-1.5B/7B 模型上进行，并与 Laser、AdaptThink 等多种先进的推理压缩方法进行比较。结果表明，DLER 在所有基准测试中均取得了最先进的准确率-效率权衡。

Model	MATH (acc)	AIME-24 (acc)	AMC (acc)	Minerva (acc)	Olympiad (acc)	Avg. Len	Len. $\downarrow$
1.5B Models
DeepSeek-R1-1.5B	86.41	31.87	80.00	45.42	46.21	10459	-
Laser-DE-L4096-1.5B (ours) []	85.27	30.62	78.89	43.68	46.21	3786	64%
DLER-R1-1.5B (ours)	86.95	34.38	80.00	45.42	48.31	2466	76%
DA-DLER-R1-1.5B (ours)	86.68	33.75	79.44	44.97	48.31	2106	80%
7B Models
DeepSeek-R1-7B	93.37	54.38	81.67	56.55	65.17	7725	-
Laser-DE-L4096-7B (ours) []	92.83	55.00	81.67	57.00	66.21	3183	59%
DLER-R1-7B (ours)	94.21	55.62	84.41	57.90	68.28	2405	69%
DA-DLER-R1-7B (ours)	93.94	55.00	83.33	57.45	67.24	2127	72%

DLER：在 1.5B 和 7B 规模上，DLER 模型不仅将平均响应长度分别减少了 76% 和 69%，还在所有评估基准上超越了原始基线模型的准确率，全面优于以往的方法。
DA-DLER：在 DLER 的基础上，DA-DLER 进一步将 1.5B 和 7B 模型的长度分别额外压缩了 15% 和 12%，且准确率几乎没有损失，展示了自适应策略的潜力。

测试时扩展性与效率

DLER 不仅在训练效率上表现出色，在测试时也展现出巨大优势。由于响应长度大幅缩短，模型可以并行生成多个候选答案（并行思考），在相同的“思考时间”内获得远超基线模型的准确率。

延迟优势：在单 H100 GPU 上，DLER-R1-7B 生成单个响应的平均时间从基线的 93.43 秒降至 23.73 秒，速度提升近 4 倍。
准确率-时间权衡：为了达到 83.33% 的准确率，DLER-R1-7B（并行生成256个响应）仅需 85.43 秒，而基线模型（并行16个响应）需要 221.22 秒。这意味着 DLER 能在少用 62% 的时间下达到更高的准确率。

优化配方的重要性

实验还证明了本文的核心论点：优化配方比惩罚函数设计更重要。当将 DLER 的优化配方应用于其他已发表的复杂长度惩罚函数（如 Cosine, Laser-DE 等）时，所有模型的性能都得到了显著提升，并共同定义了一个新的、更优的准确率-长度帕累托前沿。这表明，无论采用何种惩罚函数，DLER 提供的优化方案都能解锁其潜力，实现更好的效果。

最终结论

本文的发现揭示了一个关键点：在通过强化学习提升大模型推理效率时，真正的瓶颈是优化算法本身，而不是惩罚函数的设计。通过 DLER 这一精心设计的优化配方，即使使用最简单的截断惩罚，也能实现最先进的准确率-效率权衡，为构建更实用、更高效的推理模型提供了新的思路和强大的工具。