Evaluating Parameter Efficient Methods for RLVR
LoRA并非最优解?DeepSeek-R1实测揭秘:DoRA在RLVR推理任务中全面反超

在后DeepSeek-R1时代,大模型的“推理能力”成为了新的皇冠上的明珠。为了让模型学会复杂的数学推导和逻辑思考,带验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)成为了主流范式。
ArXiv URL:http://arxiv.org/abs/2512.23165v1
但在资源有限的现实面前,全参数微调(Full Fine-Tuning)往往显得过于奢侈。于是,大家习惯性地掏出了“瑞士军刀”——LoRA。
但你有没有想过,LoRA 真的适合强化学习吗?
今天我们要解读的这篇论文《Evaluating Parameter Efficient Methods for RLVR》,给出了一个令人意外的答案:在RLVR场景下,标准的LoRA并非最优解,甚至可能拖累模型的推理上限。 来自浙江大学、香港科技大学等机构的研究者们,在DeepSeek-R1蒸馏模型上对12种PEFT方法进行了地毯式评测,结果显示:结构变体如 DoRA 不仅吊打LoRA,甚至能超越全参数微调!
为什么要重新审视 RLVR 中的 PEFT?
我们知道,RLVR(如DeepSeek-R1使用的GRPO算法)与传统的监督微调(SFT)有着本质区别。SFT是“老师手把手教”,信号密集;而RLVR依靠的是稀疏的、二元的奖励信号(做对了给1分,做错了给0分)。
这种稀疏的信号导致了更新往往集中在特定的子网络或参数上。既然全参数训练存在冗余,那么参数高效微调(PEFT)理应大有可为。然而,社区目前的默认操作依然是“无脑上LoRA”。
这篇论文的核心贡献,就是通过大规模实测(覆盖MATH-500, AIME等硬核数学榜单),回答了一个关键问题:在强化学习的独特优化动力学下,谁才是真正的版本答案?

核心发现一:LoRA 并非最佳,结构变体上位
实验结果非常直观(如上图所示)。虽然标准 LoRA 表现尚可(平均准确率42.5%),但它始终落后于全参数微调(44.9%)。这说明LoRA严格的低秩约束可能限制了模型应对RL复杂策略转变的能力。
真正的惊喜来自于结构变体:
-
DoRA (Weight-Decomposed Low-Rank Adaptation):通过将权重分解为幅度和方向,DoRA在RLVR中大放异彩,平均准确率达到 46.6%,不仅超过了LoRA,甚至在多个基准上反超了全参数微调。
-
MiSS 和 AdaLoRA:这些方法同样表现出色,稳定优于标准LoRA。
这表明,解耦幅度与方向的更新策略(如DoRA),似乎与RLVR的优化动力学存在某种“先天契合”。
核心发现二:SVD初始化的“光谱崩溃”
除了结构,初始化策略也是一大坑。
许多人认为利用SVD(奇异值分解)来初始化适配器(如 PiSSA, MiLoRA)能保留预训练模型的“精华”,理应效果更好。然而,实验却发现这些方法在RLVR中出现了严重的训练崩溃。

研究者通过光谱分析揭示了背后的原因:光谱错位(Spectral Misalignment)。
如上图所示,RLVR的更新往往发生在“非主成分”方向上,而SVD类方法强行将更新锁定在主成分方向。这种根本性的冲突导致了训练的失败。相反,基于学习率调整的初始化策略(如 LoRA+)则表现得非常稳健。
核心发现三:极简主义的陷阱
既然参数高效是目标,那是不是参数越少越好?
答案是否定的。论文发现,RLVR对参数量有一个“容忍底线”。
-
适度减少:如 LoRA-FA(冻结投影矩阵 $A$,只训练 $B$),效果依然坚挺。
-
过度压缩:如 VeRA(冻结所有矩阵,只训练缩放向量)、Rank-1 适配器或仅微调 LayerNorm,性能会发生断崖式下跌。
这说明,虽然RL信号稀疏,但它仍需要模型具备一定的“表达能力”来学习复杂的推理行为。如果把可训练空间压缩得太死,模型就“变笨”了。
实验验证:从 1.5B 到 7B 的跨越
为了证明这些结论不是小模型的特例,研究者在 DeepSeek-R1-Distill-Qwen-7B 上进行了验证。
结果令人欣慰:DoRA 和 LoRA+ 依然稳坐钓鱼台,以55.0%的准确率击败了标准LoRA(54.8%)。特别是在高难度的AMC和AIME榜单上,DoRA的优势更加明显。这进一步证实了,幅度-方向解耦和优化的学习率比率是通用的提分利器。
技术总结与建议
这篇论文为我们在后R1时代的模型训练提供了极具价值的实操指南:
-
别再默认用 LoRA 了:在做 RLVR(尤其是数学推理任务)时,DoRA 是一个更强、甚至能超越全量微调的选择。
-
避开 SVD 初始化:PiSSA 等方法在 SFT 中可能有效,但在 RL 场景下会因为方向错位而导致崩溃。
-
不要过度追求省显存:给适配器留一点秩(Rank),不要使用 Rank-1 或仅微调 LayerNorm,推理能力的涌现需要一定的参数空间。
-
学习率很重要:LoRA+ 证明了针对 $A$ 和 $B$ 矩阵设置不同的学习率比例,对 RL 的稳定性至关重要。
下一次,当你准备启动强化学习训练时,不妨把代码里的 \(LoRA\) 换成 \(DoRA\),也许你会惊喜地发现,模型的推理能力又上了一个新台阶。