Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting


TL;DR

本文通过系统性比较发现,强化学习(RL)在后训练中比监督微调(SFT)更能有效缓解灾难性遗忘,其根本原因在于RL利用在线策略(on-policy)数据所产生的“模式寻求”(mode-seeking)特性,能够在学习新任务的同时更好地保留模型的已有知识模式。

关键定义

本文沿用了现有概念,并通过新的视角对其在语言模型后训练中的作用进行了深入剖析:

相关工作

本文方法

本文的核心论证分为三步:首先通过大量实验证明RL比SFT更能缓解遗忘;然后通过一个简化的多模态分布模型,从理论上解释了为何RL的“模式寻求”特性(源于其在线策略数据)能够更好地保留旧知识;最后通过消融实验验证了这一假设,并提出了更高效的实践建议。

实验对比:RL比SFT遗忘更少

本文首先对SFT和RL的遗忘模式进行了广泛的实证比较。

实验结果对比

对比了三种方法在不同模型和数据集上的增益(Gain,实心条)与下降(Drop,阴影条)。RL (GRPO) 在保持低Drop的同时实现了高Gain。

SFT超参数影响

Self-SFT 在不同学习率和训练轮次下的表现,展示了目标性能与遗忘之间的权衡。

理论解释:KL散度与多模态策略

为了解释RL为何能更好地缓解遗忘,本文构建了一个简化的理论模型,核心思想是分析模型策略在多模态分布下的更新动态。

遗忘动态图示

遗忘动态图示。顶部(SFT/正向KL):为了覆盖新任务模式,策略从旧知识模式中转移了概率质量,导致遗忘。底部(RL/反向KL):策略通过移动自身的新模式来匹配目标,而旧模式基本保持不变。

验证与实践:在线策略数据是关键

本文通过一系列消融实验,验证了“在线策略数据”是RL缓解遗忘的主要原因,并探索了更具实践价值的“近似在线策略”方法。

创新点:在线策略数据是主因

RL与SFT有三个主要区别:(i) 在线策略数据 vs. 离线策略数据;(ii) KL正则化;(iii) 优势函数估计。实验旨在排除 (ii) 和 (iii) 的影响。

KL正则化消融实验

对比有无KL正则化的GRPO,两者在增益-下降权衡上表现相似。


方法 模型 任务 增益 ($\Delta_g$) 下降 ($\Delta_d$)
SFT Llama-3.1-8B IFEval 23.33 14.50
REINFORCE Llama-3.1-8B IFEval 7.78 0.82
GRPO Llama-3.1-8B IFEval 14.89 1.10
SFT Llama-3.1-8B MMLU 15.68 8.87
REINFORCE Llama-3.1-8B MMLU 7.95 0.58
GRPO Llama-3.1-8B MMLU 9.09 0.44


优点:近似在线策略数据即可奏效

完全的在线策略学习(每步都重新生成数据)计算成本高昂。本文探索了更高效的“近似在线策略”方法。

近似在线策略数据实验

对比三种SFT变体。Iterative-SFT(迭代SFT)使用每轮开始时生成的近似在线数据,其遗忘程度(底部图表,接近0)远小于使用完全离线数据的SFT和Self-SFT。

这一发现具有重要的实践意义:无需完全采用RL的复杂框架,仅通过在SFT流程中引入周期性的数据再生成,就可以在很大程度上缓解灾难性遗忘。

实验结论