FAPO: Flawed-Aware Policy Optimization for Efficient and Reliable Reasoning


TL;DR

本文提出了一种名为缺陷感知策略优化 (FAPO) 的方法,通过训练一个生成式奖励模型(GenRM)来识别并惩罚那些最终答案正确但推理过程有误的“缺陷正样本”,从而在不增加Token预算的情况下,提升大型语言模型在强化学习训练中的推理可靠性、效率和稳定性。

关键定义

相关工作

当前,利用可验证奖励的强化学习(RLVR)是提升LLM推理能力的前沿方法。这类方法通常在模型探索得到正确答案的推理路径时给予正向奖励。然而,这一范式存在一个核心瓶颈:它无法区分“完全正确的推理”和“通过错误步骤侥幸得到正确答案的推理”(即“缺陷正样本”)。

由于传统的基于结果的奖励机制对这两种情况给予相同的正向奖励,导致模型会学习并内化这些不可靠、不严谨的推理模式,如猜测答案或逻辑跳跃。这不仅限制了模型推理能力的上限,也损害了其可靠性。

本文旨在解决以下具体问题:

  1. 如何准确、高效地检测出强化学习过程中的“缺陷正样本”?
  2. 如何设计一种策略优化机制,使其能智能地处理这些“缺陷正样本”? 即在训练早期将其作为有用的“垫脚石”以加速学习,而在后期则抑制它们,推动模型掌握真正可靠的推理能力。

不同模型中缺陷正样本的比例及FAPO与基线的性能对比

本文方法

本文基于对“缺陷正样本”在强化学习中双重作用(早期有益,后期有害)的洞察,提出了缺陷感知策略优化(FAPO)算法。该算法包含两个核心部分:一是通过训练一个高效的生成式奖励模型(GenRM)来准确检测缺陷正样本;二是在策略优化中对这些样本施加自适应的奖励惩罚。

缺陷正样本检测:训练GenRM

直接使用强大的LLM(如Qwen3-32B)在线检测缺陷正样本计算成本过高。因此,本文提出训练一个更小巧高效的生成式奖励模型(GenRM)。

不同LLM的缺陷正样本检测能力

缺陷正样本惩罚:自适应优化

在利用GenRM检测到缺陷正样本后,FAPO通过一个新颖的奖励机制来调整其在策略优化中的作用。该机制与组相对策略优化(GRPO)相结合。GRPO通过比较一组$G$个rollout的奖励来估计优势函数:

\[\hat{A}_{i,t}=\frac{r_{i}-\text{mean}(\{R_{i}\}_{i=1}^{G})}{\text{std}(\{R_{i}\}_{i=1}^{G})}\]

这一机制使得FAPO能够根据模型当前的学习阶段,自动调整对缺陷正样本的利用和抑制,形成一个从“求对”到“求精”的自然演进过程。

实验结论

实验在数学推理(AIME24, AIME25)和通用领域推理(GPQA-Diamond)等多个基准上验证了FAPO的有效性。

FAPO-GenRM与FAPO-Reasoning的训练过程性能

主要结果

FAPO-GenRM的效果验证

消融研究

自纠正分析

总结

FAPO通过一种创新的、对缺陷正样本进行感知和自适应惩罚的机制,成功地解决了传统RLVR方法会强化不可靠推理模式的问题。实验证明,该方法能在不牺牲效率的前提下,系统性地提升LLM在推理任务上的结果正确性过程可靠性训练稳定性,为构建更高效、更可信的AI推理系统提供了有效途径。