Outcome-based Exploration for LLM Reasoning


TL;DR

本文提出了一种“基于结果的探索”(Outcome-based Exploration)方法,通过在强化学习训练中根据最终答案(而非整个推理过程)给予探索奖励,有效提升了大型语言模型在推理任务上的准确率,同时缓解了传统RL训练导致的生成多样性下降问题。

关键定义

相关工作

当前,使用强化学习(RL)对大型语言模型(LLM)进行后训练(post-training)是提升其推理能力的主流方法。基于结果的强化学习,即只根据最终答案的正确性给予奖励,已被证明能显著提高模型准确率。

然而,这种方法存在一个严重的瓶颈:系统性的多样性丧失。经过RL训练后,模型生成的答案多样性会急剧下降,这体现在\(pass@k\)指标上——当\(k\)值较大时,RL后的模型表现甚至不如基础模型。这种多样性崩溃会损害模型在实际应用中的扩展能力,因为在测试时通过多次采样或树搜索等方法来提升性能依赖于生成的多样性。

本文旨在解决的核心问题是:如何在通过强化学习提升LLM推理准确率的同时,避免或缓解生成多样性的严重下降,从而实现准确性与多样性之间的更优平衡。

本文方法

本文的核心创新在于提出了“基于结果的探索”框架,将探索的焦点从难以处理的推理路径空间转移到可管理的最终答案空间。

RL作为采样过程的视角与动机

本文首先将RL训练过程视为一个在训练集上的采样过程,并与直接从基础模型采样进行对比。通过实验观察到两个关键现象,这构成了本文方法的动机:

  1. 多样性退化的传递:RL在已解决的问题上强化正确答案,导致概率分布坍塌。这种多样性的降低会泛化到未解决的问题上,使得模型在这些问题上探索新答案的能力也下降。如下图所示,RL(实线)在未解决问题上发现的新答案数量(虚线)甚至低于基础模型采样。
  2. 结果空间的可处理性:在数学推理等任务中,尽管推理过程千变万化,但最终的答案种类是有限的(通常少于50种)。这使得基于答案的计数和探索成为可能。

Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption Refer to caption

图2: RL训练动态与基础模型采样的对比。顶部:已解决问题数;底部:发现的不同答案数。实线代表所有问题,虚线代表未解决问题。

历史探索 (\(Historical Exploration\))

为了解决多样性下降问题,本文首先引入了基于历史计数的探索方法,类似于经典的UCB算法。在RL的目标函数中加入一项探索奖励:

\[\widehat{\operatorname{\mathbb{E}}}\_{x,\{y\_{i},a\_{i}\}\_{i=1}^{n}\sim\pi(\cdot\mid x)}\left[\frac{1}{n}\sum\_{i=1}^{n}\widehat{A}\left(x,\{y\_{i},a\_{i}\}\_{i=1}^{n}\right)\_{i}+cb\_{\mathsf{ucb}}(x,a\_{i})-\beta\widehat{\mathrm{KL}}(\pi(\cdot\mid x),\pi\_{\mathsf{base}}(\cdot\mid x))\right],\]

其中探索奖励 $b_{\mathsf{ucb}}(x,a)=\min\left{1,\sqrt{\frac{1}{N(x,a)}}\right}$,$N(x,a)$ 是答案 $a$ 对问题 $x$ 历史出现的次数。

Refer to caption Refer to caption 图3: 不同UCB变体与GRPO基线的训练性能对比。

Refer to caption Refer to caption 图4: 不同UCB变体与GRPO基线的测试性能对比。

批次探索 (\(Batch Exploration\))

历史探索旨在找到最优解(优化\(pass@1\)),但未必能保证测试时生成的多样性。为了直接优化测试时的多样性(高\(k\)值的\(pass@k\)),本文提出了批次探索。其奖励机制替换为:

\[b\_{\mathsf{batch}}\left(x,\{y\_{i},a\_{i}\}\_{i=1}^{n}\right)\_{i}=-\frac{1}{n}\sum\_{j\neq i}\mathbf{1}\{a\_{i}=a\_{j}\}\]

这个奖励直接惩罚在当前批次内重复出现的答案,从而激励模型为同一问题生成更多样化的答案。

Refer to caption Refer to caption 图5: \(Batch\)与\(UCB-Con\)方法的训练性能对比。

理论分析:基于结果的赌博机

为了从理论上支撑“基于结果的探索”的合理性,本文提出了一个名为“基于结果的赌博机”(Outcome-Based Bandits)的新模型。该模型抽象了LLM的推理过程:有 $K$ 个臂(代表推理路径),但只有 $m$ 个结果(代表最终答案),其中 $m \ll K$。

实验结论

本文在\(Llama\)和\(Qwen\)系列模型上,使用\(MATH\)和\(DAPO\)等数学推理数据集进行了广泛实验。

核心实验对比

Refer to caption Refer to caption 图1: 最终实验结果概览,探索方法(\(UCB-Con\)和\(Batch\))在\(pass@k\)指标上全面优于基线\(GRPO\)。

Refer to caption Refer to caption 图6: \(Batch\)与\(UCB-Con\)方法的测试性能对比,\(Batch\)在训练后期的大\(k\)值\(pass@k\)上显示出优势。

补充分析


  正确生成 错误生成 所有
\(GRPO\) 0.080 (0.01) 0.096 (0.04) 0.095 (0.02)
\(UCB-Con\) 0.084 (0.01) 0.103 (0.03) 0.100 (0.02)
\(Batch\) 0.086 (0.01) 0.153 (0.07) 0.125 (0.03)

表1: 不同方法生成内容的熵对比。



  已解决问题 未解决问题 所有
\(GRPO\) 2.279 (0.018) 4.805 (0.075) 2.883 (0.024)
\(UCB-Con\) 2.272 (0.020) 4.855 (0.084) 2.926 (0.035)
\(Batch\) 2.284 (0.057) 5.390 (0.102) 3.230 (0.062)

表2: 批次内生成不同答案数量的对比。

总结

本文证实,基于结果的探索是解决RL训练中多样性下降问题的有效途径。历史探索(特别是\(UCB-Con\))能显著提高整体推理准确性,而批次探索(\(Batch\))则在保证准确性的同时,最大化了测试时的生成多样性。这两种方法是互补的,为训练既准确又多样化的LLM推理智能体指明了实用可行的方向。