Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error


TL;DR

本文提出了一种名为 LTE(Learning to reason from Trial and Error) 的方法,通过利用大语言模型(LLM)自身在推理失败时产生的错误答案作为提示信息,来克服强化学习中的探索停滞问题,从而无需任何外部专家指导即可提升模型的推理能力。

关键定义

相关工作

目前,利用可验证奖励的强化学习(RLVR)是提升大语言模型(LLM)推理能力的主流技术。然而,现有的 RLVR 方法大多依赖模型自身的策略进行探索(on-policy),这导致了一个严重的瓶颈:探索停滞。具体来说,如果一个训练问题超出了模型当前的能力上限,模型的所有尝试都会失败,从而获得零奖励。在这种情况下,如 GRPO 等标准优化算法的梯度会变为零,模型无法从这些高难度的失败样本中获得任何有效的学习信号,其能力提升因此陷入停滞。

为了打破这一瓶颈,一些研究工作尝试引入外部指导,例如使用人类标注的正确解题步骤或更强模型的输出。但这些方法要么成本高昂、难以扩展,要么在训练顶级模型时(不存在更强的模型)不可行。

本文旨在解决上述探索停滞问题,但其核心目标是在不依赖任何外部专家(无论是人类还是更强的模型)指导的情况下,仅凭模型自身的“试错”经验来突破能力上限。

本文方法

本文提出的 LTE (Learning to reason from Trial and Error) 框架旨在利用模型自身的失败经验来克服探索停滞。其核心思想是:当模型对一个问题的所有尝试都失败时,不应白白浪费这些计算,而应从中提取信息,以指导后续的探索。

LTE 框架图 对于所有尝试都失败的样本,LTE 会提取模型生成的错误答案作为提示,用于额外的 rollouts。为简洁起见,图中省略了其他类型的样本。

创新点:带提示的额外探索 (Hinted Extra Rollouts)

与简单地增加尝试次数(vanilla extra rollouts)不同,LTE 根据失败的具体原因生成特定的提示,进行更有针对性的额外探索。

  1. 识别“探索停滞”样本:对于一个给定的问题,首先让模型生成 $G$ 次响应(rollouts)。如果所有 $G$ 次响应都未能通过验证(即奖励全为0),则该样本被标记为“停滞样本”。

  2. 生成提示:根据失败的模式,生成不同类型的提示:

    • 冗长失败 (Overlong Failure):如果所有失败的响应都因为过长而被截断,模型可能陷入了冗长无效的思考。此时,向模型提供一个简单的提示,让它“简明扼要地思考”。
    • 答案错误 (Incorrect Answer Failure):如果存在未被截断的失败响应,系统会从中提取出所有错误的答案。这些答案反映了模型容易犯的错误。接着,将这些错误答案整合进提示中,要求模型在新的尝试中不要再次生成这些答案,从而缩小搜索空间,避免“在同一条河里跌倒两次”。

    下图展示了不同场景下使用的提示模板:

正常提示模板 简洁提示模板
正常提示模板 $\textbf{Prompt}(\cdot)$ \(overlong-all\) 样本提示模板 $\textbf{Concise}(\cdot)$
简洁与错误提示模板 错误提示模板
\(overlong-some\) 样本提示模板 $\textbf{ConciseHint}(\cdot)$ \(pass-none\) 样本提示模板 $\textbf{Hint}(\cdot)$
  1. 执行额外探索:使用包含上述提示的新 prompt,模型再进行 $G$ 次额外的探索。

核心机制:混合策略优化 (Mixed-policy Optimization)

通过带提示的额外探索,模型现在有更大概率获得正确的解。然而,这些正确解是在“提示”这个额外条件下生成的,属于离策略 (off-policy)数据,不能直接用于优化原始策略(即在没有提示下解决问题的策略)。

为了解决这个问题,LTE 采用了一种混合策略优化方法:

\[\mathcal{J}_{\text{Mixed}}(\theta)= \mathbb{E}_{q,\{o'_{i},o_{s_{i}}\}}\Bigl[\frac{1}{Z'}\sum_{i=1}^{G'}\sum_{t=1}^{ \mid o'_{i} \mid }(f(\hat{r}'_{i,t}(\theta))\cdot\hat{A}'_{i,t}) +\frac{1}{Z}\sum_{i=1}^{G-G'}\sum_{t=1}^{ \mid o_{s_{i}} \mid }\Bigl(\operatorname{CLIP}(r_{s_{i},t}(\theta),\hat{A}_{s_{i},t},\varepsilon\Bigr)\Bigr]\]

其中,$f(\hat{r}’_{i,t}(\theta))$ 是对离策略样本的重要性采样比率 $\hat{r}’_{i,t}(\theta)$ 进行正则化的函数。通过这种方式,模型能够安全地从这些来之不易的正确解中学习,同时保持对原始任务的优化。

以下是 LTE 的完整训练流程伪代码: ``$$ Algorithm 1: Learning from Trial and Error (LTE)

Input: 策略模型 π_θ, rollout数量 G, 批大小 n, 训练步数 T, 训练数据 D Output: 更新后的策略模型 π_θ

for t = 1 to T do:

  1. 从 D 中采样一批问题 Q
  2. for 每个问题 q in Q do: a. 初始探索:用 π_θ 生成 G 个响应 O_q b. 验证与评估:检查 O_q 中每个响应的正确性,得到奖励 R_q c. if 所有奖励均为 0 (探索停滞) then: i. 根据失败类型(是否全为超长响应)生成提示 q’ ii. 额外探索:用提示 q’ 和 π_θ 生成 G 个新响应 O_hinted_q iii. 验证新响应,找出其中的正确解 O_q iv. 用正确解 O_q 替换 O_q 中的部分失败解 d. 计算最终响应组的优势函数 Â
  3. 执行混合策略更新:使用所有问题的响应 O 和优势 Â 更新 π_θ return π_θ \(`\)

优点

实验结论

本文在 Qwen3-4B-Base 和 Qwen3-8B-Base 模型上,针对六个数学推理基准进行了实验。

核心结果

结论

实验结果有力地证明,LTE 方法通过利用模型自身的试错经验,成功地解决了 RLVR 中的探索停滞问题。它在不依赖任何外部专家指导的前提下,同时提升了模型的利用(exploitation)和探索(exploration)能力,为提升大语言模型推理能力提供了一条有效、通用且高效的路径。