First Try Matters: Revisiting the Role of Reflection in Reasoning Models


TL;DR

本文通过大规模量化分析揭示,当前推理模型中的“反思”步骤主要起确认作用而非纠错,其性能提升源于首次尝试正确率的提高,并基于此发现提出了一种可大幅提升推理效率的提前终止策略。

关键定义

本文的核心分析建立在对“反思”行为的重新定义和量化之上,沿用并明确了以下关键概念:

相关工作

当前的先进大型语言模型(LLM),尤其是通过可验证奖励的强化学习(RLVR)训练的推理模型,展现出强大的推理能力。这通常被归因于它们能生成更长的思维链(Chain-of-Thought, CoT)并进行所谓的“反思性推理”——即在得出初步答案后,继续审视、评估和修正自己的推理路径。学界普遍认为,这种反思是模型实现自我纠错、提升最终答案准确率的关键机制。

然而,对于反思的真实作用,现有研究结论不一且缺乏定论。一些研究认为反思机制很复杂且能防止推理崩溃,另一些则认为反思模式通常很肤浅,对结果没有改善。这些研究的关键瓶颈在于缺少对推理模型反思行为的大规模、系统性的量化分析。

本文旨在解决这一核心问题:推理模型中的反思步骤究竟是在进行有效的自我纠错,还是仅仅在确认已有的结论?

本文方法

本文首先设计了一套分析框架来量化反思行为,然后通过受控实验探究反思在训练中的作用,最后基于分析结论提出一种提升推理效率的方法。

反思行为的量化分析

为了系统性地研究反思,本文设计了一种创新的分析方法。

Distribution of first candidate answer positions across different LLMs and prompts.

反思在训练中的作用探究

基于上述分析框架,本文通过一系列监督微调(SFT)实验,探究了训练数据中的反思特性如何影响模型性能。

Comparison of performance and rollout length after SFT when training on rollouts cut at different positions.

高效推理的提前终止策略

基于“反思主要是确认性的”这一核心发现,本文提出了一种在推理时提升效率的实用方法。

实验结论

反思行为分析

训练实验结论

模型 F→T 比例 平均 Tokens 准确率 (%) P(F→T) (%)
Llama3.1-8B-Instruct 0% 7618 49.3 2.1
  25% 7512 48.7 2.2
  50% 7612 49.2 2.0
  75% 7500 48.2 1.8
  100% 7417 47.6 1.8
Qwen2.5-7B-Instruct 0% 8391 54.4 1.9
  25% 8345 54.0 2.1
  50% 8452 53.9 2.0
  75% 8711 55.1 1.8
  100% 8421 53.4 1.9

最终结论

本文的系统性分析颠覆了“反思即纠错”的普遍看法。研究表明,当前推理模型中的长篇推理,其核心价值在于通过多样化的推理路径展示来增强模型“第一次就做对”的能力,而非在出错后进行有效的自我修正。基于这一洞见,本文提出的问题感知提前终止策略,证明了在几乎不牺牲核心推理能力的前提下,大幅优化推理效率是完全可行的。这为未来推理模型的设计和优化指明了新的方向:与其寄希望于复杂的反思纠错,不如专注于如何提升模型首次推理的准确性和鲁棒性。