Deep Self-Evolving Reasoning

ArXiv URL: http://arxiv.org/abs/2510.17498v1
作者: Jiang Bian; Xumeng Wen; Zihan Liu; Yang Wang; Shun Zheng; Mao Yang
发布机构: Microsoft Research Asia; Peking University

TL;DR

本文提出了一种名为深度自进化推理（Deep Self-Evolving Reasoning, DSER）的概率框架，它将迭代推理建模为马尔可夫链，使即使是能力较弱的模型也能通过长时间的并行自进化过程，解决原本无法解决的复杂问题。

关键定义

深度自进化推理 (Deep Self-Evolving Reasoning, DSER)：一种概率性推理范式。它将模型的迭代推理（如验证-修正循环）视为一个在解空间中进行随机转换的马尔可夫链。其核心思想是，只要改进的概率（从错误解到正确解）略高于退化的概率（从正确解到错误解），通过足够多次的迭代，系统就能收敛到以正确解为主的稳定分布。通过并行运行多个长时程的自进化过程，可以放大这种微小的积极趋势，从而逐步逼近正确答案。
自进化随机过程 (Self-Evolving Stochastic Process)：本文用于描述迭代推理的核心数学模型。每个迭代步骤（即一次验证和修正）被看作是解状态的一次随机转换。该过程被具体化为一个马尔可夫链。
马尔可夫链公式化 (Markov Chain Formulation)：将解的状态简化为两个：正确（Correct, C）和不正确（Incorrect, I）。状态之间的转换由一个转移矩阵 \(P\) 定义，其中关键参数是改进概率 \(p_IC\)（从I到C）和退化概率 \(p_CI\)（从C到I）。该模型的核心在于，最终的稳定分布 \(π\) (即长期来看解为正确的概率) 只取决于这两个概率的比值，而非单步验证或修正的绝对准确率。
依赖验证的自进化 (Verification-Dependent Self-Evolving)：本文用来描述先前工作（如 Huang & Yang, 2025）所采用的框架。这类框架的迭代过程强依赖于模型自我验证的结果（通过或失败），并设置了硬性的终止条件（如连续失败10次则退出，连续通过5次则接受）。本文指出，这种机制对于能力较弱的模型在处理难题时，容易导致过早终止或接受错误答案，从而限制了其深度推理的潜力。

本文方法

本文提出的DSER方法将迭代式的验证与修正过程建模为一个自进化的随机过程，从而为能力有限的模型解决难题提供了理论上可行的路径。

DSER方法概览

创新点：基于马尔可夫链的概率推理

与依赖单步验证结果的确定性框架不同，DSER的核心创新在于其概率性视角。

过程建模：整个推理过程被视为一个马尔可夫链。解的状态空间被简化为两个：\(C\) (Correct) 和 \(I\) (Incorrect)。
- 初始解 \(s^(0)\) 由模型直接生成：
  \[s^{(0)} = \mathcal{R}^{LLM}(q)\]
- 在第 \(n\) 次迭代中，模型首先对当前解 \(s^(n)\) 进行自我验证，生成验证报告 \(v^(n)\)：
  \[v^{(n)} = \mathcal{R}^{LLM}([q; s^{(n)}; p_v])\]
- 然后，基于验证报告，模型进行修正，生成新解 \(s^(n+1)\)：
  \[s^{(n+1)} = \mathcal{R}^{LLM}([q; s^{(n)}; p_v; v^{(n)}; p_r])\]
这个 \(s^(n) -> s^(n+1)\) 的转换构成马尔可夫链的一个步骤。
收敛性分析：该过程的动态由一个2x2的转移概率矩阵 \(P\) 控制：
\[P = \begin{pmatrix} P(C \mid C) & P(I \mid C) \\ P(C \mid I) & P(I \mid I) \end{pmatrix} = \begin{pmatrix} 1-p_{CI} & p_{CI} \\ p_{IC} & 1-p_{IC} \end{pmatrix}\]
其中，\(p_IC\) 是从错误解改进为正确解的概率，\(p_CI\) 是从正确解退化为错误解的概率。

只要马尔可夫链是遍历的（即 \(p_IC > 0\) 且 \(p_CI > 0\)），它将收敛到一个唯一的稳定分布 \(π = [π_C, π_I]\)，其中解为正确的长期概率为：
\[\pi_C = \frac{p_{IC}}{p_{IC} + p_{CI}}\]

优点

对不完美验证的鲁棒性：DSER的成功不依赖于单次验证或修正的成功。理论上，只要改进的倾向性 (\(p_IC\)) 略微大于退化的倾向性 (\(p_CI\))，经过足够长的迭代，正确的解就会在分布中占据主导地位。这为通过多数投票获得正确答案提供了理论保障。
发掘“群体智慧”：实践中发现，即使 \(p_IC < p_CI\)，只要 \(p_IC\) 不为零，通过并行运行多个DSER过程并进行多数投票，仍可能得到正确答案。因为正确的解会收敛到唯一的基准真相，而错误的解则会发散到各种不同的结果中。
避免过早终止：与“依赖验证的自进化”方法相比，DSER避免了因验证不准而导致的过早退出（拒绝）或过早收敛于错误答案（接受）。它允许模型在“困惑”时进行更深度的探索，从而有机会找到正确路径。

与依赖验证的框架对比

实验结论

本文使用一个8B参数的强大开源模型在AIME 2024和2025数学竞赛基准上进行了实验。该模型在基线上无法解决其中的9个难题。

突破推理极限：DSER成功解决了这9个“无法解决”问题中的5个。其中一个问题在初始测试中Pass@1的成功率为0。这证明DSER有效扩展了模型单次推理的能力边界。

DSER解决“无法解决”的问题

提升整体性能：将DSER应用于整个AIME基准测试时，模型的整体性能得到显著提升。在AIME 2024上，Pass@1准确率提升了6.5%（从82.8%到89.3%）；在AIME 2025上，提升了9.0%（从74.4%到83.4%）。值得注意的是，通过DSER和多数投票，这个8B模型的最终准确率甚至超过了其600B参数的教师模型的单次推理准确率。

整体性能提升

收敛行为多样性：对具体问题的分析表明，不同问题的收敛速度和稳定分布各不相同。有些问题能快速收敛到高正确率，而另一些问题收敛缓慢，或稳定在正确与错误解混合的状态。即便如此，多数投票机制依然有效。

难题的逐问题性能改进

优于依赖验证的方法：在相同的9个难题上，“依赖验证的自进化”方法仅解决了2个。实验表明，该方法在处理超出模型能力的问题时，由于验证不可靠，会频繁出现过早退出或接受错误答案的情况，验证了DSER框架的优越性。

依赖验证方法的表现

最终结论：DSER是一个有效的框架，它通过增加测试时计算量，显著扩展了中小型开源模型的推理能力，使其能够解决原本无法企及的难题。该工作不仅提供了一种实用的性能提升方法，也揭示了当前开源模型在自我验证和修正能力上的根本局限，为未来模型训练指明了方向——开发具备更强内在自进化能力的模型。