Deep Self-Evolving Reasoning


TL;DR

本文提出了一种名为深度自进化推理(Deep Self-Evolving Reasoning, DSER)的概率框架,它将迭代推理建模为马尔可夫链,使即使是能力较弱的模型也能通过长时间的并行自进化过程,解决原本无法解决的复杂问题。

关键定义

相关工作

当前,长思维链 (Chain-of-Thought, CoT) 推理已成为大语言模型(LLM)高级推理能力的基石。基于此,前沿的验证-修正 (verification–refinement) 框架已使顶尖的专有模型(如GPT-5,Gemini 2.5 Pro)能够解决奥林匹克竞赛级别的难题。

然而,这些框架的成功严重依赖于模型强大且可靠的自我验证和修正能力。对于目前可访问性更广的开源、中小型模型而言,这是一个巨大的瓶颈。在处理极难问题时,这些模型往往表现出自我验证能力弱、自我改进不稳定、指令遵循能力差等问题,导致它们在现有框架下容易意外终止或无法有效改进。

本文旨在解决的核心问题是:在模型自身的验证和修正能力较弱的情况下,如何能有效扩展其推理边界,使其能够解决原本超出其能力范围的复杂问题?

本文方法

本文提出的DSER方法将迭代式的验证与修正过程建模为一个自进化的随机过程,从而为能力有限的模型解决难题提供了理论上可行的路径。

DSER方法概览

创新点:基于马尔可夫链的概率推理

与依赖单步验证结果的确定性框架不同,DSER的核心创新在于其概率性视角。

  1. 过程建模:整个推理过程被视为一个马尔可夫链。解的状态空间被简化为两个:\(C\) (Correct) 和 \(I\) (Incorrect)。
    • 初始解 \(s^(0)\) 由模型直接生成:

      \[s^{(0)} = \mathcal{R}^{LLM}(q)\]
    • 在第 \(n\) 次迭代中,模型首先对当前解 \(s^(n)\) 进行自我验证,生成验证报告 \(v^(n)\):

      \[v^{(n)} = \mathcal{R}^{LLM}([q; s^{(n)}; p_v])\]
    • 然后,基于验证报告,模型进行修正,生成新解 \(s^(n+1)\):

      \[s^{(n+1)} = \mathcal{R}^{LLM}([q; s^{(n)}; p_v; v^{(n)}; p_r])\]

    这个 \(s^(n) -> s^(n+1)\) 的转换构成马尔可夫链的一个步骤。

  2. 收敛性分析:该过程的动态由一个2x2的转移概率矩阵 \(P\) 控制:

    \[P = \begin{pmatrix} P(C \mid C) & P(I \mid C) \\ P(C \mid I) & P(I \mid I) \end{pmatrix} = \begin{pmatrix} 1-p_{CI} & p_{CI} \\ p_{IC} & 1-p_{IC} \end{pmatrix}\]

    其中,\(p_IC\) 是从错误解改进为正确解的概率,\(p_CI\) 是从正确解退化为错误解的概率。

    只要马尔可夫链是遍历的(即 \(p_IC > 0\) 且 \(p_CI > 0\)),它将收敛到一个唯一的稳定分布 \(π = [π_C, π_I]\),其中解为正确的长期概率为:

    \[\pi_C = \frac{p_{IC}}{p_{IC} + p_{CI}}\]

优点

与依赖验证的框架对比

实验结论

本文使用一个8B参数的强大开源模型在AIME 2024和2025数学竞赛基准上进行了实验。该模型在基线上无法解决其中的9个难题。

DSER解决“无法解决”的问题

整体性能提升

难题的逐问题性能改进

依赖验证方法的表现