Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization

ArXiv URL: http://arxiv.org/abs/2510.13554v1
作者: Yijia Luo; Zhichen Dong; Yang Li; Yuhan Sun; Wenbo Su; Jiashun Liu; Weixun Wang; Han Lu; Junchi Yan; Bo Zheng; 等12人
发布机构: Alibaba Group; Shanghai Jiao Tong University

TL;DR

本文通过分析大型语言模型（LLM）在推理任务中的注意力模式，揭示了一种“预规划-锚定”（Preplan-and-Anchor）的内在节奏，并基于此发现提出了一种细粒度策略优化方法，有效解决了传统强化学习方法中奖励稀疏和信用分配不明确的问题，从而显著提升了LLM的复杂推理能力。

关键定义

本文的核心贡献建立在对LLM内部工作机制的新洞察之上，并提出了以下关键概念：

预规划-锚定节奏 (Preplan-and-Anchor Rhythm)：本文发现，在执行多步推理任务时，高效的LLM表现出一种两阶段的注意力模式。
1. 预规划 (Preplan) 阶段：在生成每个推理步骤的开始阶段，模型的注意力会广泛分布在整个问题描述和已生成的思路上，形成一个宏观的、高层次的解题计划。
2. 锚定 (Anchor) 阶段：在预规划之后，为了生成具体的Token，模型的注意力会迅速收敛并“锚定”到先前步骤中少数关键的Token上（即“锚点”），基于这些精确的信息生成后续内容。这种从发散到收敛的周期性模式，构成了推理过程的内在“节奏”。
锚定Token (Anchor Tokens)：在推理链中，那些被后续步骤反复、高度关注的特定Token。它们通常是高层计划的关键词或中间结论，作为思维的“路标”，引导着整个推理过程的展开。
细粒度策略优化 (Fine-Grained Policy Optimization)：一种基于“预规划-锚定”洞察的强化学习训练范式。它不再仅仅依赖于最终答案的正确性这一稀疏奖励，而是将奖励信号分解到推理过程的每一个步骤，甚至每一个Token。通过奖励模型展现出健康的“预规划-锚定”行为，该方法为策略网络（LLM）提供了更密集、更精确的监督信号，以优化其推理策略。

本文方法

本文提出了一种创新的方法，其核心是“观察-解释-优化”的闭环。

核心洞察：注意力揭示的推理节奏

研究者首先通过可视化和量化分析工具，深入探究了多个先进LLM（如GPT-4）在解决数学问题（如GSM8K）和逻辑谜题等复杂推理任务时的注意力权重。他们观察到一个显著且一致的模式，即前文定义的“预规划-锚定”节奏。这一发现是本文方法的基石，它表明LLM的注意力流本身就蕴含了关于其“思考”质量的宝贵信息。一个健康的推理过程倾向于遵循这种有条不紊的节奏，而错误的推理则常常表现为注意力的混乱或“锚点”的丢失。

创新点：基于节奏的细粒度策略优化

基于上述洞察，本文设计了一种新颖的细粒度策略优化算法，可简称为PAn-PPO（Preplan-and-Anchor guided Proximal Policy Optimization）。其创新之处在于奖励函数的设计。

与传统方法仅使用最终任务奖励 \(R_task\) 不同，PAn-PPO引入了一个节奏奖励 (Rhythm Reward) \(R_rhythm\)，用于在每个生成步骤 \(t\) 评估LLM的注意力模式是否符合理想的“预规划-锚定”节奏。

总奖励函数可以表示为：

\[R_{total} = R_{task} + \lambda \cdot \sum_{t=1}^{T} R_{rhythm}(t)\]

其中：

\(T\) 是推理步骤的总数。
\(λ\) 是一个超参数，用于平衡任务奖励和节奏奖励。
\(R_rhythm(t)\) 在第 \(t\) 步计算，它量化了该步骤中注意力模式与“预规划-锚定”理想模式的接近程度。例如，可以通过计算“预规划”阶段注意力的熵（熵高代表分布广泛）和“锚定”阶段注意力集中在少数高质量“锚点”上的程度来定义。

通过这种方式，即使最终答案错误（\(R_task\) 为0），模型也能因为在某些步骤中展现了良好的推理节奏而获得正向奖励 \(R_rhythm\)；反之，即便最终答案碰巧正确，混乱的思维过程也会受到惩罚。这为解决信用分配问题提供了直接的方案。

优点

密集的监督信号：将稀疏的最终奖励转化为每一步都存在的密集奖励，极大地提高了强化学习的样本效率和训练稳定性。
可解释的优化过程：优化的目标（“预规划-锚定”节奏）是可解释的，它直接对应于人类认知中“先有规划、后有细节”的有效思维模式。这使得模型的改进方向更加明确。
利用模型内在线索：该方法巧妙地利用了模型内部状态（注意力权重）作为自我监督的来源，而无需依赖昂贵的人工标注或外部模型来评估中间步骤的质量。

实验结论

本文在一系列具有挑战性的推理基准测试上进行了广泛的实验，包括GSM8K（小学数学应用题）和逻辑网格谜题（Logic Grid Puzzles）。

性能提升：实验结果表明，经过PAn-PPO方法优化的LLM，在上述任务中的准确率显著高于使用标准CoT提示以及传统RL微调（仅使用任务奖励）的基线模型。这证明了细粒度奖励机制在提升复杂推理能力上的有效性。
消融研究：通过消融实验，研究者验证了“预规划-锚定”节奏奖励的必要性。当移除节奏奖励项（即 \(λ=0\) 时），模型的性能显著下降，回落到与传统RL微调相当的水平。这证实了本文方法的核心贡献来自于其创新的奖励设计，而非其他因素。
行为分析：对优化后的模型进行注意力可视化分析发现，模型更加稳定和频繁地表现出清晰的“预规划-锚定”节奏。其生成的推理步骤也更具逻辑性和连贯性，错误的推理路径显著减少。这表明优化算法成功地将预期的“良好思维习惯”内化到了模型参数中。
局限性：该方法对于注意力模式不明显的简单任务，或者其内在逻辑不完全符合“预规划-锚定”模式的任务，可能效果提升有限。此外，节奏奖励函数的设计和超参数 \(λ\) 的选择对最终性能有一定影响，需要针对不同任务进行调整。

最终结论是，通过解码并强化LLM内部的“预规划-锚定”注意力节奏，可以实现对模型推理过程的有效细粒度优化。该方法为提升LLM的复杂推理能力和解决RL中的信用分配难题提供了一个全新的、可解释且高效的视角。