Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation


TL;DR

本文识别并解决了多智能体 LLM 推理框架中的“懒惰智能体”问题,通过理论分析揭示其源于现有强化学习目标的内在偏差,并提出了一种名为 Dr. MAMR 的新框架,该框架利用夏普利启发的因果影响测量和一种可验证的深思熟虑(deliberation)奖励机制,以促进智能体之间更均衡、更有效的协作。

关键定义

相关工作

当前,大型语言模型(LLM)的推理能力通过思维链(Chain-of-Thought)等提示技术以及基于可验证奖励的强化学习训练得到了显著提升。在此基础上,多智能体框架通过为不同 LLM 分配专门角色(如规划、执行、反思)来模拟人类团队协作,以解决更复杂的问题。代表性工作 ReMA 采用了一个元思维智能体和一个推理智能体序贯交互的模式,并使用多轮组相对偏好优化(multi-turn GRPO)算法进行训练。

然而,现有工作存在一个关键瓶颈:懒惰智能体问题。尽管在传统多智能体强化学习中已有关注,但在 LLM 序贯交互的场景下,该问题的出现出乎意料。一个智能体的“懒惰”行为(如输出空白或无意义的复制)会误导后续的推理轨迹,破坏协作,使整个系统性能受限。本文旨在深入探究此问题在序贯多智能体 LLM 推理中的成因,并提出一种能够有效解决该问题、释放多智能体协作潜力的训练框架。

本文方法

懒惰智能体问题的实证与分析

本文首先通过实证案例揭示了懒惰智能体问题的存在。在 ReMA 框架中,推理智能体常在中间步骤输出空白内容,将推理负担完全推给元思维智能体,最终导致错误。

案例研究与方法图示

(a) 懒惰智能体案例研究;(b-c) 本文提出的模块。

为了量化“懒惰”程度,本文采用因果影响分析方法。通过抑制(suppress)某个智能体步骤对应的注意力,并测量其对下一步输出概率分布的改变(以KL散度衡量),可以评估该步骤的贡献大小。KL散度越小,说明该步骤影响力越低,行为越“懒惰”。

因果效应比较 因果效应比较 因果效应比较 因果效应比较

因果效应比较。(a) 未经训练的初始模型, (b) ReMA, (c) ReMA 带提示, (d) 本文方法。对应的 MATH500 性能分别为: (a) 75.0, (b) 74.4, (c) 75.6, (d) 78.4。

实验对比发现(上图a-c),与未经训练的基线模型相比,经过 ReMA 训练后,推理智能体(reasoning agent)的因果影响显著低于元思维智能体(meta-thinking agent),表现出明显的懒惰行为。即便通过提示工程鼓励其积极贡献,也未能从根本上解决问题。

创新点:懒惰智能体成因的理论分析

本文从理论上指出了多轮 GRPO 训练目标中的一个结构性偏差是导致懒惰智能体问题的根源。原目标函数为:

\[\mathcal{J}(\theta)=\mathbb{E}_{(\mathbf{x},\mathbf{y}^*)\sim\mathcal{D},\,\{(\mathbf{m}_i,\mathbf{y}_i)\}_{i=1}^{G}\sim\pi_{\theta_{\mathrm{old}}}(\cdot\mid\mathbf{x})} \left[\frac{1}{G}\sum_{i=1}^{G}\frac{1}{T_i}\sum_{t=1}^{T_i}\frac{1}{ \mid \mathbf{y}_{i,t} \mid }\sum_{j=1}^{ \mid \mathbf{y}_{i,t} \mid }\dots\right]\]

其中,为了避免偏好更长交互序列而引入的归一化项 \($\frac{1}{T\_i}\)$($T_i$ 为交互轮数)会无意中激励模型选择能以更少轮次完成任务的路径。由于懒惰智能体的行为(如输出空内容)通常会缩短交互轮数,导致这些“捷径”行为在训练中被错误地强化,从而诱发了懒惰行为的产生。

Dr. MAMR: 一个优化的多智能体元推理框架

针对上述问题,本文提出了一个名为 Dr. MAMR (Multi-agent Meta-Reasoning Done Right) 的新框架。

创新点1:夏普利启发的因果影响测量

为了更精确地为每一步行为分配信用,Dr. MAMR 设计了一种稳定、高效的因果影响测量方法。该方法受夏普利值(Shapley values)启发,核心思想是:

  1. 分组聚合:对于某个待评估的行为步骤 $s_{i,t}$,在所有训练轨迹中找到一组在语义上与其相似的步骤 $G_S(s_{i,t})$。
  2. 计算边际贡献:对组内的每一个步骤 $s_{j,t’}$,分别计算其对下一步 $s_{j,t’+1}$ 的因果影响,即比较包含该步骤和不包含该步骤(通过掩码实现)时模型生成下一步的对数概率差值 $\Delta\ell_{j,t’}$。
  3. 求平均:将组内所有步骤的因果影响求平均,作为 $s_{i,t}$ 的最终因果影响得分 $\mathrm{CI}(s_{i,t})$。
\[\mathrm{CI}(s_{i,t})\;=\;\frac{1}{ \mid G_{S}(s_{i,t}) \mid }\sum\_{(j,t^{\prime})\,:\,s_{j,t^{\prime}}\in G_{S}(s_{i,t})}\Delta\ell_{j,t^{\prime}}.\]

这种方法通过聚合不同上下文中相似想法的贡献,避免了单一样本带来的噪声和对特定措辞的偏见,从而得到更稳健的贡献评估。

创新点2:支持深思熟虑的推理智能体

随着智能体协作加深,交互轮次增多,推理智能体可能会因过早地依赖不充分的上下文或被自己之前的错误输出误导而“迷失方向”。

ReMA+ 与 ReMA 在8个基准测试上的性能差距

为了解决这个问题,Dr. MAMR 赋予推理智能体深思熟虑 (deliberation) 的能力:当它认为有必要时,可以主动丢弃之前的历史输出,整合元思维智能体的指令,并重新开始推理。

本文引入了一个特殊的控制Token \([RESTART]\) 来触发这一行为,并设计了一种可验证的重启奖励机制来指导该行为的训练。该奖励机制的核心是:

该奖励公式如下:

\[r^{\text{restart}}_{i,t}\;=\;\begin{cases}+1,&\text{if }(z_{i}=+1\,\wedge\,\Delta\ell_{i,t}>0)\;\;\text{or}\;\;(z_{i}=-1\,\wedge\,\Delta\ell_{i,t}<0),\\[6.0pt] -1,&\text{if }(z_{i}=+1\,\wedge\,\Delta\ell_{i,t}<0)\;\;\text{or}\;\;(z_{i}=-1\,\wedge\,\Delta\ell_{i,t}>0),\\[6.0pt] 0,&\text{if }\Delta\ell_{i,t}=0.\end{cases}\]

最终优化目标

Dr. MAMR 的最终训练目标移除了导致偏差的 $\frac{1}{T}$ 归一化项,并构建了一个新的步级别优势函数 $A^{\mathrm{step}}_{i,t}$,它由三部分加权组成:

\[A^{\mathrm{step}}_{i,t}\;=\;\tilde{A}_{i,t}\,+\,\alpha\,\tilde{C}_{i,t}\,+\,\beta\,\tilde{R}_{i,t}\]

其中,$\tilde{A}_{i,t}$ 是基于最终结果的标准化优势,$\tilde{C}_{i,t}$ 是标准化的夏普利启发因果影响,$\tilde{R}_{i,t}$ 是标准化的可验证重启奖励。$\alpha$ 和 $\beta$ 是超参数。这个综合的优势函数能够同时鼓励智能体做出有实际贡献的行为和在必要时进行深思熟虑的重启。

实验结论

本文在数学推理数据集 DeepScaleR 上对模型进行训练,并在多个数学竞赛级别的基准测试上进行评估。

最终结论:本文的分析和方法有效地解决了序贯多智能体LLM推理中的懒惰智能体问题。通过修正训练目标的内在偏差,并引入基于因果影响和可验证重启奖励的机制,Dr. MAMR 框架成功地促进了智能体之间更有意义的协作,从而显著提升了模型在复杂推理任务上的表现,真正释放了多智能体框架的潜力。