MARS: Optimizing Dual-System Deep Research via Multi-Agent Reinforcement Learning


TL;DR

本文提出了一种名为 MARS 的双系统多智能体强化学习框架,该框架通过模拟人类认知的双系统(系统1的快速直觉与系统2的审慎推理),让两个智能体协同解决需要外部知识的复杂推理任务,显著提升了模型在动态信息环境下的深度研究和推理能力。

关键定义

本文的核心是构建一个模拟人类认知双系统的框架,主要沿用并扩展了以下概念:

相关工作

当前,大型推理模型(Large Reasoning Models, LRMs)在处理复杂问题时表现出色,但解决简单问题时常出现“过度分析”倾向,导致不必要的Token消耗。同时,所有大型语言模型都受限于其预训练数据的截止日期,难以适应快速变化的环境和获取最新知识。

虽然检索增强生成(Retrieval-Augmented Generation, RAG)技术通过引入外部知识源缓解了知识过时的问题,但现有RAG系统面临两大瓶颈:1)在处理多个长篇文档(如完整网页或研究论文)时,容易出现“信息过载”;2)为了避免过载而对信息进行压缩时,又可能丢失关键细节。

本文旨在解决上述问题,即如何在不牺牲推理深度和不造成信息过载的前提下,高效地利用海量、动态的外部信息来增强复杂推理能力。

本文方法

本文提出了一个名为MARS(Multi-Agent System for Deep Research)的深度研究多智能体系统。其核心是一个创新的双系统协作框架,并通过专门的多智能体强化学习策略进行端到端优化。

双系统协作框架

MARS框架将系统1的直觉处理能力与系统2的审慎推理能力整合在同一个LLM中,并通过不同的提示来激活。两者通过一个清晰定义的协作流程解决复杂问题。

MARS双系统协作框架概览

该协作流程可以形式化为多轮交互:

  1. 系统2进行推理与规划:在第 $i$ 轮,系统2($\pi_{\text{sys}_2}$)根据当前上下文 $c_i$(包含初始问题和之前轮次信息),生成推理步骤 $s_i$,并可能生成一个工具调用请求(包含工具参数 $t_i$ 和调用目的 $p_i$)。

    \[s_i, (t_i, p_i) = \pi_{\text{sys}_2}(c_i)\]
  2. 外部工具执行:如果 $t_i$ 存在,外部环境(如Google搜索)执行该调用,返回原始输出 $o_{t_i}$。
  3. 系统1处理信息:系统1($\pi_{\text{sys}_1}$)根据系统2提供的“目的” $p_i$,处理海量的原始输出 $o_{t_i}$,将其提炼为简洁有效的信息 $\tilde{o}_{t_i}$。

    \[\tilde{o}_{t_i} = \pi_{\text{sys}_1}(\text{Bin-Packing}(o_{t_i}^{(1)}, \dots, o_{t_i}^{(n_{t_i})}), p_i)\]
  4. 上下文更新:将本轮的推理、工具调用和提炼后的信息整合,更新上下文,为下一轮做准备。

    \[c_{i+1} = c_i \oplus \{s_i, t_i, p_i, \tilde{o}_{t_i}\}\]

这个过程迭代进行,直到系统2认为可以生成最终答案。

创新点

本文方法的主要创新之处在于明确的劳动分工和协同优化

双系统优化策略

为了实现端到端的训练,本文提出了一套基于多智能体强化学习的优化策略,扩展了GRPO(Group Relative Policy Optimization)算法。

MARS中的GRPO多智能体强化学习演示

用装箱算法高效处理内容

系统1在处理工具返回的大量可变长度文本时,为提升并行处理效率,本文采用了基于首次适应递减(First Fit Decreasing, FFD)算法的装箱(Bin-Packing)策略。该策略将不定长的文本块高效地组织成大小最优的批次,减少了系统1生成摘要所需的总次数。

优势预计算与平衡采样机制

在训练中,一次推理轨迹(trajectory)会产生1个系统2样本和多个(取决于工具调用次数)系统1样本,导致样本数量严重不平衡。为解决此问题,本文提出:

  1. 优势预计算:首先,对一次批次中产生的所有系统1和系统2的样本,分别在各自的组内进行奖励归一化,并计算优势函数(Advantage)。

    \[A_{\text{sys}_2}^{k} = \frac{r_{\text{sys}_2}^{k}-\text{mean}(\mathbf{r}_{\text{sys}_2})}{\text{std}(\mathbf{r}_{\text{sys}_2})}, \quad A_{\text{sys}_1}^{k,j} = \frac{r_{\text{sys}_1}^{k,j}-\text{mean}(\mathbf{r}_{\text{sys}_1})}{\text{std}(\mathbf{r}_{\text{sys}_1})}\]
  2. 平衡采样:计算完所有样本的优势后,再对数量过多的系统1样本进行随机降采样(或对数量不足的进行上采样),使其数量与系统2的样本数对齐。这种“先计算后采样”的方式确保了优势分布的统计完整性。

多智能体训练目标

通过平衡采样后,系统1和系统2使用扩展的GRPO框架进行联合优化。总损失函数为两个系统损失之和:

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{sys}_2} + \mathcal{L}_{\text{sys}_1}\]

每个系统的损失均遵循GRPO目标函数,该函数包含一个策略损失项和一个KL散度正则化项,以确保在学习新策略的同时不过于偏离原始模型。

实验结论

本文在极具挑战性的HLE(Humanity’s Last Exam)基准和7个知识密集型问答任务上进行了广泛实验。

主要结果

模型 总体(%) 数学 物理 化学 生物/医学 CS/AI 人文社科 其他
Qwen2.5-7B-Instruct 2.51 3.51 1.97 1.83 2.89 3.12 1.70 2.65
Qwen3-8B 3.15 4.60 3.61 2.33 3.32 3.84 1.98 2.66
MARS (Qwen2.5-7B) 6.51 10.22 4.94 5.00 6.40 6.25 3.97 5.92
MARS (Qwen3-8B) 7.38 9.92 6.25 5.50 5.94 6.25 3.72 7.51
模型 NQ TriviaQA PopQA HotpotQA 2Wiki Musique Bamboogle 平均
C-3PO 78.4 82.5 60.1 63.8 66.8 49.3 59.4 65.76
MARS 84.5 89.8 65.3 74.1 78.2 62.7 68.8 74.77
增益 +6.1 +7.3 +5.2 +10.3 +11.4 +13.4 +9.4 +8.9

过程分析与消融研究

RL训练过程综合分析 训练奖励曲线 每问工具使用次数 Python使用率 Google Search使用率 Google Scholar使用率 最短响应长度(系统1) 平均响应长度 最长响应长度(系统2)

工具 总体(%) 数学 物理 化学 生物/医学 CS/AI 人文社科 其他
All 7.38 9.92 6.25 5.50 5.94 6.25 3.72 7.51
w/o Python 6.47 8.38 5.27 7.50 6.40 6.25 3.21 5.81
w/o Google 6.00 9.07 3.30 5.50 5.48 6.25 4.22 5.81
w/o Scholar 7.15 10.22 5.92 5.50 5.48 3.12 3.97 9.09

最终结论

实验结果有力地证明,本文提出的MARS框架通过模拟双系统认知,并结合多智能体强化学习进行优化,能够高效利用海量外部信息,在不牺牲计算效率的前提下,显著提升模型在各类复杂推理任务上的表现。该方法为构建更强大、更高效的AI研究与推理系统提供了有效范式。