LLM$\times$MapReduce-V3: Enabling Interactive In-Depth Survey Generation through a MCP-Driven Hierarchically Modular Agent System


TL;DR

本文提出了一种名为 LLM×MapReduce-V3 的分层模块化智能体系统,该系统通过模型-上下文-协议 (MCP) 驱动的动态规划,实现了交互式、可定制的深度综述论文生成。

关键定义

相关工作

目前,人工智能驱动的自动化研究在信息检索和内容生成方面取得了显著进展,代表性系统有 WebGPT、Self-RAG 和 GPT-Researcher 等。然而,这些系统通常缺乏足够的用户参与和灵活性。在综述生成领域,虽然 AutoSurvey、InteractiveSurvey 等工具出现,但它们往往将用户锁定在僵化、“一站式”的工作流中,缺乏对过程的迭代优化和定制化能力。

同时,模型-上下文-协议 (MCP) 作为一种连接模型与工具的开放标准,已在 Alita、AgentDistill 等工作中展现出构建自适应智能体系统的潜力。

本文旨在解决现有综述生成系统刚性强、定制化能力弱、用户干预不足的问题。通过引入基于 MCP 的分层模块化架构和动态规划器,本文致力于构建一个开放、灵活且支持人机协作的深度综述生成系统。

本文方法

本文提出的 LLM×MapReduce-V3 是一个采用多智能体范式的生态系统,各个专用智能体在不同阶段处理任务,并通过 MCP 协议与一系列功能服务器进行交互。

系统工作流图

系统智能体-服务器生态系统工作流。用户首先指定主题,系统通过分析智能体、搜索智能体、骨架智能体和写作智能体协同工作,完成文献检索、大纲构建与优化、以及最终的论文撰写。

系统设计

系统由一组专用智能体 $\mathcal{A}={A_{1}, A_{2}, A_{3}}$(分析、骨架、写作智能体)和一个 MCP 服务器生态系统 $\mathcal{S}$ 组成。智能体与服务器之间的连接 $\mathcal{E}$ 是在每个工具调用轮次中动态确定的:

\[\mathcal{E}=\mathrm{MCP}(A\_{i}(\mathrm{output}_{i-1},\mathrm{plan}),\phi(\mathcal{A}_{i}))\]

其中,$\phi(A_{i})$ 定义了智能体 $A_{i}$ 可访问的服务器子集。

每个服务器 $S_i$ 通过 MCP 协议暴露一组工具 $\mathcal{T}(S_{i})$。智能体通过以下形式调用工具:

\[\text{invoke}:\mathcal{A}\times\mathcal{T}\times\mathcal{I}\rightarrow\mathcal{O}\]

其中 $\mathcal{I}$ 和 $\mathcal{O}$ 分别是输入和输出空间。

MCP 实现框架

本文方法的核心创新在于将 LLM×MapReduce-V2 的过程重构为一系列独立的、可组合的 MCP 服务器,并通过一个动态规划器进行智能编排。

人机交互

系统在关键决策点引入了人机交互,以确保生成内容与用户目标对齐。

实验结论

本文将 LLM×MapReduce-V3 与其他主流的深度研究和综述生成系统进行了功能对比和人工评估。

功能对比 如下表所示,相比于其他系统,本文提出的 LLM×MapReduce-V3 是首个全面整合了深度用户交互、模块化设计、MCP 标准化、自定义工具集成以及综述任务特定优化的开放解决方案。

系统 用户交互 模块化 MCP集成 自定义工具 综述优化 开源
Perplexity DR $\checkmark$ $\times$ $\times$ $\times$ $\times$ $\times$
Gemini DR $\checkmark$ $\times$ $\times$ $\times$ $\times$ $\times$
WebGPT $\checkmark$ $\sim$ $\times$ $\times$ $\times$ $\times$
ResearchAgent $\checkmark$ $\checkmark$ $\times$ $\sim$ $\times$ $\sim$
CoSearchAgent $\sim$ $\sim$ $\times$ $\times$ $\times$ $\times$
Search-o1 $\times$ $\sim$ $\times$ $\times$ $\times$ $\checkmark$
CrewAI $\sim$ $\checkmark$ $\checkmark$ $\checkmark$ $\times$ $\checkmark$
Alita $\times$ $\checkmark$ $\checkmark$ $\checkmark$ $\times$ $\checkmark$
AutoSurvey $\times$ $\times$ $\times$ $\times$ $\checkmark$ $\checkmark$
SurveyX $\sim$ $\sim$ $\times$ $\times$ $\checkmark$ $\checkmark$
LLM×MapReduce-V3 (本文) $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$ $\checkmark$

注:$\checkmark$ = 完全支持; $\sim$ = 有限支持; $\times$ = 不支持

人工评估 研究招募了五名领域专家,对本文系统、Gemini DeepResearch 和 Manus AI 在十一个主题上生成的文章进行评估。评估标准包括:大纲质量、内容长度和整体质量。

结果表明,与竞品相比,本文系统生成的文章在文献综述方面覆盖面更广,内容长度显著更长,并且在内容深度、结构连贯性和流畅性方面均表现出强大的性能,获得了专家评审的高度评价。

最终结论 LLM×MapReduce-V3 引入了一种基于 MCP 的模块化架构,成功克服了传统封闭式智能体系统的刚性。通过支持开放集成的可定制智能体和服务器,系统实现了前所未有的灵活性和可扩展性。其“人在环路”的设计确保了产出与人类专家意图的高度对齐,在综述生成任务上取得了卓越表现,并展示了其在更广泛知识密集型任务中的应用潜力。