TheMCPCompany: Creating General-purpose Agents with Task-specific Tools


TL;DR

本文提出了一个名为 TheMCPCompany 的大规模工具调用基准(包含超18000个工具),并通过实验证明,利用专门的工具集比通用浏览器能带来更好的性能和更低的成本,但从海量工具中检索并组合正确工具以解决复杂问题仍是当前智能体面临的核心挑战。

关键定义

相关工作

当前,通用的AI智能体主要依赖于浏览器、代码解释器等通用工具与环境交互。虽然已有一些研究开始探索专用工具,但它们普遍存在两个关键问题:

  1. 智能体研究的局限性: 现有的通用智能体框架和基准测试虽然模拟了复杂的任务和环境,但通常只集成极少数(几个到几十个)的专用工具。因此,当可用工具数量激增至数千乃至数万时,这些智能体的表现如何,目前尚不明确。
  2. 工具调用研究的局限性: 现有的工具调用研究虽然探讨了如何使用大量工具,但它们大多在简单的环境中进行,任务也相对简单(例如,任务描述与工具名称有很高的语义重叠)。这与真实世界的企业级应用场景(如修复一个复杂的云应用)相去甚远,在这些场景中,任务描述与所需工具之间的联系并不直观。

本文旨在解决上述问题,通过创建一个兼具任务复杂性、环境真实性和工具集规模化的新基准 TheMCPCompany,来系统性地研究和评估以大规模专用工具集为主要交互方式的智能体的潜力和挑战。

本文方法

本文的核心贡献在于构建了一个新的基准(TheMCPCompany)和一个对应的基线智能体(MCPAgent),以探索在工具极其丰富的企业环境中智能体的能力。

TheMCPCompany 基准

TheMCPCompany 是对现有基准 TheAgentCompany 的一次重大扩展,旨在模拟一个未来可能出现的、工具高度丰富的企业环境。

TheMCPCompany基准测试中的复杂Azure任务的正确解决路径示例。

r0.45

服务 (Service) MCP工具数量 (#MCP Tools) 平均参数数量 (Avg #Args) 复杂工具比例 (%) (Complex Tools (%))
Plane 52 2.06 28.85
RocketChat 520 2.82 12.31
ownCloud 11 1.64 0.00
GitLab 1,085 5.47 10.69
Azure 16,837 5.63 22.50
总计 (Total) 18,505 5.53 21.52

MCPAgent 智能体

为了应对拥有超过18,000个工具所带来的挑战(远超当前LLM的上下文窗口容量),本文设计了 MCPAgent。

MCPAgent架构。智能体通过一个网关MCP服务器与包含18000+工具的主服务器交互,使用工具查找器搜索并调用所需工具。

实验结论

本文在 TheAgentCompany 适配任务和新的 Azure 任务上,对多种 LLM(包括 GPT-4.1, GPT-5, Opus-4.1 等)进行了评估。

!

在TheAgentCompany的175个适配任务上,不同LLM模型的性能表现。Browser:LLM使用浏览器完成任务。MCPAgent:LLM使用工具查找器来发现和调用所需工具。Oracle Tool Set:LLM被直接给予完成每个任务所需的正确工具集。

TheAgentCompany 任务上的结论

  1. 专用工具的巨大潜力: 在“神谕”(Oracle)设定下(即直接为智能体提供完成任务所需的正确工具),与使用浏览器的智能体相比,使用专用工具的智能体平均性能提升13.79分,并且平均每个任务的推理成本降低了 $2.29(降幅达54%)。这证明了专用工具在性能和效率上的巨大优势。

  2. 专用工具在实践中的可行性: 在更实际的设定中,MCPAgent(需要自己检索工具)的表现仍然优于浏览器智能体,平均性能提升5.39分,成本同样显著降低。这表明即使面临工具检索的挑战,该方法在实践中仍然是更优的选择。

  3. 模型间的性能差异:

    • 对于能力较弱的模型,从“神谕”设定切换到“检索”设定后,性能下降明显。这说明它们虽然能使用给定的工具,但在从海量工具库中发现正确工具方面能力不足。
    • 相比之下,最先进的模型 GPT-5 在“检索”设定下的表现非常接近其在“神谕”设定下的表现。这表明,顶尖的推理模型已经具备了在相对简单的环境中有效发现和使用工具的能力。

Azure 复杂任务上的结论

总结