Alita-G: Self-Evolving Generative Agent for Agent Generation


TL;DR

本文提出了Alita-G,一个自进化生成智能体框架,它通过系统性地生成、抽象和管理一系列称为模型上下文协议(Model Context Protocol, MCP)的工具,将一个通用智能体转化为特定领域的专家,从而在提升复杂推理任务准确率的同时降低了计算成本。

关键定义

本文的核心是围绕模型上下文协议(Model Context Protocol, MCP)的生成和使用来构建智能体。

相关工作

当前,尽管自进化智能体取得了快速进展,但仍存在明显瓶颈。现有的进化机制通常范围狭窄,仅针对单一任务进行优化,而无法将一个通用智能体提升为能处理一系列相关任务的领域专家。此外,进化机制也偏于浅层,大多局限于改写提示词(prompt rewriting)或基于错误进行重试,而不是对整个智能体架构进行端到端的、任务导向的深度适应。真正的复杂任务需要规划、分解、工具使用和记忆等多方面能力的协同提升,而不仅仅是孤立的模块优化。

本文旨在解决上述问题,提出一种新的自进化范式:通过任务驱动的、端到端的适应,将一个通用智能体(general-purpose agent)转变为能够高效解决特定领域内一系列任务的领域专家(domain expert)。

本文方法

本文提出的 Alita-G 框架通过一个系统化的流程,将通用智能体的能力提炼并固化为可复用的领域专用工具,最终生成一个领域专家智能体。其核心流程包括任务驱动的MCP生成、MCP抽象与盒构建、基于RAG的MCP选择以及特化智能体执行四个阶段。

Alita-G 整体工作流程

任务驱动的MCP生成

框架的起点是一个强大的通用型“主智能体”(Master Agent)。给定一个领域内的任务集合 $\mathcal{T}={(x_{i},y_{i})}_{i=1}^{N}$,主智能体被引导去解决这些任务。在解决过程中,它不仅要输出最终答案,还要将可复用的子解决方案模块化为独立的MCP。每个生成的MCP包含代码、功能描述和触发其创建的任务上下文。

为了保证质量,框架采用多重执行策略,即每个任务被重复执行 $K$ 次。只有在成功完成任务(即 $\pi_{\text{master}}(x_{i})=y_{i}$)的执行轨迹中生成的MCP才会被收集起来,形成一个原始的MCP池 $\mathcal{L}$。

\[\mathcal{L}=\{\text{MCP}_{i,j}^{(k)}\mid\pi_{\text{master}}^{(k)}(x_{i})=y_{i},\;i\in[N],j\in[J_{k,i}],k\in[K]\}\]

MCP抽象与“MCP Box”构建

原始的MCP是与具体任务实例高度相关的。为了使其具有通用性,框架使用一个大语言模型对原始MCP池 $\mathcal{L}$ 中的每个MCP进行抽象处理。这个过程包括:

经过抽象后,所有泛化后的MCP被统一存放到一个名为“MCP Box” ($\mathcal{B}$) 的仓库中。这个仓库保留了每个MCP的实现多样性,以最大化覆盖潜在的任务变化。

RAG增强的MCP选择

在推理阶段,当面对一个新任务 $x_{\text{new}}$ 时,为了从“MCP Box”中高效地筛选出最相关的工具,框架引入了基于检索增强生成(Retrieval-Augmented Generation, RAG)的选择机制。

  1. 上下文表示:对于“MCP Box”中的每个MCP,将其功能描述(description)和使用案例(use case)拼接成一个复合上下文表示。
  2. 语义嵌入与相似度计算:使用预训练的嵌入模型 $\phi$ 分别计算新任务查询 $x_{\text{new}}$ 和每个MCP上下文的嵌入向量 $\mathbf{e}_{\text{query}}$ 和 $\mathbf{e}_{m}$。然后通过余弦相似度计算它们之间的相关性得分 $s_m$。

    \[s_{m}=\frac{\mathbf{e}_{\text{query}}\cdot\mathbf{e}_{m}}{\ \mid \mathbf{e}_{\text{query}}\ \mid _{2}\ \mid \mathbf{e}_{m}\ \mid _{2}}\]
  3. 工具筛选:框架支持两种筛选策略:
    • 阈值法 (Threshold-based): 选择相关性得分 $s_m$ 高于预设阈值 $\tau$ 的所有MCP。
    • Top-K法 (Top-k): 选择相关性得分最高的 $K$ 个MCP。

这种RAG机制确保了智能体在执行任务时,只携带一个高度相关且精简的工具集,从而提升效率和准确性。

特化智能体架构与推理

最终生成的特化智能体 $\pi_{\text{specialized}}$ 集成了主智能体的核心推理能力、精心构建的“MCP Box”以及RAG工具选择机制。其架构主要包括:

在推理时,特化智能体首先分析任务,通过RAG从“MCP Box”中检索出一套定制化的工具集,然后在后续的推理和执行循环中调用这些工具来解决问题,从而实现了从通用能力到领域专长的转化。

实验结论

本文在GAIA、PathVQA和Humanity’s Last Exam (HLE) 等多个基准上进行了广泛实验,结果证明了Alita-G框架的有效性。

下表展示了 Alita-G 与其他基线方法在不同基准测试上的性能对比。

方法 模型 GAIA (pass@1/3) PathVQA (pass@1) HLE (pass@1) 平均Tokens
OctoTools GPT-4 48.00 / 52.00 - - -
ODR-smolagents GPT-4 55.15 / - - - -
Alita-G Master Agent Claude-Sonnet-4 75.15 / 80.00 52.00% 24.00% 12,305
Alita-G (1x) Claude-Sonnet-4 80.00 / 84.91 55.00% 29.00% 11,043
Alita-G (3x) Claude-Sonnet-4 83.03 / 89.09 60.00% 33.00% 10,394
RAG内容 Level 1 Level 2 Level 3 平均值
描述 + 使用案例 86.79 83.13 70.76 83.03
仅描述 84.91 81.39 73.08 81.82
仅使用案例 83.01 79.06 61.53 77.57

最终结论是:本文提出的Alita-G框架为构建领域专家智能体提供了一个原则性且有效的方法。通过自动生成、抽象和检索复用MCP工具,该框架能够将通用智能体进化为在特定领域内更准确、更高效的专家,实现了性能和效率的双重提升。