AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis


TL;DR

本文提出了 AgentFrontier,一个基于教育心理学“最近发展区”(ZPD)理论的数据合成框架,通过自动生成位于大语言模型(LLM)能力边界上的复杂推理数据,从而系统性地提升智能体(Agent)的跨领域、综合推理能力。

关键定义

本文为将教育学理论应用于大语言模型智能体训练,提出并具象化了以下核心概念:

相关工作

当前,尽管大语言模型在基础推理任务上表现出色,但在需要深度、跨领域和综合性推理的复杂场景中仍然面临瓶颈。这种差距主要归因于现有训练数据的两大缺陷:

  1. 缺乏对智能体能力的系统性培养:现有语料库很少能统一地训练模型使用工具、自我反思、迭代规划和多步推理等高级智能体技能。
  2. 数据合成范式的局限性:现有数据合成方法多为“以查询为中心”(生成现有问答对的变体)或“以文档为中心”(从单个文档生成问答对)。这两种方法主要考察局部信息理解,类似于对学生的单章节测验,而无法培养其跨越整个课程体系进行综合分析的能力。

因此,本文旨在解决一个核心问题:如何自动、可扩展地合成高质量、高难度的训练数据,这些数据能够精确地挑战并拓展 LLM 智能体的能力边界(Frontier),特别是其进行多源信息融合与复杂推理的能力。

本文方法

本文的核心贡献是 AgentFrontier 数据引擎,一个基于 ZPD 理论的、旨在自动生成复杂推理数据的三阶段框架。该框架能够主动地创造并校准数据难度,推动 LLM 从知识检索器向高级推理智能体演进。

AgentFrontier引擎的三阶段合成流水线

第一阶段:生成用于知识融合的种子问题

此阶段旨在创造天生就需要融合多个信息源才能回答的问题。

  1. 语料库预处理:从包含一百万份公开文档的多学科原始语料库 $\mathcal{C}_{\text{raw}}$ 开始,使用一个强大的 LLM(Qwen3-235B-A22B)作为分块函数 $\Phi_{\text{chunk}}$,将其清洗并浓缩为信息密集的文本块 $\mathcal{C}_{\text{chunk}}$。
  2. 构建复合单元:为了避免组合搜索带来的计算爆炸,本文采用了一种基于检索的高效方法。首先为所有文本块建立向量索引,然后为每个块 $c_i$ 检索其 $k$ 个最近邻。在这些邻居中,搜索具有高主题一致性的三元组 $(c_i, c_j, c_k)$ 作为“复合单元” $U_c$。
  3. 生成种子问答:将这些复合单元输入给生成器模型 $\mathcal{M}_{\text{gen}}$,合成初始的问答对 $(q_0, a_0)$。由于每个问题源自多个相关但不同的文本块,这确保了种子问题本身就具备知识融合的需求。

第二阶段:通过智能体优化来提升复杂度

此阶段通过一个配备工具套件(包括网络搜索、学术搜索、浏览器、代码执行器)的优化智能体 $\mathcal{A}_{\text{refine}}$,对种子问答进行迭代式增强。 智能体对每个问答对 $(q_k, a_k)$ 应用一个“提升算子” $\Psi_{\text{escalate}}$,从四个维度进行丰富:

这个自举过程形成了一个良性循环,每一轮的输出都成为下一轮的输入,从而逐步构建出具有复杂推理路径的高难度问答数据集 $\mathcal{D}_{\text{refined}}$。

迭代优化过程示例

第三阶段:基于 ZPD 的过滤与校准

这是本文方法的创新核心,用于从复杂数据中筛选出最具训练价值的部分。

  1. 定义 LKP 与 MKO:实例化两个智能体角色:一个是没有工具的基础 LLM 作为“知识较少的同伴”($\mathcal{A}_{\text{LKP}}$),另一个是配备工具的强大 LLM 作为“知识更渊博的他者”($\mathcal{A}_{\text{MKO}}$)。
  2. ZPD 校准
    • 步骤一:LKP 测试。对于每个候选问答对 $(q, a)$,首先让 $\mathcal{A}_{\text{LKP}}$ 尝试解答。如果成功,说明该任务对于当前模型来说太简单,被划分到用于持续预训练的知识密集型数据集 $\mathcal{D}_{\text{pretrain}}$。
    • 步骤二:MKO 验证。如果 $\mathcal{A}_{\text{LKP}}$ 解答失败,该任务则被传递给 $\mathcal{A}_{\text{MKO}}$。$\mathcal{A}_{\text{MKO}}$ 会进行 $N=3$ 次的“最佳答案”(Best-of-N, BoN)验证。
      • 如果 MKO 至少有一次成功解答,那么该问答对被认为处于模型的 ZPD内(即有挑战性但通过辅助可学),并被收入最终的“前沿水平”微调数据集 $\mathcal{D}_{\text{ZPD}}$。
      • 如果 MKO 三次均失败,说明该任务可能存在缺陷或难度过高,被移交人工分析。
  3. 多样性过滤:最后,通过一个重排序模型(reranker model)进行语义冗余过滤,确保最终数据集 \(D_ZPD\) 中的问题具有多样性。

通过这套流程,AgentFrontier 引擎能够持续、可扩展地生成校准到模型能力前沿的复杂推理数据。

ZPD Exam:一个自我演进的 LLM 智能体基准

为了评估快速发展的 LLM 智能体,本文还提出了 ZPD Exam,一个能与模型能力共同演进的自动化基准。

基准构建

ZPD Exam 利用 AgentFrontier 引擎生成,但使用与训练数据完全不相交的语料库(30,000篇2023-2025年发表的科研论文),确保评估的公正性。其核心设计理念是:

  1. 基于知识前沿:问题源自最新的科学文献,杜绝了仅靠模型内部参数知识就能回答的可能性。
  2. ZPD 对齐:通过严格的对抗性过滤,一个问题必须满足双重约束才能入选:(1)基线模型在无工具辅助下三次尝试均失败;(2)同一模型在有工具辅助下三次尝试均能成功。这确保了题目精确地位于模型的 ZPD 边界。

最终生成的 ZPD Exam-v1 包含1024个公开问题,覆盖数学、计算机、物理等9个学科。

ZPD Exam-v1 的学科分布

作为诊断工具的 ZPD Exam

ZPD Exam 不仅是一个排行榜,更是一个诊断工具。它将智能体的表现清晰地划分为三个区域,揭示了其能力发展阶段:

  1. 内在知识区:无工具辅助的 LLM 在此区域得分极低,验证了这些任务超出了其“闭卷”能力范围。
  2. 最近发展区(ZPD):有工具辅助但表现不完美的智能体处于此区域。它们的失败往往不是因为工具使用错误,而是因为更高阶的“推理瓶颈”——缺乏战略规划、跨工具调用的信息综合能力。
  3. 能力掌握区:顶尖智能体(如 DeepSeek-V3.1)在此区域表现出色,它们超越了推理瓶颈,能像 MKO 一样无缝整合工具探索和推理过程,解决了远超其内在能力的问题。

实验结论

实验设置

各训练数据集的统计信息如下表所示,AgentFrontier 在工具使用上表现出更好的平衡性和多样性。

数据集 平均轮数 平均调用次数(总计) 学术搜索 浏览器 代码
TaskCraft 3.38 1.04 0.14 1.19 0.01
MegaScience 2.68 0.26 0.56 0.49 0.37
MiroVerse 2.18 0.12 0.04 0.09 0.93
AgentFrontier 3.32 0.32 0.66 0.82 0.52

主要结果

HLE-text-only 上的准确率

BoN分析结果

不同数据集在不同解决轮数下的准确率

最终结论

AgentFrontier 框架通过其创新的 ZPD 引导的数据合成和校准机制,被证明是一种极其有效的方法。它能够生成高质量的训练数据,显著提升 LLM 智能体在需要多步、跨领域、多工具协作的复杂任务上的推理和解决问题的能力,成功地将模型的能力边界向前推进。