Tongyi DeepResearch Technical Report


TL;DR

本文介绍了通义深搜(Tongyi DeepResearch),一个开源的AI研究智能体,它通过创新的“智能体中训练”与“智能体后训练”两阶段训练框架,结合可扩展的合成数据引擎,实现了领先的深度研究能力。

关键定义

相关工作

当前,能够执行深度研究任务的智能体系统已经展现出巨大潜力,但多数系统(如OpenAI、Claude、Grok、Gemini等)仍是闭源的,其内部研究过程无法被外界访问和研究。尽管学术界已有一些初步的探索,但仍然缺乏一个系统性的方法论和可以被社区共享的、完全开源的高性能模型。

本文旨在解决这一问题,目标是构建一个开放的AI研究人员——通义深搜(Tongyi DeepResearch),赋予大语言模型(LLM)自主规划、搜索、推理和综合知识的能力,从而推动和加速整个社区在该领域的研究进展。

本文方法

方法概述

本文提出的通义深搜(Tongyi DeepResearch)基于Qwen3-30B-A3B-Base模型构建,其核心是一个统一了智能体中训练和后训练的端到端训练框架。该框架旨在通过精心设计的训练阶段、可扩展的合成数据引擎以及多形态的交互环境,系统性地培养LLM从基础交互到高级自主研究的复杂能力。

智能体行为范式

通义深搜的智能体行为主要基于两种范式:

ReAct 范式

智能体的基础架构采用了ReAct (Yao et al., 2023) 框架,该框架交错地生成思考(Thought)和行动(Action)。智能体根据历史交互记录 $\mathcal{H}_{t-1}$ 生成当前的思考 $\tau_t$ 和行动 $a_t$,形成一个由“思考-行动-观察”三元组构成的轨迹 $\mathcal{H}_T$。

\[\mathcal{H}_{T}=(\tau_{0},a_{0},o_{0},\dots,\tau_{i},a_{i},o_{i},\dots,\tau_{T},a_{T})\]

在任意步骤 $t$,策略 $\pi$ 生成思考和行动的公式为:

\[\tau_{t},a_{t}\sim\pi(\cdot \mid \mathcal{H}_{t-1})\]

本文选择ReAct是因其简洁性和可扩展性,符合“苦涩的教训 (The Bitter Lesson)”所倡导的原则,即通用方法最终会胜过依赖复杂人类工程知识的方法。

上下文管理范式

为了解决长程任务中上下文窗口有限的问题,本文采用了上下文管理范式 (Context Management paradigm)。该范式不依赖完整的历史记录,而是在每一步 $t$ 都基于一个动态重构的工作区来做出决策。这个工作区只包含关键信息:问题 $q$、一个不断演进的报告(作为压缩记忆)$S_t$,以及上一步的交互(行动 $a_t$ 和观察 $o_t$)。其核心更新过程可表示为:

\[S_{t},\tau_{t+1},a_{t+1}\sim\pi(\cdot \mid S_{t-1},a_{t},o_{t})\]

这种机制不仅避免了上下文溢出,还迫使智能体在每一步都进行信息的综合与提炼,模拟了人类研究中周期性总结和反思的模式。

整体训练流程

通义深搜的训练流程从预训练好的Qwen3-30B-A3B-Base模型开始,依次经过智能体中训练智能体后训练两个核心阶段。

通义深搜训练流程

智能体中训练 (Agentic Mid-training)

该阶段是连接预训练和智能体后训练的关键桥梁,目标是为模型注入强大的智能体行为归纳偏置,同时保持其通用语言能力。

训练配置

此阶段采用两阶段的持续预训练 (Continual Pre-training, CPT)。

大规模智能体行为数据合成

为支持中训练,本文设计了一套覆盖智能体工作流全生命周期的数据合成方法。

智能体行为数据合成流程

此外,为了提升模型的通用函数调用能力,本文还通过环境扩展 (environment scaling) 的方式,自动构建了大量异构的、完全模拟的函数调用环境,并生成相应数据用于中训练。

智能体后训练 (Agentic Post-training)

后训练流程包含三个阶段:高质量数据合成、用于冷启动的监督微调(SFT)和智能体强化学习(RL)。

高质量数据合成

本文开发了一个端到端的自动化数据引擎,用于生成复杂的、高不确定性的、达到超人水平的问答对,无需任何人工干预。

高质量数据合成流程

该流程首先通过随机游走构建高度互联的知识图谱,并从真实网站获取同构表格,以模拟真实的信息结构。然后,它采样生成初始问答对,并通过对实体关系进行一系列可控的“原子操作”(如合并相似属性的实体)来系统性地增加问题难度。此外,本文基于集合论对信息搜寻问题进行形式化建模,从而能以可控的方式扩展问题,减少推理捷径,并有效验证合成数据的正确性。

监督微调 (SFT)

SFT阶段旨在为强化学习提供一个鲁棒的初始策略。本文使用高性能开源模型为合成的高质量问题生成SFT训练轨迹,并通过严格的拒绝采样来筛选。训练采用了混合训练范式

智能体强化学习 (RL)

为了让模型在复杂的网络环境中掌握更鲁棒的规划和搜索能力,本文应用了一个智能体RL框架。

智能体强化学习框架概览

\[\mathcal{J}(\theta)= \mathbb{E}_{(q,y)\sim\mathcal{D},\{\mathcal{H}^{i}\}_{i=1}^{G}\sim\pi_{\theta_{\text{old}}}}(\alpha\cdot\mathcal{J}_{\text{align}}(\theta) + (1-\alpha)\cdot\mathcal{J}_{\text{PPO}}(\theta))\]

其中,$\mathcal{J}_{\text{PPO}}$ 是标准的PPO损失,而 $\mathcal{J}_{\text{align}}$ 是一个对齐项,用于确保只有在最终答案正确时才对成功的轨迹进行正向梯度更新,这有助于稳定训练过程并提高样本效率。

实验结论

通义深搜在多个深度研究基准测试上取得了SOTA(State-of-the-Art)性能,其参数量仅为305亿(每个token激活33亿),但表现优于OpenAI-o3和Deepseek-V3.1等强大的基线模型。

具体性能表现如下:

基准测试 Tongyi DeepResearch 性能
Humanity’s Last Exam 32.9
BrowseComp 43.4
BrowseComp-ZH 46.7
WebWalkerQA 72.2
GAIA 70.9
xbench-DeepSearch 75.0
FRAMES 90.6
xbench-DeepSearch-2510 55.0

此外,在AIME25、HMMT25和SimpleQA等通用基准测试中也取得了优异表现。

这些实验结果充分验证了本文提出的“智能体中训练+后训练”框架以及合成数据引擎的有效性。最终结论是,本文提出的系统性方法论为构建可扩展、高性能的开源AI研究智能体提供了坚实的基础,并指明了智能体模型是未来发展的一个重要趋势。