DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL


TL;DR

本文提出了 DeepDive 方法,通过从知识图谱自动合成高难度问题,并采用端到端多轮强化学习进行训练,旨在提升大型语言模型(LLM)作为深度搜索智能体所需的长时序推理和信息检索能力。

关键定义

相关工作

当前,尽管大型语言模型在数学和编程等复杂推理任务上表现出色,但在作为深度搜索智能体方面,尤其是在开源模型领域,与顶尖的专有模型(如 OpenAI DeepResearch)相比仍存在巨大差距。

研究现状的主要瓶颈可归结为两点:

  1. 缺乏高质量的训练数据:现有的问答数据集(如 HotpotQA)中的问题通常过于简单,无法模拟真实世界中信息分散、模糊且难以查找的“深度搜索”场景。这使得模型难以学习到真正的长时序推理和搜索能力。
  2. 缺乏有效的训练方法:如何将长时序推理与深度搜索工具的使用有效结合,仍然是一个开放问题。即使是强大的推理模型(如 DeepSeek-R1),在实际使用中也仅进行浅层工具调用,并且容易产生幻觉。

本文旨在解决上述两个核心问题,即通过创新的数据合成策略和训练框架,提升开源模型作为深度搜索智能体的能力。

本文方法

本文提出了 DeepDive 方法,旨在通过高质量的数据构建和端到端的强化学习训练,来提升深度搜索智能体的长时序信息获取能力。该方法包含两大核心技术:从知识图谱自动化合成问答数据,以及端到端多轮强化学习。

交互框架

本文首先建立了一个模仿人类网页浏览的交互框架,作为智能体学习的环境。智能体的每个决策遵循一个“推理-工具调用-观察”的迭代循环。在第 $t$ 步,智能体生成一段思维链 $c_{t}$,执行一个浏览动作 $a_{t}$,并观察返回的网页内容 $o_{t}$。这个过程会持续进行,直到智能体认为收集到足够信息并输出最终答案。整个任务执行过程可以表示为一个轨迹 $\mathcal{T}$:

\[\mathcal{T}=\left[q,\left(c\_{1},a\_{1},o\_{1}\right),\ldots,\left(c\_{m},a\_{m},o\_{m}\right),c\_{\mathrm{ans}},a\_{\mathrm{eos}}\right],\quad m\leq n\]

智能体的动作空间包括 \(search\)、\(click\) 和 \(open\) 三种核心操作。

Refer to caption

基于知识图谱的自动化数据合成

为了解决高质量训练数据稀缺的问题,本文提出了一种基于知识图谱 (Knowledge Graphs, KGs) 的自动化、可控的数据合成方法。

创新点: 使用知识图谱的优势在于其事实的可验证性、天然的多跳结构以及可控的推理难度。通过对实体属性进行选择性地模糊化,可以创造出需要模型进行迭代式推理和搜索才能解决的难题。

合成流程:

  1. 生成复杂路径:在知识图谱 $G=(V, E)$ 中,从一个初始节点 $v_0$ 开始进行 $k$ 步的随机游走,生成一条路径 $P=\left[v_{0},v_{1},\ldots,v_{k}\right]$。为了增加问题的复杂性,路径长度 $k$ 通常较大(如 $k>5$)。
  2. 属性丰富与混淆:将路径中的每个节点 $v_i$ 与其属性集合结合,形成一条富含属性的路径 $P_A$。

    \[P_{A}=\left[\left(v_{0},\left[a_{0}^{0},a_{0}^{1},\ldots\right]\right),\left(v_{1},\left[a_{1}^{0},a_{1}^{1},\ldots\right]\right),\ldots,\left(v_{k},\left[a_{k}^{0},a_{k}^{1},\ldots\right]\right)\right]\]

    接着,从路径的末端节点 $v_k$ 中选择一个属性 $a_k^i$ 作为标准答案。

  3. LLM混淆生成:利用一个强大的LLM对整条属性路径 $P_A$ 进行信息混淆(例如,将具体日期泛化为时间范围),最终生成一个具有挑战性的问答对 $(q, a_k^i)$。

    \[(q,a_{k}^{i})=\text{LLM-obscure}(P_{A})\]

Refer to t caption

为了进一步提升路径质量和问题难度,本文还引入了两个约束:

端到端多轮强化学习

在获得高质量的问答数据后,本文采用端到端多轮强化学习 (RL) 来训练深度搜索智能体。

Refer to caption

创新点: 本文采用了 GRPO (Group Relative Policy Optimization) 算法进行多轮RL训练,并设计了严格的奖励机制来引导模型学习如何在多步交互中进行有效的搜索、推理并在合适的时机终止。

训练流程:

  1. GRPO 算法:对于每个问题,从当前策略 $\pi_{\theta}$ 中采样一组轨迹 $G$。对每个轨迹计算归一化优势 $A_i$,并更新策略参数 $\theta$ 以最大化一个带KL散度惩罚的裁剪目标函数:

    \[\mathcal{L}(\theta)=\frac{1}{G}\sum_{i=1}^{G}\left[\min\left(\rho_{i}A_{i},\operatorname{clip}\left(\rho_{i},1-\epsilon,1+\epsilon\right)A_{i}\right)-\beta\mathrm{KL}\left(\pi_{\theta}\ \mid \pi_{\mathrm{ref}}\right)\right]\]

    其中 $\rho_i$ 是重要性采样比。

  2. 严格奖励函数:为了确保学习的有效性和鲁棒性,本文设计了一个严格的二元奖励函数。只有当轨迹中每一步的格式都正确,并且最终答案也正确时,奖励才为1,否则为0。

    \[r(\mathcal{T})=\begin{cases}1,&\left(\forall\ i,\text{Format}\left(c_{i},a_{i}\right)\right)\wedge\text{Judge}\left(a_{\mathrm{eos}},a^{\*}\right)\\ 0,&\text{otherwise}\end{cases}\]

    同时,引入了提前退出机制,即一旦模型在任何步骤中产生格式错误,轨迹生成将立即终止并获得0奖励,这大大提高了训练效率和正样本的可靠性。

实验结论

整体性能

DeepDive 在多个具有挑战性的深度搜索基准测试中展现了卓越的性能。

表1: 在深度搜索QA基准上的评估结果。报告准确率(%)。

| 模型 | 推理 | 浏览 | BrowseComp | BrowseComp-ZH | Xbench-DeepSearch | SEAL-0 | | :— | :—: | :—: | :—: | :—: | :—: | :—: | | 专有模型 | | | | | | | | GPT-4o$\dagger$ | ✗ | ✓ | 1.9* | 12.8 | 30.0 | 9.1 | | Claude-3.7-Sonnet$\dagger$ | ✗ | ✓ | 4.5 | 14.2 | 29.0 | 14.4 | | o1 | ✓ | ✗ | 9.9* | 29.1* | 38.0 | 11.7 | | Claude-4-Sonnet-Thinking$\dagger$ | ✓ | ✗ | 14.7 | 30.8 | 53.0 | 37.8 | | DeepResearch | ✓ | ✓ | 51.5* | 42.9* | - | - | | 开源模型 | | | | | | | | QwQ-32B$\dagger$ | ✓ | ✓ | 1.3 | 14.5 | 27.0 | 4.5 | | DeepSeek-R1-0528 | ✓ | ✗ | 3.2 | 28.7 | 37.0 | 5.4 | | WebSailor-32B | ✓ | ✓ | 10.5* | 25.5* | 53.3* | - | | DeepDive-9B (sft-only) | ✓ | ✓ | 5.6 | 15.7 | 35.0 | 15.3 | | DeepDive-9B | ✓ | ✓ | 6.3 | 15.1 | 38.0 | 12.2 | | DeepDive-32B (sft-only) | ✓ | ✓ | 9.5 | 23.0 | 48.5 | 23.9 | | DeepDive-32B | ✓ | ✓ | 14.8 | 25.6 | 50.5 | 29.3 | 注:$\dagger$ 表示通过函数调用配备了浏览功能。

RL的作用

实验证明,强化学习是驱动模型进行更深度搜索的关键。

Refer to caption Refer to caption Refer to caption

图6: RL训练过程中,DeepDive-32B的训练奖励(a)、在BrowseComp-266上的评估准确率(b)以及平均工具调用次数(c)。

泛化能力与推理的重要性

Refer to caption

图7: DeepDive在简单搜索基准上的泛化能力。

测试时扩展性

本文探索了在推理阶段通过增加计算量来提升性能的策略,即“测试时扩展 (test-time scaling)”。

Refer to caption Refer to caption

图8: DeepDive-32B模型在不同最大工具调用次数下的性能变化。

Refer to caption

图9: DeepDive-32B在8路并行采样中不同答案选择策略的性能对比。

消融研究

消融实验证实了本文提出的合成数据和训练方法的有效性。

表2: 不同SFT和RL配置下的消融研究结果。
骨干模型 训练数据 BrowseComp-266 BrowseComp-ZH SEAL-0 XBench-DeepSearch        
    Acc #Turn Acc #Turn Acc #Turn Acc #Turn
监督微调 (SFT)                  
QwQ-32B 1.9 1.5 14.5 1.2 4.5 1.1 27.0 1.5
  + HotpotQA 4.9 20.2 13.5 11.1 18.0 8.0 35.0 8.1
  + 本文数据 7.5 32.7 19.0 24.1 25.2 13.0 45.5 15.4
强化学习 (RL)                  
DeepDive-32B (SFT only) + HotpotQA 9.2 33.2 22.7 23.3 21.6 13.6 47.0 15.1
  + 本文数据 12.0 47.2 25.6 29.1 29.3 14.9 50.5 17.5

附加研究:i.i.d. 数据合成

为了进一步提升在特定基准上的性能,本文进行了附加研究,采用半自动化的方式生成了与 BrowseComp 基准独立同分布(i.i.d.)的训练数据。通过让标注员在模型辅助下生成高质量的问答对,并利用这些数据进行RL训练,DeepDive-32B 在 BrowseComp 上的准确率从14.8%进一步提升至20.8%,实现了约40%的性能增长,并在中文基准上也取得了显著进步。

表3: i.i.d.深度搜索QA数据对DeepDive性能的影响。

| 模型 | 数据 | BrowseComp | BrowseComp-ZH | Xbench-DeepSearch | SEAL-0 | | :— | :— | :—: | :—: | :—: | :—: | | DeepDive-32B (sft-only) | KG data | 9.5 | 23.0 | 48.5 | 23.9 | | DeepDive-32B | KG data | 14.8 | 25.6 | 50.5 | 29.3 | 注:使用i.i.d数据训练后,DeepDive-32B在BrowseComp上的准确率达到20.8%。