DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking


TL;DR

关键定义

相关工作

现有用于评估智能体的基准测试主要沿着两个维度发展:搜索宽度与搜索深度。

现有基准测试分类

本文方法

任务设定

DeepWideSearch框架要求智能体在处理任务时,既要进行深度推理,又要进行大规模信息收集。

DeepWideSearch 任务图示

数据集构建方法

为了高效构建具有高质量和复杂度的测试实例,本文提出了两种基于现有数据集的转换方法,并辅以人工验证。

数据集构建流程

### Deep2Wide转换

该方法旨在将现有的深度搜索数据集扩展至更广的信息范围。

  1. 核心实体提取 (Core Entity Extraction): 从BrowseComp等深度搜索数据集中筛选出问题,其答案可作为核心实体(Core Entity)。
  2. 表格模式定义 (Schema Definition): 人工标注员为这些核心实体设计相关的表格结构,定义需要收集的信息属性。
  3. 答案填充 (Answer Population): 标注员通过详尽的网络搜索来填充表格,确保数据的高质量。为保证答案的时效性,每个问题都加入了时间戳。

### Wide2Deep转换

该方法旨在增加宽度搜索任务的推理深度。

  1. 核心实体提取: 使用LLM从WideSearch等宽度搜索数据集中识别出核心实体。
  2. 子问题合成 (Sub-question Synthesis): 基于核心实体信息,利用一个搜索智能体自动生成一个复杂的子问题。该子问题需满足两个条件:(a) 答案唯一;(b) 无法直接从问题中推断,至少需要一次额外的网络搜索。
  3. 问题融合 (Question Fusion): 使用LLM将新生成的深度子问题与原始的宽度搜索查询进行融合。
  4. 人工验证 (Human Validation): 由标注员团队对合成的问题进行验证和优化,确保其唯一性、复杂性和语言的自然性。

数据统计

DeepWideSearch在复杂性上远超现有基准。平均每个任务需要处理414.1个信息单元,识别核心实体的平均搜索步骤为4.21步,是WideSearch的近4倍。该数据集包含220个问题,覆盖15个不同领域,支持中英双语。

评测指标

从深度、宽度和效率三个维度评估智能体性能。

### 深度评测

### 宽度评测

### 效率评测

为了保证结果的稳健性,每个问题进行四次独立运行,并报告平均值(Avg@4)、最佳值(Best@4)和至少成功一次的比例(Pass@4)。

实验结论

主要结果

模型/智能体 列F1 (Avg@4) 核心实体准确率 (Avg@4) 行F1 (Avg@4) 项F1 (Avg@4) 成功率 (Avg@4) 成功率 (Pass@4)
LLMs            
GPT-5 42.12 58.41 10.66 21.08 0.00% 0.00%
Claude Sonnet 4 32.63 57.95 9.49 20.31 0.45% 1.82%
Gemini 2.5 Pro 45.27 73.98 12.44 24.59 0.45% 1.82%
智能体系统            
WebSailor (GPT-5) 39.40 74.32 11.23 24.23 0.91% 1.82%
WebSailor (C Sonnet 4) 33.15 70.91 11.20 25.13 1.36% 2.27%
WebSailor (G 2.5 Pro) 39.81 68.64 11.83 24.27 1.36% 2.27%

深度指标分析

宽度指标分析

分析

### 效率分析

DeepWideSearch任务的计算开销巨大。即使是SOTA智能体,平均解决一个问题的成本也高达$1.40至$2.75,且很多问题仍未解决。在考虑网络不稳定和工具调用重试的情况下,成本会更高。这表明当前智能体架构在可扩展性方面存在严重不足。

### 工具调用分析

模型 (WebSailor) 搜索工具调用次数 访问工具调用次数
GPT-5 8.72 16.59
Claude Sonnet 4 23.23 24.16
Gemini 2.5 Pro 4.77 6.83

数据显示,表现更优的Claude Sonnet 4智能体进行了更多的搜索工具调用,这表明增加搜索广度有助于提升性能。

### 不同构建方法下的性能差异

实验表明,由Deep2Wide方法生成的数据比Wide2Deep方法生成的更具挑战性。在Deep2Wide子集上,智能体的成功率几乎为零,核心实体准确率也远低于Wide2Deep子集(33.29% vs 88.84%)。这说明Wide2Deep中合成的子问题相对更容易解决。

### 分主题性能分析

各主题性能表现

### 错误分析

通过分析失败案例,本文总结了当前智能体的四大失败模式:

  1. 缺乏反思 (Lack of reflection): 当遇到错误的搜索路径或工具调用失败时,智能体倾向于直接放弃,而不是分析失败原因并尝试替代方案。
  2. 过度依赖内部知识 (Overreliance on internal knowledge): 即使正确识别了核心实体,智能体也常常使用其参数化的内部知识来填充表格,而不是执行网络查询,导致信息过时或不准确。
  3. 检索不充分 (Insufficient retrieval): 智能体即使找到了相关网页,也常常未能通过访问操作获取完整上下文,导致信息遗漏。即使执行了访问,网页摘要也可能丢失关键细节。
  4. 上下文溢出 (Context overflow): 深宽搜索任务需要大量的推理步骤和工具调用,导致上下文长度急剧膨胀,超出了当前智能体架构的管理能力。

总结与未来工作

本文通过引入DeepWideSearch基准,首次量化了信息搜寻领域中结合深度推理与广度收集的挑战,并实验证明了现有SOTA智能体在该任务上的能力严重不足。分析揭示了当前智能体架构在反思、知识使用、检索策略和上下文管理方面的根本性缺陷。

未来的工作方向包括:

  1. 提升数据集难度: 迭代优化Wide2Deep方法,生成更复杂的子问题。
  2. 对齐真实场景: 持续优化数据集,使其更贴近真实世界的复杂应用。
  3. 自动化数据生成与评测: 探索自动化的数据生成技术和免参考(reference-free)的评测指标,以降低对人工标注的依赖,实现数据集的快速扩展。