BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents


TL;DR

本文提出了一种名为 BrowseConf 的测试时扩展 (Test-Time Scaling, TTS) 方法,它通过利用大语言模型智能体对其回答的“口头表述置信度” (Verbalized Confidence),来动态决定是否需要进行额外的计算尝试,从而在保证任务性能的同时,显著提升了网络信息获取任务的计算效率。

关键定义

本文的核心方法建立在以下几个关键概念之上:

相关工作

当前,即使是最先进的大语言模型(LLM)也依然存在产生幻觉和过度自信的错误。虽然学术界已经探索了多种置信度评估方法,如口头表述分数、Token 概率和自我反思,但这些研究大多集中于单步、非交互式的任务。

对于需要与外部环境(如网络)进行多轮交互的复杂智能体任务,置信度评估的研究尚不充分。在这类长时程任务中,智能体容易忘记之前获取的信息,或难以从早期错误中恢复,导致最终的置信度评估并不可靠。

同时,现有的测试时扩展(TTS)技术,如自洽性(Self-Consistency),通常对所有问题都采用固定的多次采样(rollouts)策略,这在智能体已经能够轻松解决某些问题时,会造成大量的计算资源浪费。

本文旨在解决的问题是:如何在复杂的网络信息获取智能体任务中,更高效地利用计算资源,避免对简单问题进行不必要的重复计算,同时提升对困难问题的解决能力。

本文方法

本文首先通过实验证明,在复杂的网络浏览任务中,智能体的口头表述置信度与其任务准确率之间存在强烈的正相关关系。如下图所示,尽管模型普遍存在过度自信(报告的置信度远高于实际准确率),但高置信度分数确实对应着更高的准确率。

gpt-oss-120b 和 DeepSeek-V3.1 的准确率与口头表述置信度分数区间的条形图 gpt-oss-120b 和 DeepSeek-V3.1 的准确率与口头表述置信度分数区间的条形图

创新点

基于这一发现,本文提出了 BrowseConf,一种根据置信度动态分配计算预算的测试时扩展方法。其核心创新在于用智能体自身的置信度判断来动态触发计算,而非采用固定的、统一的计算开销

核心算法

对于给定的查询 $q$,算法流程如下:

  1. 智能体进行第 $i$ 次尝试,生成答案 $A_i$ 和置信度分数 $C_i$。
  2. 判断 $C_i$ 是否大于或等于预设的置信度阈值 $\tau$。
  3. 如果 $C_i \geq \tau$,则认为答案可靠,终止流程并返回 $A_i$。
  4. 如果 $C_i < \tau$,且总尝试次数未达到上限 $N$,则启动下一次尝试。
  5. 如果所有 $N$ 次尝试都未能达到置信度阈值,则返回所有尝试中置信度最高的那个答案 $A_{best}$。

阈值校准

为了避免测试集泄漏,置信度阈值 $\tau$ 在一个独立的验证集(本文使用 SailorFog-QA 的子集)上进行校准。阈值 $\tau^*$ 的选择标准是:找到一个最小的置信度分数,使得在该分数以上的样本子集,其准确率相比于整个验证集的总体准确率,至少有 $k\%$ 的相对提升。其计算公式为:

\[\tau^{*}=\min\bigg\{\tau\in[0,100]\mid\frac{\text{Acc}(\{x\in D_{val}\mid C\geq\tau\})-\text{Acc}(D_{val})}{\text{Acc}(D_{val})}\geq\frac{k}{100}\bigg\}\]

优点

BrowseConf 的核心优点是计算效率。它能有效避免在智能体已经高度自信的问题上进行冗余的计算尝试,将算力“好钢用在刀刃上”,仅对智能体不确定的难题进行多次探索,从而在达到甚至超越固定预算方法性能的同时,大幅降低平均计算成本。

方法变体

为了进一步优化多次尝试之间的效率,本文还提出了两种改进策略,旨在利用先前尝试失败所产生的信息:

实验结论

实验在 gpt-oss-120b 和 DeepSeek-V3.1 模型上,以及在 BrowseComp 和 BrowseComp-zh 这两个高难度的信息寻求基准上进行。

主要结果

如下表所示,BrowseConf 系列方法在性能上与强大的基准方法(如 Self-Consistency 和 CISC)相当,甚至在某些情况下更优。

模型 方法 BrowseComp (英文) BrowseComp-zh (中文)
gpt-oss-120b      
  Pass@1 33.8 / 1 38.0 / 1
  Pass@10 70.3 / 10 74.7 / 10
  Self-Consistency (10) 47.5 / 10 50.5 / 10
  CISC (10) 52.2 / 10 53.3 / 10
  BrowseConf-Zero 52.1 / 3.76 51.6 / 2.32
  BrowseConf-Summary 48.7 / 2.06 49.2 / 2.09
  BrowseConf-Neg 52.5 / 3.87 54.5 / 2.43
DeepSeek-V3.1      
  Pass@1 29.5 / 1 51.1 / 1
  Pass@10 68.6 / 10 82.0 / 10
  Self-Consistency (10) 36.7 / 10 61.1 / 10
  CISC (10) 38.7 / 10 59.8 / 10
  BrowseConf-Zero 41.3 / 5.67 59.2 / 3.42
  BrowseConf-Summary 40.1 / 5.14 53.4 / 3.74
  BrowseConf-Neg 41.7 / 5.72 54.3 / 3.68

表格说明:每个单元格的格式为“准确率 (%) / 平均尝试次数”。

消融研究与分析

总结

本文证实了口头表述置信度是评估智能体在复杂任务中表现的一个可靠信号。基于此,提出的 BrowseConf 方法通过动态分配计算资源,在保证高任务准确率的同时,显著优于固定预算的传统 TTS 方法的计算效率,为构建更高效、更智能的 AI 智能体提供了新的思路。