What Limits Agentic Systems Efficiency?

ArXiv URL: http://arxiv.org/abs/2510.16276v1
作者: Song Bian; Anand Jayarajan; Gennady Pekhimenko; Shivaram Venkataraman; Minghao Yan
发布机构: NVIDIA; University of Toronto; University of Wisconsin-Madison

TL;DR

本文对基于网络交互的智能体系统效率瓶颈进行了实证研究，并提出一个名为 SpecCache 的缓存框架，该框架利用推测性执行（speculative execution）来重叠模型推理与网络环境交互，从而在不降低任务性能的前提下，显著减少系统延迟。

关键定义

智能体系统 (Agentic Systems): 指的是将大型语言模型（LLM）的推理能力与外部工具（如网络浏览器、API）交互相结合的系统，旨在解决复杂任务，减轻知识不足和信息过时等问题。
LLM API 延迟 (LLM API Latency): 指从向 LLM 服务提供商（如 OpenAI）发送请求到接收到完整响应所花费的时间。这是智能体系统中“思考”步骤的主要时间成本。
网络环境延迟 (Web Environment Latency): 指智能体执行与网络相关的动作（如抓取网页、解析 HTML）所花费的时间。这是智能体系统中“行动”步骤的主要时间成本，本文发现其最高可占总延迟的 53.7%。
SpecCache: 本文提出的一个缓存框架，旨在减少网络环境延迟。它包含一个动作-观察缓存和一个基于模型的预取机制。
推测性执行 (Speculative Execution): SpecCache 的核心机制。它使用一个轻量级的“草稿模型”（draft model）与主要的“目标模型”（target model）并行运行。在目标模型进行推理时，草稿模型预测其可能的下一步动作并提前执行（如预先抓取网页），将结果存入缓存，从而实现模型推理与环境交互时间的重叠。

本文方法

本文首先通过实证分析，将交互式智能体系统的端到端延迟分解为两大组成部分：LLM API 延迟和网络环境延迟。分析发现，两者都是显著的性能瓶颈，特别是网络环境交互的延迟最高可占总时延的 53.7%。尽管 LLM API 延迟可以通过付费的优先处理（priority processing）等基础设施级优化得到缓解，但网络环境延迟依然是一个棘手的挑战。

Reflexion-based 智能体系统单次迭代的平均延迟分解。

为解决网络环境延迟问题，本文提出了 SpecCache，一个结合了缓存与推测性执行的框架。其核心目标是通过重叠模型推理与环境交互来隐藏环境操作的耗时。

设计挑战

设计一个高效的缓存系统面临巨大挑战，主要源于智能体巨大的动作空间。例如，一个网页上可能有数十甚至上百个可点击的链接，这使得精确预测下一个动作变得极为困难。简单的缓存策略（如随机预取）会导致命中率极低，无法有效降低延迟。

SpecCache 框架

SpecCache 框架通过一个精巧的设计来应对上述挑战，其工作流程如下图所示，主要包含两个核心组件：

SpecCache 框架工作流程图。

1. 动作-观察缓存 (Action-Observation Cache)

这是一个遵循 LRU (Least Recently Used) 策略的缓存池，用于存储（动作，观察结果）键值对。例如，一个“动作”是点击某个链接，其“观察结果”就是该链接对应页面的内容。当智能体的主模型（目标模型）决定执行一个动作时，它会首先查询该缓存。如果命中，则直接从缓存中获取观察结果，从而避免了与网络环境进行耗时的实时交互。

2. 基于模型的预取 (Model-Based Prefetching)

这是 SpecCache 的创新核心，它采用推测性执行来主动填充缓存。具体实现如下：

双模型并行：系统同时运行两个模型——一个强大的目标模型（Target Model，如 GPT-5-mini）负责主要的推理和决策，以及一个轻量、快速的草稿模型（Draft Model，如 GPT-4.1-mini）负责预测。
异步预测与执行：当目标模型正在进行耗时的推理（“思考”）时，草稿模型会异步地预测目标模型可能采取的下一个或多个动作。
主动缓存：系统会立即执行这些被预测的动作（例如，在后台抓取预测的网页），并将得到的观察结果存入动作-观察缓存中。
延迟隐藏：当目标模型完成推理并确定其下一步行动时，如果该行动恰好被草稿模型成功预测，那么所需的数据 уже 在缓存中，智能体可以瞬时获取并继续下一步，从而有效地将网络交互的等待时间隐藏在了模型推理的过程中。

优点

效率提升：通过将推理与环境交互并行化，显著减少了智能体等待环境响应的空闲时间，从而降低了端到端延迟。
无损性能：SpecCache 是在一个独立的、非阻塞的线程中运行的。即使草稿模型的预测不准确（缓存未命中），它也只会回退到原始的执行路径（即实时执行动作），不会干扰目标模型的推理逻辑或影响最终的任务结果。
通用性：该方法基于 ReAct 抽象设计，其原理可推广到任何与外部环境交互且反馈延迟较高的回合制（turn-based）智能体系统。

实验结论

本文通过在 \(WebWalker\) 和 \(MuWC\) 两个基准测试集上的大量实验，验证了所提出方法的有效性。

延迟瓶颈分析

LLM API 延迟高度可变：对来自 5 个提供商的 15 个模型的测试表明，即使是固定长度的请求，API 延迟也可能相差高达 69.21 倍。不同日期和地理位置的延迟差异也很显著。虽然 OpenAI 的优先处理功能有助于降低延迟和方差，但该问题依然存在。
网络环境延迟是主要瓶颈：实验证实，网络抓取和解析的延迟中位数约为 6 秒，在某些情况下占智能体总运行时间的 53.7%。同时，网页的巨大动作空间（子页面数量中位数为 81）给简单缓存带来了挑战。

SpecCache 性能验证

显著降低环境开销：在 \(WebWalker\) 和 \(MuWC\) 基准上，SpecCache 成功将网络环境开销最高减少了 3.2 倍。下图展示了在使用 SpecCache 后，每次迭代的延迟显著降低。
缓存命中率大幅提升：与随机采样缓存策略相比，SpecCache 的缓存命中率提升巨大。在 \(WebWalker\) 基准上，SpecCache 实现了 83.3% 的命中率，而随机策略仅为 8.9%；在 \(MuWC\) 基准上，SpecCache 的命中率也达到了 54.0%，远超随机策略的 1.0%，提升高达 58 倍。
不影响任务性能：实验证实，SpecCache 在提升效率的同时，不会改变智能体系统的原始执行轨迹，因此不会对任务的最终成功率或结果产生负面影响。

最终结论

本文的实证研究首次量化了交互式智能体系统中的两大延迟来源，并证明网络环境交互是除 LLM API 之外的关键性能瓶颈。提出的 SpecCache 框架通过创新的推测性执行机制，有效地将这一瓶颈的开销隐藏起来，为加速智能体系统开辟了一个新的方向：通过异步的辅助计算来重叠推理与环境交互，从而在保证任务质量的同时，大幅提升系统效率。