AI Agent上网指南：RAG效率飙升5倍，成本锐减80%，完胜HTML

当我们在谈论AI Agent时，我们总会幻想它能像一个不知疲倦的数字助理，帮我们处理网络上的各种杂事。但你是否想过，这个“助理”究竟是如何“看”懂并“操作”网页的？是像我们一样浏览，还是有更聪明的捷径？

ArXiv URL：http://arxiv.org/abs/2511.23281v1

最近，德国曼海姆大学的一项研究给出了答案。他们发现，Agent与网络交互的方式，对其性能有着决定性的影响。选择正确的“上网姿势”，可以让Agent的效率飙升5倍，成本锐减80%！

这项研究的核心，就是对比了四种主流的Web交互架构。让我们看看它们分别是什么。

研究人员搭建了一个包含四家模拟电商的测试平台，让Agent完成从搜索、比价到下单的91个真实购物任务。关键在于，这些商店为Agent提供了四种不同的“入口”：

HTML浏览：这是最传统的方式。Agent像一个盲人摸象的程序员，直接读取网页的HTML源代码，从中解析出文本、链接和表单，然后模拟点击和填写。这种方式通用性强，但过程极其繁琐且容易出错。
RAG（Retrieval-Augmented Generation）：这是一种更聪明的“开卷考试”。网站内容被提前爬取并索引，存入一个知识库。Agent不再需要浏览网页，而是直接向这个知识库（搜索引擎）提问，获取经过预处理的、干净整洁的信息。
MCP（Model Context Protocol）：这相当于网站为Agent开通了“内部专线”。通过专门的Web API，Agent可以直接调用网站的特定功能，如\(search(product)\)或\(addToCart(id)\)。这种方式精准高效，但每个网站的API都可能不同，存在标准化难题。
NLWeb：这是MCP的升级版，旨在解决标准化问题。它提供一个统一的自然语言查询接口，Agent用自然语言提问，网站则以标准的\(schema.org\)格式返回结构化的JSON数据。这就像有了一个能听懂人话、并且回答格式统一的“万能客服”。

这四种架构的对比如下图所示：

那么，在真实的购物场景中，这四种架构的表现究竟孰优孰劣呢？

研究人员使用F1分数（综合了准确率和召回率的指标）来衡量Agent完成任务的效果。结果一目了然：

这意味着，相较于原始的HTML浏览，使用RAG或API能让Agent更准确地完成任务。

在所有组合中，RAG与GPT-5的组合表现最为亮眼，取得了0.87的F1分数和79%的任务完成率，成为当之无愧的“性能之王”。

如果说效果上的提升是“好用”，那么效率上的飞跃则是“颠覆”。研究人员从Token消耗、运行时间和费用成本三个维度进行了评估。

结果令人震惊：

Token消耗：HTML Agent平均每个任务消耗高达 24.1万 Token。而其他三种架构则大幅降低，仅需 4.7万到14万 Token。这意味着成本直接降低了 50%到80%！
运行时间：HTML Agent平均耗时 291秒，而RAG、MCP和NLWeb的平均耗时仅为 50到62秒，速度提升了近 5倍！

上图清晰地展示了不同模型和架构的性价比。HTML（图中橙色点）在性能和成本上都处于明显劣势。

特别值得一提的是，RAG与GPT-5-mini的组合，在保持较高性能的同时，展现了极佳的成本效益，成为最具性价比的“甜点级”选择。

HTML之所以惨败，原因在于它给Agent带来了巨大的“认知负荷”。Agent需要处理大量无关的HTML标签、CSS样式和JavaScript脚本，从中艰难地提取有效信息，并规划复杂的导航路径（点击哪个链接、填写哪个表单）。这个过程不仅耗时耗力，还极易因页面结构的微小变化而出错。

相比之下，RAG和API架构都提供了一种更直接、更结构化的信息获取方式，绕开了繁琐的页面解析和导航，让Agent能专注于核心的推理和决策任务。

这项研究有力地证明了，AI Agent与Web的交互接口对其性能有着至关重要的影响。

研究得出的核心结论是：

结构化接口完胜：无论是基于API的MCP、NLWeb，还是基于索引的RAG，这些提供结构化数据的接口在效果和效率上都远超传统的HTML浏览。
RAG是强大的替代方案：虽然API功能强大，但需要网站方投入额外的开发和维护。在API不可用的情况下，通过爬虫和索引构建RAG系统，是一个极其有效且高效的替代方案。
HTML应作为最后选择：只有在别无选择时，才应考虑让Agent直接与HTML交互。

对于所有致力于构建Web Agent的开发者和公司来说，这项研究发出了一个明确的信号：不要再让你的Agent在HTML的丛林里艰难跋涉了！为它铺设一条基于RAG或API的信息高速公路，才能真正释放其潜力。