AI Agent上网指南:RAG效率飙升5倍,成本锐减80%,完胜HTML

当我们在谈论AI Agent时,我们总会幻想它能像一个不知疲倦的数字助理,帮我们处理网络上的各种杂事。但你是否想过,这个“助理”究竟是如何“看”懂并“操作”网页的?是像我们一样浏览,还是有更聪明的捷径?
ArXiv URL:http://arxiv.org/abs/2511.23281v1
最近,德国曼海姆大学的一项研究给出了答案。他们发现,Agent与网络交互的方式,对其性能有着决定性的影响。选择正确的“上网姿势”,可以让Agent的效率飙升5倍,成本锐减80%!
这项研究的核心,就是对比了四种主流的Web交互架构。让我们看看它们分别是什么。
四大主流Web交互架构
研究人员搭建了一个包含四家模拟电商的测试平台,让Agent完成从搜索、比价到下单的91个真实购物任务。关键在于,这些商店为Agent提供了四种不同的“入口”:
-
HTML浏览:这是最传统的方式。Agent像一个盲人摸象的程序员,直接读取网页的HTML源代码,从中解析出文本、链接和表单,然后模拟点击和填写。这种方式通用性强,但过程极其繁琐且容易出错。
-
RAG(Retrieval-Augmented Generation):这是一种更聪明的“开卷考试”。网站内容被提前爬取并索引,存入一个知识库。Agent不再需要浏览网页,而是直接向这个知识库(搜索引擎)提问,获取经过预处理的、干净整洁的信息。
-
MCP(Model Context Protocol):这相当于网站为Agent开通了“内部专线”。通过专门的Web API,Agent可以直接调用网站的特定功能,如\(search(product)\)或\(addToCart(id)\)。这种方式精准高效,但每个网站的API都可能不同,存在标准化难题。
-
NLWeb:这是MCP的升级版,旨在解决标准化问题。它提供一个统一的自然语言查询接口,Agent用自然语言提问,网站则以标准的\(schema.org\)格式返回结构化的JSON数据。这就像有了一个能听懂人话、并且回答格式统一的“万能客服”。
这四种架构的对比如下图所示:

那么,在真实的购物场景中,这四种架构的表现究竟孰优孰劣呢?
效果对比:RAG与API架构全面胜出
研究人员使用F1分数(综合了准确率和召回率的指标)来衡量Agent完成任务的效果。结果一目了然:
-
HTML Agent的平均F1分数仅为 0.67。
-
RAG、MCP 和 NLWeb 这三种架构的表现则要好得多,F1分数在 0.75到0.77 之间。
这意味着,相较于原始的HTML浏览,使用RAG或API能让Agent更准确地完成任务。
在所有组合中,RAG与GPT-5的组合表现最为亮眼,取得了0.87的F1分数和79%的任务完成率,成为当之无愧的“性能之王”。
效率对比:成本与速度的天壤之别
如果说效果上的提升是“好用”,那么效率上的飞跃则是“颠覆”。研究人员从Token消耗、运行时间和费用成本三个维度进行了评估。
结果令人震惊:
-
Token消耗:HTML Agent平均每个任务消耗高达 24.1万 Token。而其他三种架构则大幅降低,仅需 4.7万到14万 Token。这意味着成本直接降低了 50%到80%!
-
运行时间:HTML Agent平均耗时 291秒,而RAG、MCP和NLWeb的平均耗时仅为 50到62秒,速度提升了近 5倍!

上图清晰地展示了不同模型和架构的性价比。HTML(图中橙色点)在性能和成本上都处于明显劣势。
特别值得一提的是,RAG与GPT-5-mini的组合,在保持较高性能的同时,展现了极佳的成本效益,成为最具性价比的“甜点级”选择。
深入分析:为何HTML会失败?
HTML之所以惨败,原因在于它给Agent带来了巨大的“认知负荷”。Agent需要处理大量无关的HTML标签、CSS样式和JavaScript脚本,从中艰难地提取有效信息,并规划复杂的导航路径(点击哪个链接、填写哪个表单)。这个过程不仅耗时耗力,还极易因页面结构的微小变化而出错。
相比之下,RAG和API架构都提供了一种更直接、更结构化的信息获取方式,绕开了繁琐的页面解析和导航,让Agent能专注于核心的推理和决策任务。
结论:接口选择决定Agent成败
这项研究有力地证明了,AI Agent与Web的交互接口对其性能有着至关重要的影响。
研究得出的核心结论是:
-
结构化接口完胜:无论是基于API的MCP、NLWeb,还是基于索引的RAG,这些提供结构化数据的接口在效果和效率上都远超传统的HTML浏览。
-
RAG是强大的替代方案:虽然API功能强大,但需要网站方投入额外的开发和维护。在API不可用的情况下,通过爬虫和索引构建RAG系统,是一个极其有效且高效的替代方案。
-
HTML应作为最后选择:只有在别无选择时,才应考虑让Agent直接与HTML交互。
对于所有致力于构建Web Agent的开发者和公司来说,这项研究发出了一个明确的信号:不要再让你的Agent在HTML的丛林里艰难跋涉了!为它铺设一条基于RAG或API的信息高速公路,才能真正释放其潜力。