AI Agent只会“挥霍”算力?谷歌BATS框架教它精打细算,成本性能双优化

当今的AI Agent越来越强大,我们习惯性地认为:给它更多的计算资源、更多的工具调用次数,它就应该表现得更好。但现实果真如此吗?谷歌的最新研究发现了一个反直觉的现象:简单地给Agent增加预算,其性能很快就会触及“天花板”,不再提升。问题出在哪?原来,这些Agent缺少一种关键能力——预算意识(budget awareness)。它们就像一个没有预算概念的员工,即使资源充足,也不知道如何深度挖掘或调整策略。
论文标题:Budget-Aware Tool-Use Enables Effective Agent Scaling ArXiv URL:http://arxiv.org/abs/2511.17006v1
为了解决这个难题,谷歌DeepMind等机构推出了一个全新的智能框架BATS,教会Agent如何“精打细算”,在有限的预算内最大化性能。
性能瓶颈:只会“行动”却不懂“规划”的Agent
对于需要与外部环境交互的工具增强型Agent(tool-augmented agents)而言,其能力扩展不仅依赖于内部“思考”(消耗Tokens),更依赖于外部“行动”(调用工具,如网络搜索)。
工具调用的次数,直接决定了Agent探索外部信息的广度和深度。
然而,研究发现,标准的Agent(如基于ReAct框架的Agent)并不能有效利用增加的工具调用预算。它们往往进行浅层搜索,一旦觉得找到了“足够好”的答案或陷入困境,就会提前终止任务,全然不知还有大量资源闲置。
图1:预算追踪器(Budget Tracker)可应用于标准ReAct Agent(上)和更先进的BATS框架(下)。蓝色框表示根据预算进行调整的模块。
这就引出了一个核心问题:如何让Agent在给定的资源预算下,实现最有效的性能扩展?
破局第一步:轻量级“预算追踪器”
研究团队首先提出了一个简单却极其有效的解决方案:预算追踪器(Budget Tracker)。
这是一个即插即用的轻量级模块,它在Agent的每一步行动后,都会通过Prompt明确告知Agent:“你还剩下多少次工具调用机会”。
图2:在每一轮交互中,Agent在生成下一步思考和工具调用前,都会通过预算追踪器获知当前和剩余的预算。
别小看这个简单的提醒!它让Agent对资源消耗和剩余预算有了明确感知,从而能够调整后续的推理和行动策略。
实验结果证明了它的威力。如下图所示,在没有预算意识时,标准ReAct Agent的性能在预算达到100后就饱和了。而加入了预算追踪器后,Agent能够持续利用增加的预算,性能也随之稳步提升,成功打破了性能天花板。
图3:在BrowseComp数据集上,标准ReAct Agent(蓝色虚线)性能很快饱和,而具备预算意识的Agent(橙色实线)能持续扩展性能。
BATS:动态规划与验证的智能框架
在证明了“预算意识”的有效性后,研究团队进一步开发了更先进的BATS(Budget Aware Test-time Scaling)框架,将预算意识深度融入Agent的整个工作流。
图6:BATS框架概览。Agent从预算感知的思考和规划开始,在迭代中不断根据新信息和预算更新策略。在提出答案后,BATS会进行验证,并根据剩余预算决定是继续、转向还是重新尝试。
BATS的核心设计原则就是将预算意识贯穿始终,主要体现在两个智能模块中:
-
预算感知规划(Budget-Aware Planning):在任务开始时,BATS会引导Agent分解问题,识别出哪些是用于扩大搜索范围的“探索性”线索,哪些是用于验证具体信息的“验证性”线索。Agent会根据剩余预算,动态地决定是先广泛探索还是直接验证,避免在不确定的路径上过早耗尽资源。
-
预算感知自验证(Budget-Aware Self-verification):当Agent提出一个初步答案后,BATS不会草率结束。验证模块会回溯整个推理过程,检查是否所有问题约束都已满足。更关键的是,它会根据剩余预算做出决策:
- 如果预算充足且当前路径很有希望,它会决定“深入挖掘”(dig deeper)。
- 如果当前路径似乎走不通,但预算尚有,它会选择“转换方向”(pivot),开启新的探索路径。
- 只有当答案可靠且预算紧张时,它才会确认并输出最终答案。
实验效果:更优的成本-性能曲线
为了公平地评估不同方法的效率,该研究提出了一个统一成本度量(unified cost metric),它同时考虑了Token消耗和工具调用的成本。
\[C\_{\textit{unified}}(x;\pi)=\underbrace{c\_{\textit{token}}(x;\pi)}\_{\text{Token Cost}}+\underbrace{\sum\_{i=1}^{K}c\_{i}(x;\pi)\cdot P\_{i}}\_{\text{Total Tool Cost}}\]在BrowseComp、BrowseComp-ZH和HLE-Search等多个高难度信息检索任务上,BATS的表现十分亮眼。
最值得注意的是,BATS是一个完全无需额外训练的框架。仅通过在推理时引入预算感知的智能策略,它就在严格的预算限制下取得了比许多经过专门微调的Agent更好的性能。例如,在使用Gemini-2.5-Pro模型时,BATS在BrowseComp上取得了24.6%的准确率。
下图清晰地展示了BATS在成本-性能权衡上的巨大优势。它推动了成本-性能的帕累托前沿(Pareto frontier),意味着在相同的成本下,BATS能达到更高的准确率;或者说,要达到相同的准确率,BATS所需的成本更低。
图7:在统一成本度量下,BATS(橙色)相比基线方法(蓝色)展现出更优越的扩展曲线,实现了更高的性价比。
结论
这项研究首次系统地探讨了预算约束下工具增强型Agent的性能扩展问题。它揭示了“预算意识”是解锁Agent潜力的关键。
从简单的“预算追踪器”到精密的BATS框架,该工作证明了让Agent学会“精打细算”,不仅能打破性能瓶颈,还能显著优化成本效益。这为未来构建更高效、更可靠、更可控的AI Agent系统指明了一个极具前景的方向。