From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

告别“写死”的工作流：IBM万字综述，定义Agent动态进化新范式

LLM Agent正以前所未有的速度涌现，但驱动它们解决复杂任务的工作流设计，却常常像一个“手工作坊”：结构固定、难以优化、复用性差。当任务稍有变化，写死的脚本可能就立刻失灵。

ArXiv URL：http://arxiv.org/abs/2603.22386v1

你的Agent还在依赖这种静态工作流吗？

最近，来自IBM Research等机构的研究者发布了一篇重磅综述，系统性地梳理了LLM Agent工作流优化的前沿进展。这篇论文的核心贡献，是提出了一个全新的统一框架，将Agent工作流视为一种可优化的智能计算图（Agentic Computation Graph, ACG），并清晰地划分了从“静态模板”到“动态图”的技术演进路线。

本文将带你深入解读这篇综述，看看如何让你的Agent工作流真正“活”起来。

核心框架：万物皆为“智能计算图”

要优化一样东西，首先得能清晰地描述它。

该研究提出的第一个关键概念就是智能计算图（Agentic Computation Graph, ACG）。它将一个Agent工作流抽象成一个由节点和边组成的图：

节点（Node）：执行原子操作，如LLM调用、工具使用、信息检索或结果验证。
边（Edge）：定义了节点间的控制流、数据流或通信依赖。

有了这个统一的抽象，我们就能更精确地讨论工作流的优化。更进一步，论文将一个工作流的生命周期拆解为三个层次，这对于理解不同的优化方法至关重要：

ACG模板（ACG Template, $\bar{\mathcal{G}}$）：这是一个可复用的设计蓝图。它定义了一个Agent系统所有可能的结构和参数空间，是离线优化的主要对象。
实现图（Realized Graph, $\mathcal{G}^{\mathrm{run}}$）：针对某一次具体运行（run），实际被执行的工作流结构。它是从模板中实例化或动态生成的。
执行迹（Execution Trace, $\tau$）：当实现图被执行后，产生的一系列状态、动作、观察和成本的序列记录。

举个例子：一个固定的“规划-检索-执行-验证”流程就是模板。当它处理一个具体问题时，实际执行的路径（可能跳过了验证步骤）就是实现图。而整个过程中所有的API调用、代码输出和错误日志，则构成了执行迹。

这个划分澄清了一个核心问题：我们到底在优化什么？是可复用的蓝图，还是单次运行的结构？

两大流派：静态优化 vs. 动态生成

基于何时确定工作流结构这一核心原则，该综述将现有方法划分为两大流派：

1. 静态结构确定 (Static Structure Determination)

这类方法的核心思想是：在部署前，通过搜索或学习，找到一个性能最优且可复用的模板。

一旦模板被“冻结”，它在运行时就不会再改变结构。当然，模板内部可以包含条件分支（if-else）或循环，但这些逻辑都是预先设计好的。

这种方法的优势是稳定、可控、易于测试。

典型的静态优化工作包括：

模板搜索：像 $AFlow$ 这样的研究，使用蒙特卡洛树搜索（MCTS）在预定义的算子图空间中寻找最佳工作流结构。
节点级优化：以 $DSPy$ 为代表，它固定工作流的图结构，但通过编译器自动优化每个节点内部的Prompt或 few-shot 示例。
联合优化：$Maestro$ 等工作则更进一步，它们交替优化图的拓扑结构和节点的内部配置，实现了结构与参数的协同进化。

2. 动态结构确定 (Dynamic Structure Determination)

这正是让Agent“活”起来的关键！

动态方法认为，一成不变的模板无法适应所有任务。因此，工作流的实现图应该在运行时（inference time）根据具体输入来决定。

这种“动态进化”可以发生在：

预执行阶段（Pre-execution）：在正式执行前，Agent根据任务输入，一次性生成或选择一个最合适的工作流图。
执行中阶段（In-execution）：Agent在执行过程中，根据中间结果、遇到的失败或验证器的反馈，实时地修改工作流。比如，发现某个工具调用失败后，动态地增加一个“反思并重试”的节点。

动态方法带来了前所未有的灵活性和适应性，但也对Agent的规划和反思能力提出了更高的要求。

如何分类？两大关键维度

为了更精细地对各种方法进行分类，论文还提出了两个正交的描述符：

图确定时间（Graph Determination Time, GDT）：结构是在离线（offline）、预执行（pre-execution）还是执行中（in-execution）确定的？
图可塑性模式（Graph Plasticity Mode, GPM）：结构在运行时是否可变？如果可变，是通过选择（select）、生成（generate）还是编辑（edit）的方式改变？

这套分类法为我们提供了一个“上帝视角”，可以清晰地定位任何一个Agent工作流优化方法在技术图谱中的位置。

统一的评估新标准

一个好的工作流，仅仅任务成功率高就够了吗？如果它消耗了海量的Token，或者结构极其脆弱，那也不是一个理想的设计。

该综述强烈呼吁建立一个“结构感知”的评估标准，除了传统的任务指标（如准确率），还应至少报告以下几个方面：

图属性：例如图的深度、宽度、节点数量等。
执行成本：包括API调用次数、Token消耗、运行时间等。
鲁棒性：在面对工具失灵或环境变化时的表现。
结构变化：对于动态方法，工作流结构在不同输入下的变化情况。

只有这样，我们才能在效果和成本之间做出明智的权衡，推动Agent工作流优化向着更可复现、更可比较的方向发展。

总结

这篇由IBM主导的综述，为当前略显混沌的LLM Agent工作流优化领域，建立了一套清晰、统一的认知框架。

它最重要的贡献在于：

提出了智能计算图（ACG）作为统一的抽象，并区分了模板、实现图和执行迹。
以“结构确定时间”为纲，清晰地划分了静态优化与动态生成两大技术路线。
倡导了更全面的“结构感知”评估标准，推动该领域走向成熟。

对于所有Agent开发者和研究者而言，这篇论文都提供了一张宝贵的地图。它告诉我们，未来的Agent进化，不仅在于提升单个模型的能力，更在于设计和优化驱动它们的、能够动态演化的工作流结构。从“写死”的模板到“鲜活”的动态图，这正是通往更强大、更通用Agent的必由之路。