Architecting Resilient LLM Agents: A Guide to Secure Plan-then-Execute Implementations

ArXiv URL: http://arxiv.org/abs/2509.08646v1
作者:
发布机构: ACM; SAP; University of Oxford

TL;DR

本文提出了一种名为“规划-执行” (Plan-then-Execute, P-t-E) 的弹性LLM智能体架构指南，该架构通过解耦战略规划与战术执行来建立控制流完整性，从而天然地抵御间接提示注入攻击，并为在LangChain、CrewAI和AutoGen等主流框架中实现该架构提供了详细的安全蓝图。

关键定义

本文的核心是围绕“规划-执行”模式展开的一系列架构概念，其中关键定义如下：

规划-执行模式 (Plan-then-Execute Pattern, P-t-E)：一种智能体设计方法，其中智能体首先制定一个全面的、多步骤的计划来实现复杂目标，然后由一个独立的组件逐步执行该预定计划。其核心是规划与执行的显式解耦。
规划器 (Planner)：P-t-E架构中的战略组件，通常由一个强大的、重推理的LLM实现。其职责是将用户的高级目标分解为一个由具体的、可执行的子任务组成的结构化计划（如JSON对象或DAG）。
执行器 (Executor)：P-t-E架构中的战术组件，负责接收规划器生成的计划，并逐一执行其中的每个步骤。执行器可以是一个更简单、更小的LLM，甚至是一段确定性代码，专注于调用工具完成特定子任务。
验证器 (Verifier)：一个可选的高级组件，在执行开始前对规划器输出的计划进行审查。它可以是人工专家（Human-in-the-Loop, HITL）或自动化智能体，用于确保计划的逻辑合理性、安全性及与目标的一致性。
控制流完整性 (Control-Flow Integrity)：一个源自传统软件安全的概念，在此指智能体的主要执行路径（即计划）在暴露于任何外部、不可信数据之前就被确定和锁定。这使得嵌入在工具输出中的恶意指令无法改变预定义的动作序列。

本文方法

本文的核心贡献是系统性地阐述了“规划-执行”（P-t-E）架构，并提供了一套以安全为核心的设计原则和实现指南。这不仅是一种算法，更是一套构建弹性LLM智能体的架构蓝图。

P-t-E 架构的核心与优势

P-t-E模式通过将智能体的工作流分解为两个核心组件来运作：

规划器 (Planner)：一个强大的LLM，负责在任务开始前，将用户的高级目标分解成一个完整的、结构化的步骤列表（或DAG）。这个计划作为一个正式的、机器可读的产物，指导后续所有操作。
执行器 (Executor)：一个更轻量级的组件（可以是小模型或确定性代码），负责严格按照计划，一步一步地调用工具并完成子任务。

这种设计的本质创新在于将战略思考与战术执行完全分离，从而带来三大架构优势：

优点1：可预测性与控制力：由于整个行动轨迹在执行前就已确定，智能体的行为变得高度可预测和可审计，避免了ReAct模式中常见的循环、偏离目标等问题。
优点2：性能与成本效益：计算和API成本最高的规划器LLM只在任务开始时调用一次（或在需要重新规划时偶尔调用），而大部分执行工作由更廉价、低延迟的执行器完成，显著降低了操作成本和延迟。
优点3：更高的推理质量：强制LLM在行动前“通盘思考”并制定完整计划，利用了提示工程中“思维链”的原理，从而系统性地提升了解决问题的逻辑连贯性和成功率。

安全优先的设计原则

P-t-E模式本身提供了强大的安全基础，但需要与一系列纵深防御策略相结合。

控制流完整性与提示注入防御

这是P-t-E最核心的安全优势。通过在与外部不可信数据（来自工具调用）交互之前就锁定整个行动计划，P-t-E架构建立了控制流完整性。即使工具的输出包含了间接提示注入攻击，它也无法改变预先批准的行动序列或催生新的、计划外的动作。它可能污染数据流（例如，将恶意文本包含在邮件正文中），但无法劫持智能体的控制流。这是一种从“行为遏制”（寄希望于LLM自身能抵抗攻击）到“架构遏制”（依赖架构的硬性约束来保证安全）的范式转变。

纵深防御：辅助安全控制

为应对数据流污染等其他风险，本文强调必须结合以下控制措施：

输入/输出处理：对所有来自工具的不可信数据进行严格的输入清理和验证，并在最终输出给用户或敏感工具前进行输出过滤。
双LLM/隔离LLM模式：使用一个“特权”LLM进行规划等可信操作，同时使用一个独立的、“隔离”的LLM专门处理不可信数据（如网页内容），并将处理后的结构化、干净数据传递给特权LLM，形成一个“认知沙盒”。
最小权限原则 (Principle of Least Privilege)：这是至关重要的安全控制。智能体在执行计划的每一步时，都应被动态地、临时地授予仅执行该步骤所需的最小工具集。例如，如果第一步是计算，第二步是发送邮件，那么在执行第一步时，智能体在架构上应无法访问邮件发送工具。本文还进一步提出将此与基于角色的访问控制 (Role-Based Access Control, RBAC) 相结合，为智能体定义更持久的角色和权限边界。
沙盒化执行 (Sandboxed Execution)：对于能够生成和执行代码的智能体，这是一个不可协商的安全要求。所有代码执行都必须在隔离的、临时的环境中（如Docker容器）进行，以将潜在的远程代码执行（RCE）攻击的“爆炸半径”限制在容器内，保护宿主系统。

更安全的模式变体：规划-验证-执行 (Plan-Validate-Execute)

针对高风险应用，本文提出了P-t-E的一个增强变体。考虑到LLM可能产生“看似可信但实则错误”的计划，该模式在执行前引入一个强制的人工验证环节。智能体生成计划后，必须由人类专家审查并确认其逻辑性、安全性与正确性，然后才能授权执行器开始工作。

实验结论

本文没有传统的定量实验，而是通过分析如何在三个主流智能体框架中实现安全的P-t-E架构，来验证其设计原则的有效性和实用性。

LangChain & LangGraph 实现

实现方式：现代LangChain通过LangGraph库实现P-t-E，将工作流建模为一个状态机 (State Machine)。规划器、执行器等被定义为图中的节点，控制流通过边（尤其是条件边）来管理。
关键优势：LangGraph的图结构天然支持循环和重新规划 (Re-planning)。通过一个条件边，在执行某一步失败后，可以将控制流导向一个“重新规划”节点，让智能体根据失败的上下文生成新的计划，极大地增强了系统的鲁棒性和适应性。
安全实践：示例代码展示了如何实现最小权限原则：规划器在计划中为每一步指定所需工具，执行器节点则为每一步动态创建一个只配备该单一工具的临时智能体。

CrewAI 实现

实现方式：CrewAI通过其层级流程 (Hierarchical Process) 自然地映射到P-t-E模式。一个管理者智能体 (Manager Agent) 扮演规划器的角色，负责分解任务并委派给工作者智能体 (Worker Agents)，后者作为执行器。
关键优势：CrewAI在安全方面的一个突出特点是其任务级工具作用域 (Task-level tool scoping)。开发者可以为每个任务 (Task) 而非智能体本身精确指定允许使用的工具子集。\(Task.tools\)的优先级高于\(Agent.tools\)，这使得权限控制非常精细和动态。
安全实践：这种设计将安全重心从“定义安全的智能体”转移到了“定义安全的工作单元”。同一个智能体在执行不同任务时可以拥有不同的、恰当的权限，完美地践行了“即时 (just-in-time)”权限授予的最小权限原则。

AutoGen 实现

实现方式：AutoGen通过编排多智能体对话来实现P-t-E。例如，可以通过\(initiate_chats\)方法设置一个顺序对话，让一个“规划器智能体”与一个“执行器智能体”依次对话，前者生成计划，后者接收并执行。
关键优势：AutoGen最关键和值得称道的特性是其内置的、基于Docker的沙盒化代码执行。当一个\(UserProxyAgent\)需要执行代码时，它可以在一个Docker容器中安全地执行，这为需要代码生成和执行能力的智能体应用提供了强大的、开箱即用的安全保障。

总结

本文的分析表明，“规划-执行”架构是构建安全、可预测、高效的LLM智能体的坚实基础。它通过架构设计，而非模型本身的不可靠行为，来确保控制流的完整性，有效抵御了间接提示注入等关键威胁。

对于需要高灵活性和自适应纠错能力的应用，LangGraph的重新规划循环是理想选择。
对于侧重角色分工和直观多智能体协作的应用，CrewAI的层级流程和任务级工具作用域提供了优秀的抽象和安全控制。
对于涉及代码生成和执行的场景，AutoGen内置的沙盒化执行功能使其成为安全方面的首选。

最终结论是，不存在单一的“银弹”。一个生产级的、可信赖的LLM智能体必须采用纵深防御 (Defense-in-depth) 策略，即将P-t-E架构模式与最小权限原则、沙盒化执行和人工验证等一系列安全控制相结合。