Architecting Resilient LLM Agents: A Guide to Secure Plan-then-Execute Implementations


TL;DR

本文提出了一种名为“规划-执行” (Plan-then-Execute, P-t-E) 的弹性LLM智能体架构指南,该架构通过解耦战略规划与战术执行来建立控制流完整性,从而天然地抵御间接提示注入攻击,并为在LangChain、CrewAI和AutoGen等主流框架中实现该架构提供了详细的安全蓝图。

关键定义

本文的核心是围绕“规划-执行”模式展开的一系列架构概念,其中关键定义如下:

相关工作

目前,LLM智能体领域最普遍的设计模式之一是ReAct (Reason-Act)。ReAct智能体在一个紧密的迭代循环中运行:生成一个想法 (Thought),执行一个动作 (Action)(通常是工具调用),并观察结果 (Observation),然后将该结果反馈到下一个循环中以生成新的想法。

这种模式的主要瓶颈和问题包括:

本文旨在解决上述问题,提出一种更稳健、可预测且安全的智能体架构模式,即P-t-E,特别关注其在构建生产级、可信赖的LLM智能体应用中的价值。

本文方法

本文的核心贡献是系统性地阐述了“规划-执行”(P-t-E)架构,并提供了一套以安全为核心的设计原则和实现指南。这不仅是一种算法,更是一套构建弹性LLM智能体的架构蓝图。

P-t-E 架构的核心与优势

P-t-E模式通过将智能体的工作流分解为两个核心组件来运作:

  1. 规划器 (Planner):一个强大的LLM,负责在任务开始前,将用户的高级目标分解成一个完整的、结构化的步骤列表(或DAG)。这个计划作为一个正式的、机器可读的产物,指导后续所有操作。
  2. 执行器 (Executor):一个更轻量级的组件(可以是小模型或确定性代码),负责严格按照计划,一步一步地调用工具并完成子任务。

这种设计的本质创新在于将战略思考与战术执行完全分离,从而带来三大架构优势:

安全优先的设计原则

P-t-E模式本身提供了强大的安全基础,但需要与一系列纵深防御策略相结合。

控制流完整性与提示注入防御

这是P-t-E最核心的安全优势。通过在与外部不可信数据(来自工具调用)交互之前就锁定整个行动计划,P-t-E架构建立了控制流完整性。即使工具的输出包含了间接提示注入攻击,它也无法改变预先批准的行动序列或催生新的、计划外的动作。它可能污染数据流(例如,将恶意文本包含在邮件正文中),但无法劫持智能体的控制流。这是一种从“行为遏制”(寄希望于LLM自身能抵抗攻击)到“架构遏制”(依赖架构的硬性约束来保证安全)的范式转变。

纵深防御:辅助安全控制

为应对数据流污染等其他风险,本文强调必须结合以下控制措施:

更安全的模式变体:规划-验证-执行 (Plan-Validate-Execute)

针对高风险应用,本文提出了P-t-E的一个增强变体。考虑到LLM可能产生“看似可信但实则错误”的计划,该模式在执行前引入一个强制的人工验证环节。智能体生成计划后,必须由人类专家审查并确认其逻辑性、安全性与正确性,然后才能授权执行器开始工作。

实验结论

本文没有传统的定量实验,而是通过分析如何在三个主流智能体框架中实现安全的P-t-E架构,来验证其设计原则的有效性和实用性。

LangChain & LangGraph 实现

CrewAI 实现

AutoGen 实现

总结

本文的分析表明,“规划-执行”架构是构建安全、可预测、高效的LLM智能体的坚实基础。它通过架构设计,而非模型本身的不可靠行为,来确保控制流的完整性,有效抵御了间接提示注入等关键威胁。

最终结论是,不存在单一的“银弹”。一个生产级的、可信赖的LLM智能体必须采用纵深防御 (Defense-in-depth) 策略,即将P-t-E架构模式与最小权限原则、沙盒化执行和人工验证等一系列安全控制相结合。