Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI


引言

近年来,AI领域的发展由生成式AI主导,但其本质上仍是被动响应。为了超越被动生成,实现自主行动,研究焦点正转向智能体AI (Agentic AI),它强调自指导行为、复杂推理和环境交互。智能体AI被广泛视为AI系统演化的下一阶段。

学术界和工业界普遍认为,智能体AI包含三个核心能力:

智能体AI的发展与这些核心能力的实现方式演进紧密相关,这一过程正在经历深刻的范式转变。

范式分类体系

本文的核心分类体系将智能体AI的构建方法划分为两大范式:基于流水线的范式和模型原生范式。

基于流水线的范式 (Pipeline-based Paradigm)

早期的智能体构建可被归纳为“流水线”范式,其核心能力由外部逻辑和工作流(workflow)架构驱动:

在这种范式下,智能体的能力并非模型内生,而是通过外部精心设计的流水线工程化实现的。其局限性在于系统僵化、脆弱,难以适应动态变化的环境,且将大语言模型(LLM)视为被动工具而非主动决策者。

模型原生范式 (Model-native Paradigm)

为克服流水线范式的局限,智能体AI正转向以“模型原生”为核心的范式。其理念是从构建复杂的外部智能体系统,转向训练一个本身就是系统的强大智能体模型。规划、工具使用和记忆不再是外部脚本,而是通过端到端训练内化为模型的内在行为:

模型原生范式将LLM视为自主决策者,使其能够生成计划、调用工具和管理记忆,这些都是其内在习得的行为。

应用演进

核心能力的范式转变也重塑了智能体应用的发展路径。目前,智能体应用主要沿着两条主线演进:作为“大脑”的深度研究智能体 (Deep Research Agent) 和作为“眼手”的图形界面智能体 (GUI Agent)

从流水线到模型原生:RL驱动的智能体能力与应用演进

深度研究智能体

早期形式如Perplexity的AI搜索,其构建了一个包含查询扩展、信息检索和答案生成的智能体流水线。Google则将单轮搜索升级为多轮迭代的“深度研究”过程,但早期版本仍依赖精心设计的流水线。

范式转变的标志是OpenAI推出的首个模型原生深度研究智能体,它基于其智能体基础模型进行微调,通过模型的内部策略来规划整个研究过程,显著提升了长时程一致性和信息发现深度。后续,通义实验室的WebAgent系列,特别是\(WebSailor\)和\(Tongyi DeepResearch\)模型,推动了开源模型原生深度研究智能体的发展。

与流水线系统相比,模型原生智能体展现出更强的长时程一致性、更深的探索能力和对多样化信息环境的适应性。但仍面临两大挑战:

  1. 开放网络中的信息噪音可能导致强化学习放大“幻觉”问题。
  2. 开放式研究任务的奖励模型难以定义,如何量化洞察力、批判性分析等主观质量标准仍是前沿问题。
图形界面智能体 (GUI Agent)

早期的GUI智能体多采用流水线方法,如\(AppAgent\)通过XML视图层次信息来编排LLM,\(Mobile-Agent\)则调用专门的感知工具(如OCR)来从截图中定位UI元素。这些系统通常将通用模型与专用工具配对,依赖外部工作流指导行为。

近期的趋势是开发模型原生的解决方案,将感知、规划、定位和执行内化为统一的策略。\(UI-TARS\)是早期的代表,通过在监督轨迹数据集上进行端到端训练来预测底层操作。\(GUI-Owl\)和\(OpenCUA\)则更进一步,通过强化学习完全内化GUI的规划与执行,使其超越模仿,获得更强的鲁棒性和适应性。

与流水线系统相比,模型原生范式使GUI智能体能够处理更复杂、灵活的任务。但其也面临独特挑战:

  1. 输入和输出是细粒度的底层操作(像素、控件、点击、滑动),微小的感知或定位错误都可能导致任务失败。
  2. GUI环境的动态性和非平稳性(如布局变化、弹窗)使得并行探索和强化学习变得困难,一次收集的轨迹可能很快失效。

算法驱动力

从流水线范式向模型原生范式转变的核心驱动力,是在LLM训练中应用大规模强化学习 (Reinforcement Learning, RL)。\(DeepSeek-R1\)的技术报告表明,通过端到端的RL,模型可以在没有昂贵、逐步监督的情况下,通过探索来获得核心智能体能力。

从SFT到RL

在RL成为焦点之前,监督微调 (Supervised Fine-Tuning, SFT) 是主要方法,即训练模型模仿一个真实的轨迹数据集。然而,对于认知和执行层面的智能体任务(如撰写研究报告),构建完整的轨迹数据成本极高。

RL通过将学习问题从“模仿如何做”转变为“探索哪些行为能成功”,优雅地绕过了对明确程序化监督的需求。模型通过与环境交互,根据奖励信号来学习一个能最大化累积期望奖励的策略 \($\pi\_{\theta}\)$。这使模型能发现人类标注数据中可能不存在的新颖、更优的策略,从被动模仿者转变为主动探索者。

面向LLM的强化学习

早期的RL方法(如PPO、DPO)主要用于RLHF,优化单轮、对齐人类偏好的行为。但这些方法依赖密集的步级监督,不适用于长时程、稀疏奖励的智能体任务。

为解决这些问题,一系列面向结果驱动的RL算法被提出。例如,组相对策略优化 (GRPO) 引入轻量级评估范式,提高了训练稳定性;解耦裁剪和动态采样策略优化 (DAPO) 则通过改进裁剪机制和采样策略,提升了在多轮交互中的性能。这些算法的进步最终形成了一个统一的训练方案:\($LLM+RL+Task\)$,即基础模型在特定任务环境中通过RL算法得到增强。

算法:面向LLM的强化学习

必要性:程序化数据的短缺

一个基础的LLM策略 \($\pi\_{\theta}(a \mid q)\)$ 直接将指令 \(q\) 映射到答案 \(a\),并未建模中间的程序化步骤。基于流水线的方法通过外部脚手架来引导模型生成程序化行为,但这种方式存在根本缺陷,凸显了使用RL将智能体能力内化的必要性。

流水线作为外部脚手架

以思维链(CoT)为例,它通过在提示中加入少量示例 \(E\) 来引导模型 \($\pi\_{\theta}\)$。当模型处理拼接后的提示 \($[E;q]\) 时,其生成后续推理链 \(R\) 和答案 \(a\) 的概率如下:

\[P(R,a \mid [E;q])=\prod_{t=1}^{T}P_{\theta}(r_{t} \mid [E;q],r_{<t})\cdot P_{\theta}(a \mid [E;q],r_{1:T})\]

示例 \(E\) 的存在创造了一种强大的模式,使得模型倾向于模仿示例的结构生成推理链。因此,这个推理链不是模型内化的行为,而是被诱导产生的。

分布外 (Out-of-Distribution) 差距

这种对上下文模式匹配的依赖正是流水线范式脆弱的原因。模型并未学会推理步骤的逻辑有效性,只学会了它们在文本上是合理的。用于预训练的大规模自然语料库很少包含这种结构化的程序化数据。因此,由CoT提示所调用的条件分布 \($P\_{\theta}(R,a \mid [E;q])\)$ 对于模型来说通常是分布外 (Out-of-Distribution, OOD) 的。当测试查询与示例相似时,模型可能成功;但当面对OOD情况时,泛化能力很差,可能产生不连贯的推理和无根据的答案。

RL的必要性

为了弥合OOD差距并创造内化的能力,必须显式地优化模型参数 \($\theta\)$。从概率角度看,一个具备原生规划能力的模型应该首先推理,然后回答。这可以看作是在所有可能的推理轨迹 \(R\) 空间上对最终答案概率进行边缘化:

\[P(a \mid q)=\int_{R}P(R \mid q)P(a \mid R,q)dR\]

要内化这个过程,模型必须学会对推理轨迹的策略 \($P(R \mid q)\)$ 和给定推理轨迹的答案生成 \($P(a \mid R,q)\)$ 进行建模。SFT是一种方法,但高质量的 \($(q,R,a)\)$ 三元组数据成本高昂。

RL通过允许策略 \($\pi\_{\theta}\)$ 在环境中探索完整的轨迹 \($\tau\)$,并基于结果驱动的奖励 \($\mathcal{R}(\tau)\)$ 更新参数,而无需完整的程序化监督。其优化目标为:

\[\theta^{*}=\arg\max_{\theta}\;\mathbb{E}_{\tau\sim\pi_{\theta}}\big[\mathcal{R}(\tau)\big]\]

RL将学习从静态数据灌输转变为动态样本生成,从绝对真值拟合转变为相对价值学习,从而将模型从被动模仿者转变为主动探索者,为智能体能力的模型原生内化提供了根本机制。

可行性:经典RL vs. 面向LLM的RL

大规模预训练赋予LLM丰富的世界知识和结构化先验,这从根本上重塑了RL的应用方式。这些先验知识不仅提高了探索效率,还为不同任务提供了一个通用的接口。

探索效率:从随机搜索到先验引导的探索

经典RL中,智能体从一个随机策略开始,通过反复试错学习,这个过程样本效率极低。

相比之下,预训练的LLM已编码了大量事实和程序化知识,这构成了对状态和行为空间的强大先验。RL不再是从零开始,而是在一个由预训练权重中的世界知识 \($\mathcal{K}\)$ 锚定的结构化先验 \($\pi\_{\text{prior}}(a \mid s,\mathcal{K})\)$ 基础上进行探索。RL的目标变为:

\[\theta^{*}=\arg\max_{\theta}\;\mathbb{E}_{\tau\sim\pi_{\theta}(\tau\mid\mathcal{K})}\big[\mathcal{R}(\tau)\big]\]

这可以看作是对知识条件下的策略进行微调,使其更好地对齐任务特定的奖励信号。这种先验引导的探索显著提升了样本效率,使模型能够在训练早期就发现有意义的轨迹。

跨任务泛化:通用的环境、行动和奖励接口

经典RL通常在狭隘、特定的环境中运行,策略与环境紧密耦合,难以泛化。

而面向LLM的RL则在一个开放的、以语言为媒介的环境中运行,RL元组的所有元素(状态、行动、奖励)都通过文本或符号Token表示:

这种基于语言的表示,将原本针对特定领域的RL问题,转化为一个统一的、在语言空间中的序列建模任务。LLM充当了一个通用的世界模型和策略网络,允许单个模型通过RL在推理、编码、网页浏览等多种任务上进行学习和优化。这使得RL不再是为特定任务训练专门智能体的方法,而成为一种为通用LLM内化广泛智能体能力的通用机制。