The Landscape of Agentic Reinforcement Learning for LLMs: A Survey


TL;DR

本文提出并形式化了“智能体强化学习(Agentic Reinforcement Learning, Agentic RL)”这一新兴范式,将其定义为将大语言模型(LLM)从被动的序列生成器转变为在复杂动态环境中进行自主决策的智能体,并通过一个围绕智能体核心能力(规划、工具使用、记忆、推理等)的分类体系,系统性地梳理了强化学习在其中发挥的关键作用。

介绍

近年来,大语言模型(LLMs)与强化学习(Reinforcement Learning, RL)的融合引发了范式变革。早期方法将LLM视为静态的单轮输出生成器,通过RL进行对齐。然而,这忽略了现实交互中序贯决策的复杂性。新趋势是将LLM看作智能体实体 (agentic entities),即能够在部分可观察的动态环境中感知、推理、规划、使用工具、维护记忆并持续适应的自主决策者。本文将这一新兴范式定义为智能体强化学习 (Agentic RL)

Agentic RL的核心思想是:智能体强化学习框架LLM不仅是文本的被动发射器,更是嵌入在环境中的主动决策者,它通过强化学习,基于经验不断优化其行为策略。

与此相关的研究主要分为两大主流:

  1. LLM智能体 (LLM Agents):研究将LLM作为自主决策核心,探索其推理、规划、行动、交互和协作的能力。现有综述关注其架构、协作机制、演化路径以及工具使用等方面。
  2. 用于LLM的强化学习 (RL for LLMs):研究如何应用RL算法(如PPO、Q-learning)来提升LLM的指令遵循、伦理对齐和代码生成等能力。最著名的应用是基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)及其变体。

尽管已有大量工作,但目前仍缺乏一个统一的理论框架来整合Agentic RL的概念。本文旨在填补这一空白,通过马尔可夫决策过程(Markov Decision Process, MDP)和部分可观马尔可夫决策过程(partially observable Markov decision process, POMDP)对Agentic RL进行形式化定义,并提出一个以能力为中心的分类体系,最后系统性地整理了相关的任务、环境和框架,为该领域的未来发展指明方向。

本文结构

本文结构如下:第二部分通过MDP/POMDP的视角形式化了从传统LLM RL到Agentic RL的范式转变。第三部分从模型能力视角审视Agentic RL,对规划、推理、工具使用等关键模块进行分类。第四部分探讨其在搜索、代码生成、多智能体系统等领域的应用。第五部分整合了相关的开源环境和框架。第六部分讨论了开放挑战和未来方向,最后进行总结。

survey_structure

预备知识:从 LLM RL 到 Agentic RL

LLM的训练始于行为克隆(Behavior Cloning),即在静态文本数据上进行最大似然估计(MLE)。随后的后训练(post-training)阶段通过监督微调(SFT)和强化微调(RFT)来提升模型能力并与人类偏好对齐。

早期的RFT(本文称之为基于偏好的RFT,Preference-Based RFT, PBRFT)主要目标是在固定的偏好数据集上优化模型。随着具备推理和工具使用能力的LLM(如OpenAI o1, o3, DeepSeek-R1)的出现,研究焦点开始从PBRFT转向为特定任务和动态环境量身定制的Agentic RL。

本节将形式化地描述从PBRFT到Agentic RL的范式转变。

paradigm_shift

马尔可夫决策过程

RL微调过程可以形式化为一个七元组 \(\langle\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{P},\mathcal{R},T,\gamma\rangle\) ,其中 \(\mathcal{S}\) 是状态空间,\(\mathcal{O}\) 是观测空间,\(\mathcal{A}\) 是动作空间,\(\mathcal{P}\) 是状态转移概率,\(\mathcal{R}\) 是奖励函数,\(T\) 是任务 horizon,\(\gamma\) 是折扣因子。

PBRFT PBRFT的RL训练过程是一个退化的MDP,其元组为:

\[\langle\mathcal{S}_{\text{trad}},\mathcal{A}_{\text{trad}},\mathcal{P}_{\text{trad}},\mathcal{R}_{\text{trad}},T=1\rangle.\]

Agentic RL Agentic RL的RL训练过程被建模为一个POMDP:

\[\langle\mathcal{S}_{\text{agent}},\mathcal{A}_{\text{agent}},\mathcal{P}_{\text{agent}},\mathcal{R}_{\text{agent}},\gamma,\mathcal{O}\rangle,\]

其中智能体根据当前状态 \(s_{t}\in\mathcal{S}_{\text{agent}}\) 接收到观测 \(o_{t}=O(s_{t})\)。

PBRFT与Agentic RL的核心区别总结如下表。简言之,PBRFT在完全观测的固定数据集上优化单轮的句子输出,而Agentic RL在部分可观测的可变环境中优化多轮的语义级行为。

PBRFT与Agentic RL的形式化对比

  PBRFT Agentic RL
MDP 类型 单步退化MDP 时序扩展POMDP
状态空间 \(\mathcal{S}\) ${s_0}$ (单个prompt) 动态演化的世界状态
动作空间 \(\mathcal{A}\) 仅文本生成 \(\mathcal{A}_{\text{text}}\) 文本生成 \(\mathcal{A}_{\text{text}}\) 和结构化动作 \(\mathcal{A}_{\text{action}}\)
转移概率 \(\mathcal{P}\) 确定性(无环境变化) 随机性(环境随动作变化)
奖励函数 \(\mathcal{R}\) \(r(a)\) (基于最终回复的标量奖励) \(R(s_t, a_t)\) (包含中间步骤和最终任务的奖励)
学习目标 \(J(\theta)\) \(\mathbb{E}_{a\sim\pi_{\theta}}[r(a)]\) (最大化单步期望奖励) \(\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t=0}^{T-1}\gamma^{t}R(s_t, a_t)\right]\) (最大化累计折扣奖励)

环境状态

动作空间

在Agentic RL中,动作空间 \(\mathcal{A}_{\text{agent}}=\mathcal{A}_{\text{text}}\cup\mathcal{A}_{\text{action}}\) 分为两部分:

这两类动作在语义和功能上完全不同:\(\mathcal{A}_{\text{text}}\) 用于交流,不直接改变外部状态;\(\mathcal{A}_{\text{action}}\) 用于执行命令,获取信息或改变环境状态。

转移动态

奖励函数

\[\mathcal{R}_{\text{agent}}(s_{t},a_{t})=\begin{cases}r_{\text{task}}&\text{任务完成时},\\[2.0pt] r_{\text{sub}}(s_{t},a_{t})&\text{步骤级进展时},\\[2.0pt] 0&\text{其他情况},\end{cases}\]

学习目标

RL算法

主流的RL算法包括REINFORCE、PPO、DPO和GRPO等,它们在PBRFT和Agentic RL中都扮演着关键角色。

下表总结了这些算法家族中的流行变体。

家族 方法 主要贡献 需要Critic 需要奖励模型 数据类型
PPO PPO [12] 稳定、可靠的策略更新,通过剪裁目标函数 提示-回复
  PPO-max [37] 将PPO应用于上下文学习(ICL) 提示-回复
  DPPO [38] 将PPO扩展到分布式环境,以实现可扩展性 提示-回复
  IPO-PPO [39] 将IPO与PPO结合,以防止过拟合 提示-回复
  G-PPO [40] 在PPO中引入组蒸馏,以提高稳定性 提示-回复
DPO DPO [29] 将RLHF重新表述为二元分类,消除了奖励模型 偏好对
  \(\beta\)-DPO [41] 允许灵活的\(\beta\),以实现更优的策略 偏好对
  rDPO [42] 利用合成数据和多目标优化扩展DPO 偏好对
  IPO [35] 通过正则化防止过拟合,提高鲁棒性 偏好对
  KTO [36] 从二进制信号(可取/不可取)中学习,而非成对比较 偏好对
  vDPO [43] 将DPO扩展到多模态设置 偏好对
  SLiC [44] 直接从未标记数据中学习,无需成对偏好 偏好对
  OPO [45] 将DPO扩展到离线RL,以实现更有效的策略改进 提示-回复
GRPO GRPO [31] 用组相对奖励替代绝对值critic 提示-回复
  PRO [46] 提出了一种新颖的策略优化方法,拒绝低奖励的输出 提示-回复
  ARO [47] 通过在序列级别聚合奖励来提高在线RL的效率 提示-回复
  RRHF [48] 利用排名响应来对齐LLM,平衡了SFT和RL 提示-回复
  Grok [49] 通过自我反思和与工具的交互进行学习 提示-回复
  RSO [50] 在线微调方法,利用排名响应,无需critic 提示-回复
  SOTO [51] 一种新颖的在线微调方法,无需critic 提示-回复
  CPO [52] 在线微调方法,无需critic 提示-回复
  RO/RAO/RPO [53] 通过在token和序列级别聚合奖励来增强在线RL 提示-回复
  BPO/SteerLM [54] 通过结合强化学习和监督微调来对齐LLM 偏好对
  ReMax [55] 通过将奖励最大化纳入解码过程来增强LLM 提示-回复
  APPO/APRL [56] 自适应策略优化,无需critic 提示-回复
  SPO [57] 通过自我博弈进行策略改进,无需critic 提示-回复
  GDC/GDP [58] 通过在组响应上应用一致性来增强策略 偏好对
  TRL [59] 在线微调方法,无需critic 提示-回复
  SRPO [60] 通过自我奖励来增强稀疏奖励环境中的策略 提示-回复
  PaLM-RL [61] 通过结合PPO和DPO来对齐LLM 偏好对
  ReST [62] 一种在线微调方法,无需critic 提示-回复
  SPIN [63] 通过自我博弈进行策略改进,无需人工注释 提示-回复

分类体系:模型能力视角

本节将Agentic RL概念化为对一个自主智能体的原则性训练,该智能体由规划、工具使用、记忆、自省、推理、感知等一系列关键能力/模块组成。传统上,一个智能体包含一个LLM核心,并配合规划、推理、工具调用、记忆和反思等机制。

Agentic RL将这些组件视为可共同优化的相互依赖的策略:用于规划的RL学习多步决策轨迹;用于记忆的RL塑造检索和编码动态;用于工具使用的RL优化调用时机和保真度;用于反思的RL驱动内部自我监督和自我完善。

agent_capability_structure

agent_capability_taxonomy

规划

规划是为实现目标而深思熟虑一系列行动的能力,是AI的基石。早期的工作通过提示工程(如ReAct)利用LLM的固有能力,但缺乏从经验中适应的机制。RL的出现填补了这一空白,使智能体能通过环境反馈来优化其规划策略。目前,RL与智能体规划的集成主要体现为两种范式:

RL作为规划的外部向导

在这种范式中,RL作为规划过程的外部指导。LLM的主要角色是在一个结构化的搜索框架(如蒙特卡洛树搜索 MCTS)内生成候选动作。RL并不直接微调LLM,而是用来训练一个辅助的奖励或启发式函数,该函数用于评估不同规划轨迹的质量,从而引导搜索。代表性工作如RAP和LATS,它们利用一个由RL辅助的模型来评估LLM生成的步骤,将搜索引向更有希望的解决方案。在这里,LLM是知识丰富的动作提议者,而RL提供高效探索所需的自适应评估反馈。

RL作为规划的内部驱动力

第二种更集成化的范式将RL定位为智能体核心规划能力的内部驱动力。这种方法直接将LLM视为策略模型,并通过与环境的直接交互来优化其规划行为。RL的反馈不再是指导外部搜索算法,而是直接用于优化LLM生成规划的内部策略。这可以通过基于RLHF的方法实现,例如在成功与失败的轨迹上使用DPO(如ETO),或通过终身学习框架实现。例如,VOYAGER通过与环境的交互迭代地构建和完善技能库。这种范式将LLM从静态生成器转变为一个持续进化的自适应策略,增强其在动态环境中的鲁棒性和自主性。例如,AdaPlan及其PilotRL框架,在文本游戏环境中利用全局规划指导和渐进式RL来增强LLM智能体的长时规划和执行协调能力。

展望:深思熟虑与直觉的综合

智能体规划的未来在于综合这两种范式,超越“深思熟虑”(如基于搜索的规划)与“直觉”(如端到端策略)之间的二元对立。未来的高级智能体可能会将快速、直觉式的决策与需要时进行的、更慢、更深思熟虑的规划相结合。RL将是实现这种动态平衡的关键,它能够学习何时依赖LLM的内在规划能力,何时启动更耗费计算的显式搜索过程,从而实现既高效又最优的决策。