A Practitioner’s Guide to Multi-turn Agentic Reinforcement Learning


TL;DR

本文通过将多轮智能体强化学习(multi-turn agentic reinforcement learning)的设计空间分解为环境、奖励和策略三大支柱,系统性地进行了实证研究,并最终提炼出一套用于训练大型语言模型(LLM)智能体的实用方法配方。

关键定义

本文主要沿用并适配了现有的强化学习概念,将其应用于多轮智能体场景,核心在于其问题形式化方式:

  1. 分部分可观察马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP):本文将多轮智能体任务构建为一个POMDP问题,由元组 $(\mathcal{S},\mathcal{A},\mathcal{T},\mathcal{R},\Omega,\mathcal{O},\gamma)$ 定义。其中,智能体在每个时间步 $t$ 根据历史轨迹 $h_t$ 采取一个动作 $a_t$,接收到一个部分观察 $o_t$(真实状态 $s_t$ 的文本描述)和一个标量奖励 $r_t$,目标是最大化期望折扣奖励总和。

  2. 多轮动作与奖励分配 (Multi-turn Action and Reward Assignment):与传统RL不同,这里的动作 $a_t$ 是一个由模型生成的自然语言指令(即一个 token 序列),直到遇到结束符 \(<eos>\) (end-of-sequence) 才被环境执行。本文的核心设计之一是将该轮的奖励 $r_t$ 仅分配给 \(<eos>\) 这个 token,而动作序列中的其他 token 奖励为0。这种机制在不改变环境奖励结构的前提下,为基于 token 的策略梯度计算提供了明确的信号。

相关工作

当前,将强化学习应用于大型语言模型(LLM)的研究主要集中在单轮(single-turn)任务上,例如 Proximal Policy Optimization (PPO)、RLOO等方法已被广泛优化。然而,将这些方法直接应用于多轮智能体场景是十分困难的,主要原因在于:

本文旨在解决这一现状,即 如何有效地通过多轮强化学习训练大型语言模型(LLM)智能体?。通过对RL三大核心支柱——环境、策略和奖励——进行系统性分析,本文试图为在各种交互式文本环境中训练LLM智能体提供一个标准化的、可复现的实践指南。

多轮智能体RL图示及其关键研究问题

本文方法

本文的核心贡献不是提出一个全新的算法,而是构建了一个系统性的分析框架和一套经过实证检验的训练配方。该框架将多轮智能体RL的设计分解为环境、策略和奖励三个相互关联的支柱,并通过实验揭示了在不同支柱下的最佳实践。

问题形式化

本文将多轮智能体任务形式化为一个POMDP问题。在每个时间步 $t$,LLM智能体的策略 $\pi_{\theta}$ 基于历史轨迹 $h_t=(u,s_0,a_0,s_1,a_1,\cdots,s_t)$ 来生成一个动作序列 $a_t$。这个动作本身是一个自然语言序列 $(a_t^1, a_t^2, …, a_t^{n_t}, a_t^{eos})$。

一个具体流程示例如下: LLM接收到的输入遵循一个聊天模板: ``\(<|im_start|>user Your task is: {任务提示}. state: {状态0} your action:<|im_end|> <|im_start|>assistant {动作0}<|im_end|> ... <|im_start|>user state: {状态t} your action:<|im_end|> <|im_start|>assistant\)`$$ 模型 $\pi_{\theta}$ 生成动作 $a_t$。环境接收到完整的动作后,执行状态转换并计算奖励 $(s_{t+1}, r_t) = \text{env}(s_t, a_t)$。

创新点

本文方法的核心创新在于其系统性的多轮问题建模与信用分配机制,而非单一算法的改进。

  1. 明确的逐轮(Turn-level)信用分配:本文提出,将每轮互动产生的奖励 $r_t$ 明确地赋给该轮动作序列的结束符 \(<eos>\)。即,对于动作 $a_t$ 中的每个 token $a_t^i$,其奖励为:

    \[r_t^i=\begin{cases}r_t&\text{if }a_t^i=\texttt{<eos>}\\ 0&\text{otherwise}\end{cases}\]

    这种设计将稀疏的轮次奖励巧妙地转化为 token 级别的稀疏信号,使得PPO等基于优势函数的算法可以通过价值网络自举(bootstrapping)将信用分配给动作序列中的其他 token。

  2. token级别的优势函数计算:基于上述奖励分配,本文为PPO等算法设计了 token 级别的优势函数估计。首先计算每个 token 的TD误差 $\delta_t^i = r_t^i + \gamma V(h_t^{i+1}) - V(h_t^i)$,然后使用广义优势估计 (Generalized Advantage Estimation, GAE) 计算每个 token 的优势值 $\hat{A}_t^i = \sum_{l=0}^{L-i}(\gamma\lambda)^l\delta_t^{i+l}$。最终PPO的裁剪代理物镜函数为:

    \[\mathcal{L}^{CLIP}(\theta)=\mathbb{E}_{\tau\sim\pi_{\theta}}\left[\sum_{t=0}^{T}\sum_{i=1}^{n_t+1}\min\left(r_t^i(\theta)\hat{A}_t^i,\text{clip}(r_t^i(\theta),1-\epsilon,1+\epsilon)\hat{A}_t^i\right)\right]\]

    其中 $r_t^i(\theta)$ 是新旧策略下 token $a_t^i$ 的概率比。

优点

实验结论

本文在TextWorld、ALFWorld和SWE-Gym三个基准上进行了大量实验,验证了其提出的训练配方的有效性。

环境 (Environment)

策略 (Policy)

奖励 (Reward)

最终结论:本文的实证研究表明,通过对环境、策略和奖励进行协同设计,可以有效地训练LLM进行多轮智能体任务。本文提出的训练配方在文本推理、具身推理和软件工程等多种任务中均被证实有效,为未来多轮智能体RL的研究与实践提供了坚实的指南。