Training Task Reasoning LLM Agents for Multi-turn Task Planning via Single-turn Reinforcement Learning
-
ArXiv URL: http://arxiv.org/abs/2509.20616v1
-
作者: Changliu Liu; Na Li; Hanjiang Hu; Yebin Wang
-
发布机构: Carnegie Mellon University; Harvard University; Mitsubishi Electric Research Laboratories
TL;DR
本文提出了一种新颖的方法,通过将复杂的多轮任务规划问题转化为一系列单轮任务推理问题,并利用基于专家轨迹的单轮强化学习(GRPO)进行优化,成功训练出在长时程规划任务中性能超越大型基线模型的小参数量智能体。
关键定义
本文为连接单轮学习与多轮规划,提出或沿用了以下关键定义:
-
多轮任务规划马尔可夫决策过程 (Multi-Turn Task Planning MDP): 这是一个标准的有限时程MDP,定义为 $\mathcal{M}=(\mathcal{S},\mathcal{A},f,R,\mathcal{T},s_0)$,用于描述完整的长时程任务。其中,环境状态转移 $f$ 未知,奖励 $R$ 是稀疏的(仅在任务最终完成时为1),这使得直接在该MDP上训练LLM策略变得困难。
-
专家轨迹 (Expert Trajectory): 定义为 $\tau^{GT}(T^{GT})$,是一条由专家策略 $\pi^{GT}$ 生成的、能成功完成任务且具有唯一最短步数的轨迹。这个定义是本文方法论的基石,因为它提供了一个最优且唯一的学习目标。
-
单轮任务推理马尔可夫决策过程 (Single-Turn Task Reasoning MDP): 这是本文为实现高效训练而构造的简化MDP,定义为 $\mathcal{M}_S=(\mathcal{S},\mathcal{A},\emptyset,r_{\pi^{GT}},1,s_0)$。它没有状态转移,是一个单步(bandit)问题。其核心是稠密且可验证的奖励函数 $r_{\pi^{GT}}(s,a)=\mathds{1}{a=\pi^{GT}(s)}$,即在任一状态 $s$,如果智能体的行为 $a$ 与专家轨迹中的行为一致,则奖励为1,否则为0。
-
最小步数成功概率 (Success Probability with Minimal Steps): 定义为 $P_t^{\pi}(s_t)=\mathbb{P}_{\pi}(R(s_{t+T^*(s_t)},a_{t+T^*(s_t)})=1 \mid s_t)$,表示在状态 $s_t$ 下,策略 $\pi$ 能以最短所需步数 $T^*(s_t)$ 成功完成任务的概率。这是连接单轮学习效果与多轮任务成功的关键理论桥梁。
相关工作
当前,通过强化学习(RL)训练大型语言模型(LLM)智能体进行复杂的多轮任务规划是一个极具前景的方向。然而,现有方法面临三大关键瓶颈:
- 稀疏奖励:在多轮交互中,只有在任务最终完成时才能获得奖励,导致学习信号极其稀疏。
- 信用分配:在长时程任务中,很难确定哪一步关键行为对最终的成败做出了贡献。
- 计算开销:多轮RL的计算复杂度随序列长度增长而急剧增加,对于需要几十步决策的复杂任务而言,训练成本过高。
与此相对,单轮RL后训练(如GRPO)在数学、代码等单轮推理任务上取得了成功,但这些成功局限于模型一次性生成完整答案的场景。
本文旨在解决的核心问题是:如何弥合高效的单轮推理训练与复杂的多轮任务规划需求之间的鸿沟,从而在避免多轮RL挑战的同时,有效提升LLM智能体的长时程规划能力。
本文方法
核心思想:多轮规划到单轮推理的转化
本文的核心洞察在于,任何复杂的多轮任务规划都可以被分解为一系列独立的单轮任务推理问题。具体来说,基于一条最优的专家轨迹 $\tau^{GT} = [(s_0^{GT}, a_0^{GT}), \dots, (s_n^{GT}, a_n^{GT})]$,多轮规划问题被转化为:在每个状态 $s_i^{GT}$,学习一个策略来预测出最优的下一步动作 $a_i^{GT}$。
这种转化巧妙地将一个长时程、稀疏奖励的序列决策问题,变成了一系列具有稠密、即时且可验证奖励的单步决策问题,从而能够应用更高效的RL算法进行训练。
优化算法:单轮GRPO
本文采用组相对策略优化 (Group Relative Policy Optimization, GRPO) 算法在构建的单轮MDP上进行策略优化。GRPO是一种在线(on-policy)的无模型RL方法,其特点是不需要训练一个复杂的价值或评论家网络,而是通过比较一批(group)采样结果的相对好坏来估计优势函数。
GRPO的目标函数如下:
\[\max_{\pi}\mathbb{E}_{s\sim\rho_Q}\mathbb{E}_{a\sim\pi_{\text{old}}(\cdot \mid s)}\frac{\pi(a \mid s)}{\pi_{\text{old}}(a \mid s)}A(s,a)-\beta\text{KL}(\pi \mid \mid \pi^{\text{ref}})\]其中,优势函数 $A(s,a)$ 直接根据与专家动作是否匹配的二元奖励 $r_{\pi^{GT}}$ 计算得出,无需复杂的价值估计。KL散度项则用于正则化,防止策略偏离参考策略太远。
创新与优点:
- 规避多轮RL难题:通过转化为单轮问题,彻底避免了稀疏奖励、信用分配和高昂的多轮回合(rollout)计算成本。
- 稠密可验证的奖励:奖励信号 $r_{\pi^{GT}}(s,a)=\mathds{1}{a=\pi^{GT}(s)}$ 非常稠密(每一步都有)且易于验证(只需与专家动作对比),使得学习非常高效。
理论保障:从单轮提升到多轮成功
本文最重要的贡献之一是提供了理论证明,将在单轮推理任务上的策略提升与在多轮规划任务中的成功概率联系起来。
关键在于一个非标准的成功概率递归方程:
\[P_t^{\pi}(s_t)=\mathbb{E}_{a\sim\pi(\cdot \mid s_t)}[r_{\pi^{GT}}(s_t,a)\cdot P_{t+1}^{\pi}(s_{t+1})]\]这个方程与传统的贝尔曼方程不同,它使用乘法而非加法连接当前步的奖励和未来状态的成功概率。这意味着,只有当智能体在当前步选择了正确的动作(即 $r_{\pi^{GT}}(s_t,a)=1$)时,它才有机会在后续步骤中继续保持在最优路径上,从而实现最终的最小步数成功。任何一步的错误都会导致整个乘积项为零,即无法以最小步数完成任务。
基于此,本文证明了以下关键定理:
-
GRPO提升多轮成功概率 (Theorem 3.3):如果GRPO在单轮任务上优化后的策略 $\pi^*$ 在所有状态上都优于或等于参考策略 $\pi^{\text{ref}}$ (即 $\mathbb{E}_{a \sim \pi^*}[r_{\pi^{GT}}(s,a)] \geq \mathbb{E}_{a \sim \pi^{\text{ref}}}[r_{\pi^{GT}}(s,a)]$),那么在多轮任务中,$\pi^*$ 以最小步数完成任务的概率也更高,即 $P_t^{\pi^*}(s_t)\geq P_t^{\pi^{\text{ref}}}(s_t)$。
-
对子任务的泛化 (Corollary 3.2):同样,在更复杂的任务上训练得到的策略,也能提高其在所有内嵌的、更简单的子任务上的成功概率。
实验结论
实验在一个具有挑战性的烹饪场景任务规划基准上进行,旨在回答两个问题:1) 单轮GRPO训练能否提升多轮任务规划性能?2) 训练出的智能体是否具备向未见任务泛化的能力?
有效性与效率验证
本文将1.5B参数的Qwen2.5模型经过SFT和单轮GRPO训练后,与不同尺寸(1.5B到14B)的Qwen2.5基线模型进行比较。
| 任务 | 模型 | SR ($\uparrow$) | ASAT ($\downarrow$) | ASST ($\downarrow$) |
|---|---|---|---|---|
| Cheese Burger (芝士汉堡) | Qwen2.5-14b | 0.2 | 22.4 | 20.0 |
| (最多23步) | Qwen2.5-1.5b (SFT) | 0.6 | 18.4 | 15.3 |
| Qwen2.5-1.5b (SFT+GRPO) | 0.7 | 15.8 | 12.7 | |
| Double Cheese Burger (双层芝士汉堡) | Qwen2.5-14b | 0.0 | 35.0 | — |
| (最多35步) | Qwen2.5-1.5b (SFT) | 0.1 | 34.2 | 27.0 |
| Qwen2.5-1.5b (SFT+GRPO) | 0.3 | 30.5 | 20.0 |
注:SR-成功率, ASAT-所有尝试的平均步数, ASST-成功尝试的平均步数。上表节选了最具代表性的两个复杂任务的结果。
- 显著性能提升:结果显示,1.5B的GRPO训练模型在所有任务上的表现均显著优于所有基线模型,包括参数量为其近10倍的14B模型。在最复杂的“双层芝士汉堡”(约30步)任务中,只有本文方法训练的模型取得了非零的成功率(30%)。
- GRPO的关键作用:与仅进行监督微调(SFT)的模型相比,增加了GRPO训练的模型在成功率和效率上都有巨大提升,验证了单轮RL对于学习任务推理逻辑的有效性,与理论预期(Theorem 3.3)一致。
- 更高的效率:GRPO训练的模型不仅成功率高,完成任务所需的平均步数也更少,这表明它学习到了更接近最优(即最小步数)的策略。
跨任务泛化能力
为了验证理论(Corollary 3.2)的泛化预测,实验评估了在单一任务上训练的模型在其他所有(更简单或更复杂)任务上的零样本表现。
成功率泛化矩阵 (SR)
| 训练于 ($\downarrow$) / 评估于 ($\rightarrow$) | Cheese Sandwich | Burger | Cheese Burger | Double Cheese Burger |
|---|---|---|---|---|
| Cheese Sandwich | 0.3 | 0.3 | 0.0 | 0.0 |
| Burger | 0.4 | 0.7 | 0.0 | 0.0 |
| Cheese Burger | 0.4 | 0.7 | 0.7 | 0.0 |
| Double Cheese Burger | 0.3 | 0.5 | 0.4 | 0.3 |
- 从复杂到简单的泛化:在最复杂任务(Double Cheese Burger)上训练的模型,能够成功解决所有更简单的子任务,这有力地支持了理论预测。相反,在简单任务上训练的模型无法泛化到更复杂的任务。
- 泛化中的效率损失:尽管复杂任务模型可以解决简单任务,但其效率(所需步数)可能不如专门为该简单任务训练的模型,显示出一定的“最优性损失”。
最终结论
本文成功地证明,通过将多轮规划分解为单轮推理,并应用GRPO进行高效优化,可以训练出小巧而强大的LLM智能体,其在复杂长时程任务中的表现超越了体量远大于它的模型。该工作不仅提供了坚实的理论基础来连接单轮学习与多轮成功,还通过实验验证了方法的有效性和良好的泛化能力。虽然方法依赖于专家轨迹,但它为构建更高效、更能干的LLM智能体开辟了一条极具前景的道路。