Process-Supervised Reinforcement Learning for Interactive Multimodal Tool-Use Agents


TL;DR

本文提出了一种名为“回合级评审强化学习” (Turn-level Adjudicated Reinforcement Learning, TARL) 的流程监督方法,该方法利用大型语言模型 (LLM) 作为裁判提供细粒度的回合级奖励,并结合混合任务训练策略,以解决长程交互中的信用分配和探索不足问题,从而显著提升了交互式多模态工具使用智能体的任务成功率。

关键定义

本文的核心方法和概念建立在一个为强化学习设计的沙盒环境之上。

相关工作

当前,让大型语言模型(LLM)与外部工具和服务交互是AI智能体领域的前沿方向。然而,训练这类智能体,尤其是在需要多回合对话、长上下文管理的交互式场景中,面临巨大挑战。

现有方法大多依赖静态的、预先收集的轨迹数据进行监督学习,但这难以应对真实世界交互的动态性和多变性。强化学习(RL)提供了一种在线学习的范式,让智能体能通过与环境的动态交互来优化策略,但标准RL算法在工具使用这类长程任务中也存在瓶颈:

  1. 信用分配问题 (Credit Assignment Problem):在一次包含数十个步骤的多回合交互后,仅根据最终任务是否成功给予一个稀疏的奖励信号,很难判断出究竟是哪个或哪些步骤导致了最终的成功或失败,这使得学习效率低下。
  2. 探索能力下降 (Reduced Exploration):随着训练进行,模型往往变得“过度自信”,倾向于重复已知的成功路径,减少了对新策略的探索,从而陷入局部最优,难以发现更优的解决方案。

本文旨在解决上述两个核心问题,即如何在复杂的、多回合的交互式工具使用任务中,实现有效的信用分配和持续的探索,特别是在处理包含文本和语音的多模态交互时。

本文方法

本文提出了一套完整的、基于强化学习的训练框架,用于开发交互式多模态工具使用智能体。该框架的核心是创新的训练策略,旨在解决探索不足和信用分配两大难题。

训练流程图 上图概述了交互式工具使用智能体的训练流程。智能体在沙盒环境中运行,接收工具执行结果和用户反馈。然后,单个回合和完整轨迹都会被评估和打分,生成用于更新智能体的奖励信号。

框架与公式

本文将交互式工具使用任务形式化为一个马尔可夫决策过程 (Markov Decision Process, MDP)。智能体的策略由一个自回归语言模型 $p_{\theta}$ 构成。整个交互过程 $\mathbf{\tau}$ 由智能体生成的Token序列 $\mathbf{x}^{i}$ 和环境反馈的Token序列 $\mathbf{e}^{i}$ 交错组成:$\mathbf{\tau}=(\mathbf{x}^{1},\mathbf{e}^{1},\mathbf{x}^{2},\mathbf{e}^{2},\ldots,\mathbf{x}^{T},\mathbf{e}^{T})$。训练目标是最大化完整轨迹的期望奖励:

\[J(\theta)=\mathbb{E}_{\mathbf{\tau}\sim p_{\theta}}[R(\mathbf{\tau})]\]

在此基础上,本文对比了多种RL算法,如PPO、GRPO和SPO,并最终选择将新方法与表现优异的GRPO和PPO相结合。

沙盒环境图示

创新点

本文的创新主要体现在两个相互补充的训练策略上:混合任务训练和回合级评审强化学习(TARL)。

混合任务训练

为了解决智能体在训练中探索能力下降的问题,本文引入了混合任务训练策略。该策略在常规的工具使用任务训练中,交替插入中等难度的数学问题(来自DeepScaleR数据集)。

回合级评审强化学习 (TARL)

为了解决长程任务中的信用分配难题,本文设计了TARL方法,其核心是引入一个LLM裁判(GPT-4.1)来提供细粒度的过程监督。

TARL图示

实验结论

本文通过在文本和多模态两个场景下的实验,全面验证了所提出方法的有效性。

文本智能体实验


方法 Avg. waits Avg. len. pass^1 pass^2 pass^3 pass^4
Qwen3-8B 1.83 2919.1 42.1 24.3 16.2 11.2
RL Baselines            
SPO 1.63 2838.4 45.4 26.5 18.0 12.5
PPO 1.48 2781.9 49.3 29.8 19.8 14.1
GRPO 1.51 2810.1 51.2 30.7 20.9 15.3
本文方法            
Math 1.95 2992.3 51.5 31.0 21.0 15.8
GRPO + TARL 1.86 2933.2 55.4 33.7 23.4 17.1
Math + TARL 2.21 3102.5 57.4 35.1 24.1 17.9


多模态智能体实验


训练 评估 Avg. waits Avg. len. pass^1 pass^2 pass^3 pass^4
- 文本 1.05 2404.1 7.8 1.5 0.4 0.0
S-T 文本 1.43 2623.1 28.5 11.2 5.1 2.5
S-T 语音 1.45 2689.9 28.1 10.8 4.8 2.2
T-only 语音 1.29 2501.0 25.3 9.2 3.9 1.6


分析与总结