AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning


TL;DR

本文提出了一个名为 AgentGym-RL 的强化学习框架和一个名为 ScalingInter-RL 的渐进式训练方法,旨在通过多轮交互式决策,从零开始(无需监督微调)训练大型语言模型(LLM)智能体,以解决长时程复杂任务。

关键定义

本文提出或沿用了以下对理解论文至关重要的核心概念:

相关工作

当前,大型语言模型(LLM)正从聊天机器人向能够处理真实世界长时程任务的自主智能体演进。通过与环境的探索和交互来学习是智能体发展的理想模式,因此强化学习(RL)成为一种自然的技术路径。

尽管已有研究将 RL 应用于 LLM 领域,但多数工作局限于单轮推理任务,未能解决智能体在复杂环境中进行多轮交互决策的问题。少数尝试训练多轮交互智能体的研究,在任务复杂性、环境多样性以及优化稳定性方面存在局限,导致性能不佳。

本文旨在解决的核心问题是:当前社区缺乏一个统一、有效、端到端的交互式多轮 RL 框架,该框架需要能够支持在多样化的真实环境中,从零开始(不依赖监督微调作为预备步骤)训练 LLM 智能体,并确保训练过程的稳定性和高效性。

本文方法

框架:AgentGym-RL

AgentGym-RL 是一个为训练多轮交互 LLM 智能体而设计的全新强化学习框架。它基于 AgentGym 构建,但在环境多样性、算法支持和工程优化方面进行了大幅扩展。

架构

该框架采用模块化和解耦的设计,包含三个核心组件:

这种即插即用的设计提供了高度的灵活性和可扩展性,研究者可以轻松集成新的环境、智能体架构和训练算法。

AgentGym-RL框架概览 图 2: AgentGym-RL 框架概览。它具有解耦、灵活和可扩展的架构,包括环境、智能体和训练三个主要模块,支持多样的场景、环境和算法。

``$$python

伪代码示例

第1阶段:生成响应

task_ids = expand(task_ids, sample_num) envs = create_env_clients(task_ids, “webarena”, base_url) 并行执行: for (env, task_id) in zip(envs, task_ids): env.reset(task_id) handlers =[ RolloutHandler().add_user_message(env.observe()) for env in envs] for i in range(max_rounds) prompts = [h.get_prompt() for h in handlers] responses = actor.generate(prompts) results = thread_safe_list() 并行执行: for (env, response) in zip (envs, responses): results.append(env.step(response)) for (h, r, res) in zip(handlers, responses, results): h.add_assistant_message(r) h.add_user_message(res.state) h.score = res.score if all_done(handlers): break

第2阶段:准备经验

batch = gen_batch_from_rollout_handlers(handlers) batch = actor.compute_log_prob(batch) batch = reference.compute_ref_log_prob(batch) batch = compute_advantages(batch, method=”grpo”)

第3阶段:Actor训练

actor.update_actor(batch) $$`` 图 3: 框架使用示例的伪代码(橙色标记为提供的API),以及智能体-环境交互与训练流程的简化理论图。

特点

多样的场景与环境

为了培养智能体的综合能力(环境感知、长期规划、深度推理、反思修正),AgentGym-RL 覆盖了五大类真实世界场景:

全面的RL算法支持

框架以在线强化学习为核心,集成了一系列主流算法,包括:

扩展性、可伸缩性与可靠性

为支持大规模研究,框架进行了大量工程优化:

开源与社区贡献

AgentGym-RL 是一个完全开源的框架,提供详细文档、可复现的训练流程和标准化 API。其亮点包括:

框架的可视化用户界面 图 4: 框架的可视化用户界面概览。

方法:ScalingInter-RL

动机与核心洞见

智能体通过与环境的外部交互来探索和积累解决任务所需的信息。然而,初步实验表明,从一开始就允许过多的交互轮数,会导致智能体陷入无效探索,最终使训练崩溃;而始终限制交互轮数,又会束缚智能体的探索能力,使其难以掌握复杂策略。这启发本文提出一种动态调整交互深度的训练方法。

方法描述

ScalingInter-RL 是一种渐进式扩展智能体-环境交互时程的训练策略,旨在平衡探索与利用,并稳定优化过程。其核心是根据一个预设的课程表 (curriculum schedule),在训练过程中逐步增加允许的最大交互轮数 $K$。

  1. 初期阶段 (利用): 训练从一个较小的最大交互轮数 $h_t$ 开始。这迫使智能体在有限的步骤内高效地解决问题,集中精力掌握基础技能和完成简单任务。
  2. 后期阶段 (探索): 随着训练的进行(例如每隔 $\Delta$ 步),最大交互轮数会增加:$h_{t+1} = h_t + \delta_h$。更长的交互时程激励智能体探索更长的决策路径,从而有机会学习到规划、反思、回溯等高阶行为。
\[\tau_t \sim \pi_\theta \left( \tau \mid h_t \right), \quad \text{其中 } K_t \leq h_t\]

通过这种从“利用”到“探索”的平滑过渡,ScalingInter-RL 使智能体的策略能力与交互深度相匹配,既保证了早期训练的效率和稳定,又实现了对长时程复杂任务的泛化。

ScalingInter-RL方法图示 图 5: ScalingInter-RL 方法图示。它让智能体分阶段适应:初期限制交互轮数以优先利用、掌握基础技能;后期逐渐增加交互以促进探索、优化行为并解决更难的问题。

实验结论

本文通过在五个不同场景下的广泛实验,验证了 AgentGym-RL 框架和 ScalingInter-RL 方法的稳定性和有效性。

关键结果与洞察

左:不同智能体任务上的性能对比;右:模型规模与性能关系 图 1 左: 不同智能体任务中,商业闭源模型、开源模型以及本文RL模型的性能对比。: 性能与模型规模的关系。本文框架和方法协同作用,显著提升了开源7B模型的性能,达到甚至超过顶尖商业大模型的水平。

不同环境下的训练奖励曲线 图 6: 不同环境下的训练奖励曲线。

不同最大交互轮数下的训练动态 图 7: 在深度搜索环境中,不同最大交互轮数下的训练动态。长轮次(如10)初期通过更丰富的探索获得更高奖励,但因高方差和过拟合很快崩溃。短轮次(如5)学习更稳定但探索不足,导致性能瓶颈。本文的 ScalingInter-RL 方法通过逐步增加交互时程,最终实现了更高、更高效的长期性能。

具体任务表现

WebArena (网页导航)


模型 Shopping CMS Maps G & R Overall
商业闭源模型          
GPT-40 20.00 13.33 10.00 20.00 16.00
OpenAI o3 33.33 0.00 40.00 80.00 34.00
Gemini-2.5-Pro 26.67 26.67 0.00 60.00 28.00
开源模型          
Qwen2.5-7B-Instruct 14.29 6.67 0.00 16.67 9.76
Qwen2.5-72B-Instruct 13.33 13.33 0.00 20.00 12.00
Llama-3.1-70B-Instruct 26.67 6.67 20.00 10.00 16.00
本文 RL 模型          
AgentGym-RL-7B 20.00 33.33 0.00 30.00 22.00
ScalingInter-7B 33.33 26.67 20.00 20.00 26.00


本文的 ScalingInter-7B 模型在总体性能(26.00%)上显著优于 GPT-4o(16.00%),并与 Gemini-2.5-Pro(28.00%)相当。

Deep Search (深度搜索)


模型 NQ TriviaQA PopQA HotpotQA 2Wiki Musique Bamboogle Overall
商业闭源模型                
GPT-4o 20.00 70.00 30.00 30.00 32.00 10.00 34.00 26.75
OpenAI o3 28.00 70.00 56.00 46.00 64.00 29.00 74.00 49.50
Gemini-2.5-Pro 22.00 62.00 38.00 28.00 48.00 19.00 56.00 36.50
开源模型                
Qwen2.5-7B-Instruct 18.00 54.00 20.00 18.00 6.00 4.00 26.00 18.75
DeepSeek-R1-0528 32.00 68.00 42.00 44.00 50.00 21.00 44.00 40.25
本文 RL 模型                
AgentGym-RL-7B 44.00 64.00 32.00 40.00 36.00 15.00 26.00 34.00
ScalingInter-7B 52.00 70.00 46.00 42.00 44.00 14.00 24.00 38.25


ScalingInter-7B 的总体得分(38.25)优于 GPT-4o 和 Gemini-2.5-Pro,并与顶尖开源模型 DeepSeek-R1(40.25)相当,在 NQ 和 TriviaQA 等子任务上达到 SOTA 水平。

TextCraft (数字游戏)


模型 Depth 1 Depth 2 Depth 3 Depth 4 Overall
商业闭源模型          
OpenAI o3 100.00 100.00 84.00 0.00 93.00
Gemini-2.5-Pro 100.00 100.00 84.00 33.33 94.00
开源模型          
Qwen2.5-7B-Instruct 80.65 39.02 16.00 0.00 56.00
DeepSeek-R1-0528 100.00 100.00 68.00 0.00 90.00
本文 RL 模型          
AgentGym-RL-7B 100.00 100.00 76.00 0.00 92.00
ScalingInter-7B 100.00 100.00 100.00 66.67 98.00


ScalingInter-7B 在此任务上表现出色,总体得分(98.00)达到 SOTA,并首次在最高难度(Depth 4)上取得了 66.67% 的成功率。

BabyAI (具身任务)


模型 BossLevel
商业闭源模型  
GPT-4o 28.00
OpenAI o3 70.00
Gemini-2.5-Pro 62.00
开源模型  
Qwen2.5-7B-Instruct 11.00
Qwen2.5-72B-Instruct 40.00
Llama-3.1-70B-Instruct 44.00
本文 RL 模型  
AgentGym-RL-7B 82.00
ScalingInter-7B 84.00


ScalingInter-7B 再次取得 SOTA 成绩(84.00),远超所有商业和开源基线模型。

SciWorld (科学任务)


模型 Average Steps Score
商业闭源模型    
GPT-4o 14.28 49.38
OpenAI o3 14.18 51.52
Gemini-2.5-Pro 14.12 53.65
开源模型    
Qwen2.5-7B-Instruct 7.96 1.50
Qwen2.5-72B-Instruct 12.30 38.30
Llama-3.1-70B-Instruct 13.98 49.98
本文 RL 模型    
AgentGym-RL-7B 11.22 48.00
ScalingInter-7B 12.18 50.50


RL 带来了巨大提升,ScalingInter-7B 将基础模型的得分从 1.50 大幅提升至 50.50,与顶尖商业模型 OpenAI o3 (51.52) 和 Gemini-2.5-Pro (53.65) 表现相当。