ARM-FM: Automated Reward Machines via Foundation Models for Compositional Reinforcement Learning


TL;DR

本文提出了ARM-FM框架,利用基础模型(Foundation Models, FMs)从自然语言指令中自动生成奖励机(Reward Machines, RMs),为组合式强化学习(Compositional Reinforcement Learning)提供结构化的奖励信号,以解决长时程、稀疏奖励任务并实现泛化。

关键定义

本文的核心是提出了一种新型的奖励机,并在此基础上构建了整个框架。

相关工作

当前强化学习领域在奖励函数设计上面临核心挑战:

本文旨在解决上述问题,特别是如何将FMs的高级推理能力与RL的低级控制需求相结合,通过自动化构建RMs来弥合这一差距,从而将模糊的人类意图转化为具体、可执行的学习信号。

本文方法

ARM-FM框架概览

本文提出了一种名为ARM-FM(Automated Reward Machines via Foundation Models)的自动化奖励设计框架。该框架利用FMs的推理能力,将复杂的自然语言任务描述自动翻译成结构化的任务表示,供强化学习训练使用。

任务描述与生成的RM示例

整个框架包含两大核心组件:一是使用FMs自动构建语言对齐奖励机(LARMs),二是通过将策略与LARM状态的语言嵌入相关联,从而实现结构化奖励、泛化和技能复用。

语言对齐奖励机 (LARM)

创新点

本文的核心创新在于提出了LARM。它在标准RM的基础上,为每个RM状态 $u$ 增加了对应的自然语言描述 $l_u$ 和其嵌入向量 $z_u$。这一设计至关重要,因为它构建了一个语义技能空间:策略可以根据这些嵌入向量进行条件化,从而自然地在相关子任务之间共享知识,实现跨任务的迁移、组合和零样本泛化。

LARM的自动构建

本文提出了一套流程,通过迭代式地提示(prompting)一个FM,从语言和图像共同构成的任务描述中自动构建LARM。

LARM的自我改进生成循环

具体来说,该流程采用多轮自我改进(self-improvement)机制,利用成对的FMs来逐步精化RM的规范。最终,FM会生成完整的LARM,包括:

  1. 自动机结构:RM的状态和转移关系。
  2. 可执行的标签函数($\mathcal{L}$):通常以Python代码形式生成,用于检测环境中的关键事件。
  3. **各状态的自然语言指令($l_u$)和嵌入($z_u$) **。

自动生成的完整LARM示例

实践证明,FM生成的LARM不仅可解释性强,而且由于遵循自然语言规范,也易于人类修改和验证。

结合LARM的强化学习

引入LARM后,智能体的训练过程在一个增强的状态空间 $\mathcal{S} \times \mathcal{U}$(即环境状态与RM状态的笛卡尔积)上进行。

优点

该方法的核心优点在于其策略 $\pi(s_t, z_{u_t})$ 同时以环境状态 $s_t$ 和当前LARM状态的语言嵌入 $z_{u_t}$ 为条件。这种基于语言的策略条件化是实现泛化的中心机制,它创建了一个语义接地的技能空间,使得“拿起蓝钥匙”和“拿起红钥匙”这类指令在嵌入空间中自然邻近,为广泛的经验重用和高效的策略迁移开辟了道路。

在训练过程中,智能体的学习循环如下:

  1. 在$t$时刻,智能体根据当前环境状态$s_t$和LARM状态嵌入$z_{u_t}$,选择一个动作$a_t \sim \pi(s_t, z_{u_t})$。
  2. 环境转移到新状态$s_{t+1}$,并返回基础奖励$R_t$。
  3. 标签函数$\mathcal{L}(s_{t+1}, a_t)$判断是否发生了某个符号事件。
  4. 如果事件发生,LARM会根据转移函数$\delta$更新状态至$u_{t+1}$,并提供一个额外的RM奖励$R^{\text{RM}}_t$。
  5. 用于策略更新的总奖励为$R^{\text{total}}_t = R_t + R^{\text{RM}}_t$。

这个过程将稀疏的最终任务奖励分解为一系列密集的、结构化的子任务奖励,极大地简化了学习过程。

实验结论

本文在一系列具有挑战性的环境中对ARM-FM进行了评估,覆盖了离散和连续控制领域。

实验环境截图

稀疏奖励任务

在MiniGrid环境套件中,这些任务因奖励稀疏而极具挑战性。

DoorKey任务结果 MiniGrid困难任务结果

复杂3D环境扩展

在基于Minecraft的程序化3D环境Craftium中,任务是采集一系列资源来最终挖到钻石。

机器人操控

在Meta-World连续控制基准测试中,为机器人手臂设计奖励通常需要大量手动工程。

Meta-World任务结果

通过语言嵌入实现泛化

多任务学习中的消融实验

零样本泛化评估

深入分析

不同FM生成LARM的质量比较

LARM状态嵌入的PCA可视化

总结

本文的实验有力地证明了ARM-FM框架的有效性。它不仅能将稀疏奖励任务转化为易于学习的密集奖励任务,显著提升了样本效率,而且能够扩展到复杂的3D和连续控制领域。最重要的是,通过语言对齐的奖励机,该框架实现了鲁棒的多任务学习和零样本泛化能力,为构建更通用、更具可解释性的强化学习智能体开辟了新的道路。