BridgeData V2: A Dataset for Robot Learning at Scale


TL;DR

本文介绍了 BridgeData V2,一个大规模、多样化的机器人操作行为数据集,旨在推动可扩展机器人学习的研究。该数据集包含在24个环境中、使用一个公开可用的低成本机器人收集的超过6万条轨迹,并证明了其能够支持多种主流学习算法训练出可泛化到新任务、新环境甚至新机构的策略。

关键定义

本文沿用了机器人学习领域的一些术语,并对其用法进行了明确界定,以清晰地描述数据集的构成:

相关工作

本文方法

本文的核心贡献是 BridgeData V2 数据集本身。其设计理念和构成旨在成为一个能够促进可扩展、通用机器人学习研究的基础资源。

系统设置与数据收集

数据集构成与特点

BridgeData V2 是一个规模巨大且高度多样化的数据集,远超其第一版。

数据集 # 轨迹 # 技能 # 环境 语言 公开数据 公开机器人 收集方式
MIME [3] 8.30k 12 1 人类
RoboTurk [4] 2.10k 2 1 人类
RoboNet [23] 162k n/a 10 脚本
MT-Opt [30] 800k 1 1 脚本 & 学习
BridgeData [6] 7.20k 4 12 人类
BC-Z [5] 26.0k 3 1 人类
RT-1 [7] 130k 2 3 人类
RH20T [49] 13.0k 41 50 人类
RoboSet [32] 98.5k 6 11 29% 人类, 71% 脚本
BridgeData V2 60.1k 13 24 84% 人类, 16% 脚本
Table 1: 与其他主要机器人操作数据集的比较。BridgeData V2 在规模、多样性、可及性和数据公开性方面具有显著优势。

实验结论

实验旨在验证 BridgeData V2 作为多任务离线学习研究平台的有效性,评估了6种主流方法(GCBC、D-GCBC、ACT、CRL、LCBC、RT-1)在数据集上的表现。

技能学习与泛化能力

任务 (见过) GCBC D-GCBC ACT CRL LCBC RT-1
打开抽屉 0.4 0.6 0.5 0.4 0.5 1.0
用杆把豆子扫成一堆 0.9 0.9 0.9 0.7 0.4 0.6
将蓝色薄布折叠在物体上 0.4 0.7 0.7 0.5 0.5 0.9
平均 0.49 0.49 0.41 0.42 0.23 0.49
Table 2: 在见过任务上的成功率(节选)。
任务 (未见过) GCBC D-GCBC ACT CRL LCBC RT-1
用刷子()把米()扫成堆 0.6 0.0 0.3 0.3 0.0 0.1
把记号笔(*)放进碗里(†) 0.6 0.6 0.2 0.7 0.0 0.0
用布(‡)擦桌子(‡) 0.6 0.5 0.4 0.6 0.4 0.9
平均 0.60 0.55 0.28 0.52 0.08 0.50
Table 3: 在未见任务上的成功率(节选)。*表示未见物体,†表示未见环境和物体,‡表示未见环境。

跨机构泛化能力

任务 (Lab 1 → Lab 2) GCBC D-GCBC ACT CRL LCBC RT-1
平均成功率 0.30 → 0.13 0.23 → 0.13 0.03 → 0.10 0.13 → 0.20 0.13 → 0.03 0.47 → 0.40
Table 4: 跨机构评估的平均成功率。

规模化效应分析

规模化分析图

Figure 5: (左)性能随模型容量和数据量增加而提升。(右)在未见任务上,使用13种技能训练的策略(成功率0.65)远超使用3种技能训练的策略(成功率0.30)。