OpenVLA: An Open-Source Vision-Language-Action Model


TL;DR

本文介绍并开源了一款名为OpenVLA的7B参数视觉-语言-动作(Vision-Language-Action, VLA)模型,该模型通过在包含970k真实世界机器人演示的大规模多样化数据集上进行训练,其通用操作能力不仅超越了参数量大7倍的闭源模型RT-2-X,并且首次系统地展示了如何利用参数高效微调(LoRA)与量化技术,在消费级硬件上实现对此类大模型的高效适配与部署。

关键定义

相关工作

当前,用于机器人操作的学习策略普遍存在泛化能力不足的问题,它们难以适应训练数据之外的新物体、新场景或未见过的指令。虽然视觉和语言基础模型(如Llama 2)展现了强大的泛化能力,但如何有效利用它们来赋能机器人仍然是一个挑战。

现有的通用机器人策略(如Octo)通常是将预训练的视觉或语言模块与从零开始训练的模型组件“拼接”起来,而最近的VLA模型(如RT-2)虽然性能优越,但存在两大瓶颈:

  1. 闭源与不可及:现有最先进的VLA模型(如RT-2、RT-2-X)均为闭源,其模型架构、训练数据和训练流程细节不为公众所知,阻碍了社群的研究和发展。
  2. 缺乏高效适配方法:现有工作未探讨如何将这些大型VLA模型高效地微调(fine-tuning)到新的机器人、环境和任务中,尤其是在消费级硬件上,这是其实际落地的关键。

本文旨在解决上述两个核心问题,即提供一个强大的开源VLA模型,并探索使其易于被社群适配和部署的高效方法。

本文方法

本文介绍了OpenVLA模型,一个在Open X-Embodiment数据集的970k个机器人演示上训练的7B参数VLA。以下是其模型、训练和关键设计决策的详细阐述。

模型架构

OpenVLA的架构基于一个强大的预训练视觉语言模型Prismatic-7B,主要包含三个部分:

OpenVLA模型架构

训练过程

OpenVLA的训练过程将机器人动作预测问题转化为一个标准的下一Token预测任务。

创新点

实验结论

本文通过在多个真实机器人平台上的广泛实验,验证了OpenVLA的有效性。

直接评估

在“开箱即用”的评估中,OpenVLA与先前的通用机器人策略(RT-1-X, Octo, RT-2-X)在WidowX和Google Robot两个平台上进行了比较。

BridgeData V2 WidowX 机器人评估任务与结果

Google 机器人评估结果

数据高效的适配

实验在一个新的机器人平台(Franka Emika Panda)上评估了OpenVLA在小样本数据(10-150个演示)下的微调性能。

适配到新机器人平台的结果

参数与内存高效的适配

本文进一步探索了在资源受限情况下适配OpenVLA的方法。

参数高效微调评估

策略 成功率 可训练参数 (百万) 显存 (batch 16)
Full FT (完全微调) 69.7 ± 7.2 % 7,188.1 163.3 GB*
Last layer only (仅最后一层) 30.3 ± 6.1 % 465.1 51.4 GB
Frozen vision (冻结视觉) 47.0 ± 6.9 % 6,760.4 156.2 GB*
Sandwich 62.1 ± 7.9 % 914.2 64.0 GB
LoRA, rank=32 68.2 ± 7.5% 97.6 59.7 GB
rank=64 68.2 ± 7.8% 195.2 60.5 GB

*: FSDP分片于2张GPU

量化推理的性能

精度 Bridge 成功率 显存
bfloat16 71.3 ± 4.8% 16.8 GB
int8 58.1 ± 5.1% 10.2 GB
int4 71.9 ± 4.7% 7.0 GB

不同GPU上OpenVLA的推理速度

总结

OpenVLA不仅在性能上树立了开源通用机器人策略的新标杆,更重要的是,它通过开源模型和代码,并验证了一系列高效的适配与部署技术(LoRA和量化),为机器人社群利用和发展大规模基础模型铺平了道路,显著降低了技术门槛。