ImageBind: One Embedding Space To Bind Them All


TL;DR

本文提出 ImageBind,一种仅通过将图像与其他多种模态(文本、音频、深度、热成像、IMU)的数据进行配对,就能学习到一个统一的多模态联合嵌入空间,并由此涌现出跨模态对齐与组合等新能力的方法。

关键定义

相关工作

当前,多模态学习领域在联合训练图像与文本(如 CLIP, ALIGN)或特定模态对(如视频-音频)方面取得了巨大成功,这些方法能够学习到强大的语义表示。然而,它们的局限性在于,所学的嵌入空间通常只适用于训练时使用的模态对。例如,为视频-音频任务训练的模型无法直接用于图像-文本任务。

这一领域的主要瓶颈是缺乏包含所有模态的大规模配对数据集(例如,一个样本同时包含高质量的图像、文本、音频、深度、热成像和IMU数据)。

本文旨在解决的问题是:如何在没有这种“全能”数据集的情况下,学习一个能够容纳并对齐多种不同模-态(图像、文本、音频、深度、热成像、IMU)的单一、统一的嵌入空间。

本文方法

ImageBind 概览

图:ImageBind 概览。不同的模态在不同的数据源中自然对齐,例如网络数据中的图像+文本和视频+音频,与图像一起的深度或热成像信息,以及在第一人称视角视频中捕获的IMU数据等。ImageBind 将所有这些模态连接在一个共同的嵌入空间中,从而实现了新的涌现对齐和能力。

本文的核心目标是利用图像作为中心枢纽,将所有模态绑定在同一个联合嵌入空间中。通过分别将每种模态的嵌入与图像嵌入对齐,模型能够涌现出跨模态的零样本能力,即使某些模态对在训练中从未出现过。

创新点

本文最本质的创新在于提出了一个极其简洁且可扩展的范式:仅需图像配对数据即可绑定所有模态。以往的方法要么局限于特定模态对,要么需要多模态间的直接配对数据。ImageBind 证明,通过将所有其他模态(音频、深度、文本等)分别与图像对齐,系统能“涌现”出所有模态之间的相互对齐。这大大降低了对多模态数据的采集要求,因为(图像,模态X)这样的数据对远比(模态X,模态Y,模态Z…)的数据更容易获取。

优点

方法细节

绑定模态

对于任意一个模态 $\mathcal{M}$ 和图像 $\mathcal{I}$ 的配对观察样本 $(I_i, M_i)$,模型使用两个独立的编码器 $f$ 和 $g$ 将它们分别编码为归一化的嵌入向量 $\mathbf{q}_i = f(I_i)$ 和 $\mathbf{k}_i = g(M_i)$。然后,使用 InfoNCE 对比损失函数来优化这两个编码器,使得配对样本的嵌入在空间中更接近,非配对样本的嵌入更疏远。

损失函数定义如下:

\[L_{\mathcal{I},\mathcal{M}} = -\log \frac{\exp(\mathbf{q}_i^{\mathsf{T}} \mathbf{k}_i/\tau)}{\exp(\mathbf{q}_i^{\mathsf{T}} \mathbf{k}_i/\tau) + \sum_{j \neq i} \exp(\mathbf{q}_i^{\mathsf{T}} \mathbf{k}_j/\tau)}\]

其中,$\tau$ 是一个控制分布平滑度的温度超参数,$j$ 表示批次内的负样本。实际训练中使用的是对称损失 $L_{\mathcal{I,M}} + L_{\mathcal{M,I}}$。通过对所有模态都执行这一过程(即训练 \((图像, 文本)\)、\((图像, 音频)\)、\((图像, 深度)\) 等),最终实现了所有模态在统一空间中的对齐。

实现细节

实验结论

主要结果图

实验结果有力地证明了 ImageBind 方法的有效性,尤其是在涌现零样本能力方面。

关键实验结果

  IN1K P365 K400 MSR-VTT NYU-D SUN-D AS-A VGGS ESC LLVIP Ego4D
Random 0.1 0.27 0.25 0.1 10.0 5.26 0.62 0.32 2.75 50.0 0.9
ImageBind 77.7 45.4 50.0 36.1 54.0 35.1 17.6 27.8 66.9 63.4 25.0
Text Paired - - - - 41.9* 25.4* 28.4† - 68.6† - -
Absolute SOTA 91.0 60.7 89.9 57.7 76.7 64.9 49.6 52.5 97.0 - -
表2:涌现零样本分类准确率。ImageBind 在未见过的模态(深度、音频、热成像、IMU)上展现了强大的零样本能力。†表示使用了特定模态的文本配对数据进行训练。*表示直接在深度/热成像图上评估CLIP。

少样本分类

图3:音频和深度的少样本分类。ImageBind 在各种样本数量设置下均优于专门的自监督模型,甚至在少量样本时超过了监督学习模型。

音频查询目标检测

图5:用音频查询进行目标检测。只需将DETIC中基于CLIP的类别(文本)嵌入替换为ImageBind的音频嵌入,就能实现一个可用音频提示的目标检测器,无需任何重新训练。

方法优势验证

最终结论

本文成功证明了,通过一个简单而强大的“图像绑定”策略,可以学习到一个覆盖六种模态的统一嵌入空间。该方法的核心贡献在于揭示并利用了“涌现对齐”现象,使得模型在没有直接看到跨模态配对数据的情况下,也能进行零样本跨模态推理。ImageBind 不仅在多个基准测试中取得了SOTA或极具竞争力的表现,还开辟了如跨模态组合、用非文本模态“提示”现有视觉模型等全新的应用方向,为多模态学习领域提供了一个简洁、有效且可扩展的新范式。