SAM 2: Segment Anything in Images and Videos


TL;DR

本文提出了SAM 2,一个统一处理图像和视频中可提示分割任务的基础模型,它通过引入流式记忆架构和构建大规模视频分割数据集SA-V,在显著提升分割精度和交互效率的同时,性能超越了现有方法。

关键定义

相关工作

当前,视觉分割领域在处理视频时面临诸多挑战。以SAM为代表的图像分割模型虽然强大,但仅限于静态图像,无法处理视频中的动态变化。

现有的视频分割方法主要分为两类:

  1. 交互式视频对象分割 (iVOS):通常采用模块化设计,如将SAM与一个独立的视频追踪器结合。这种方法的缺点是:追踪器可能对某些对象失效,SAM在视频帧上的表现可能不佳,且当追踪失败时,修正过程复杂,通常需要从头重新标注,缺乏对历史信息的记忆。
  2. 半监督视频对象分割 (VOS):依赖于在第一帧提供一个高质量的掩码,然后追踪到视频结尾。这只是PVS任务的一个特例,且在实际应用中,为第一帧精确标注掩码既困难又耗时。

同时,现有的视频分割数据集在规模和多样性上存在不足,大多只关注车辆、动物等特定类别的完整对象,缺乏对任意物体(things and stuff)及其组成部分(parts)的覆盖。

本文旨在解决上述问题,即创建一个统一的、能够“分割万物”的基础模型,它既能处理图像也能处理视频,支持在整个视频流中进行灵活的交互式分割,并且通过构建一个前所未有的大规模、多样化的视频分割数据集来支撑这一能力。

本文方法

本文的核心贡献是一个统一的模型(SAM 2),一个创新的数据收集引擎,以及一个大规模的数据集(SA-V)。

SAM 2 模型架构

SAM 2 可以被看作是 SAM 在视频领域的自然泛化。它采用流式处理架构,逐帧消费视频,并通过一个记忆机制来维持对目标对象的时空理解。当处理单张图片时(可视为单帧视频),记忆库为空,其行为退化为与SAM类似。

SAM 2 架构图 图 3: SAM 2 架构。 对于给定帧,分割预测依赖于当前提示和/或先前观察到的记忆。视频以流式方式处理,图像编码器逐帧处理,并与之前帧的目标记忆进行交叉注意力计算。掩码解码器(可选地接收输入提示)预测该帧的分割掩码。最后,记忆编码器转换预测和图像编码器嵌入,以供未来帧使用。

其主要组件包括:

创新点

交互式分割修正示例

数据引擎与SA-V数据集

为了训练强大的 SAM 2,本文构建了一个高效的数据引擎,通过三个阶段的迭代,收集了迄今为止规模最大的视频分割数据集 SA-V (Segment Anything Video)

| | 模型在环 | 每帧时间 | 编辑帧比例 | 每次点击帧的点击数 | 与阶段1的掩码对齐得分 (IoU>0.75) | | :— | :— | :— | :— | :— | :— | | 阶段 1 | 仅 SAM | 37.8 s | 100.00 % | 4.80 | - | | 阶段 2 | SAM + SAM 2 Mask | 7.4 s | 23.25 % | 3.61 | 86.4 % | | 阶段 3 | SAM 2 | 4.5 s | 19.04 % | 2.68 | 89.1 % | 表1: 数据引擎各阶段效率与质量对比。

| 数据集 | 视频数 (K) | 掩码集数 (K) | 掩码数 (M) | | :— | :— | :— | :— | | YouTube-VOS | 4.5 | 8.6 | 0.2 | | BURST | 2.9 | 16.1 | 0.6 | | MOSE | 2.1 | 5.2 | 0.4 | | SA-V Manual | 50.9 | 190.9 | 10.0 | | SA-V Manual+Auto | 50.9 | 642.6 | 35.5 | 表3: SA-V 数据集与其它VOS数据集的规模对比(部分)。

实验结论

本文通过在多个基准上的零样本实验,全面验证了 SAM 2 的性能。

| 方法 | 1-click | 3-click | 5-click | bounding box | ground-truth mask | | :— | :— | :— | :— | :— | :— | | SAM+XMem++ | 56.9 | 68.4 | 70.6 | 67.6 | 72.7 | | SAM+Cutie | 56.7 | 70.1 | 72.2 | 69.4 | 74.1 | | SAM 2 | 64.7 | 75.3 | 77.6 | 74.4 | 79.3 | 表4: 在17个视频数据集上的零样本平均准确率 ($\mathcal{J}\&\mathcal{F}$) 对比。

| 方法 | MOSE val | DAVIS 2017 val | YTVOS 2019 val | SA-V test | | :— | :— | :— | :— | :— | | Cutie-base+ | 71.7 | 88.1 | 87.5 | 62.8 | | SAM 2 (Hiera-B+) | 76.6 | 90.2 | 88.6 | 77.0 | 表6: VOS 任务与SOTA方法的性能对比(部分)。

最终结论: SAM 2 通过创新的流式记忆架构,成功地将强大的可提示分割能力从图像扩展到了视频领域,创建了一个统一、高效且高性能的基础模型。结合其配套的超大规模SA-V数据集和数据引擎,本文为视觉感知领域树立了新的里程碑,将推动相关研究和应用的进一步发展。