Object Recognition Datasets and Challenges: A Review


TL;DR

本文通过对超过160个数据集的统计和描述,对物体识别领域的数据集和挑战赛进行了全面的回顾与分析,重点探讨了数据集在推动算法发展中的关键作用、主要数据集的演进趋势以及评估基准的变化。

关键定义

本文主要沿用并梳理了计算机视觉领域已有的核心概念,并未提出新的定义。关键概念如下:

相关工作

物体识别是计算机视觉的基础任务之一。随着研究的深入,特别是深度学习技术的兴起,算法的性能越来越依赖于大规模、高质量的训练数据。在算法发展的每个阶段,都有相应的数据集被构建出来以匹配当时最先进算法的能力。

然而,现有文献中虽然有许多关于算法进展和应用的综述,但缺乏一篇专门从数据集发展的角度对物体识别领域进行深入分析的综述。本文旨在填补这一空白,通过详细剖析过去二十年中主流物体识别数据集的演进、挑战和趋势,为研究者提供一个关于数据在物体识别领域所扮演角色的全面理解,并为未来的数据集构建指明方向。

背景

物体识别任务概述

物体识别是涵盖多个具体任务的总称。这些任务在粒度和目标上有所不同,构成了一个层次化的理解体系。

物体识别任务概述

物体识别历史里程碑

物体识别算法和数据集的发展历程与技术进步紧密相连,大致可分为深度学习兴起前后的两个阶段。

深度学习前时代(2012年以前): 早期的算法主要依赖于为特定应用设计的精巧的手工特征,如 SIFT (Scale-Invariant Feature Transform) 、HOG (Histogram of Oriented Gradients) 等。数据集也多为特定应用而生,如人脸识别的FERET、手写数字识别的MNIST。这些数据集通常分辨率较低,场景简单,物体姿态受控。PASCAL VOC系列挑战赛的推出,为当时的算法提供了一个标准的基准测试平台,推动了领域发展。

深度学习时代(2012年至今): 2012年,AlexNet在ImageNet大规模视觉识别挑战赛 (ILSVRC) 上取得突破性成功,标志着深度学习时代的到来。这证明了大规模、高质量标注的数据集对于释放深度神经网络(DCNNs)潜力的重要性。此后,算法和数据集的复杂性都大幅提升。

下图展示了物体识别算法和数据集发展的关键里程碑。 物体识别算法和数据集发展里程碑

评估指标

为了量化评估算法性能,本文介绍了几种核心指标。这些指标基于以下四个基本概念:

主要评估指标

ROC曲线 Figure 3: ROC Curve

通用物体识别数据集

近年来,公开的标注数据集数量激增。本节对通用物体识别数据集及其相关挑战赛进行综述。

主要大规模数据集

有四个公认的主要大规模物体识别数据集,它们极大地推动了领域的发展。

| 数据集 | 类别数 | 图像数 | 每张图平均物体数 | 首次发布 | | :— | :— | :— | :— | :— | | PASCAL VOC | 20 | 22,591 | 2.3 | 2005 | | ImageNet | 21,841 | 14,197,122 | 3 | 2009 | | Microsoft COCO | 91 | 328,000 | 7.7 | 2014 | | Open Images | 600 | 9,178,275 | 8.1 | 2017 | Table 1: PASCAL VOC, ImageNet, MS COCO, 和 Open Images 的数据集统计

主要挑战赛中获胜算法的准确率提升 Figure 4: 主要挑战赛物体检测赛道获胜算法的准确率提升。PASCAL VOC 2007年准确率下降是由于类别从4个增加到20个。

数据集概述

挑战赛任务

四大挑战赛涵盖了从简单到复杂的各种任务,其评估标准也随之演进。

| 挑战赛 | 任务 | 类别数 | 图像 | 已标注物体 | 活跃年份 | 任务描述 | 评估指标 | | :— | :— | :— | :— | :— | :— | :— | :— | | PASCAL VOC | 图像分类 | 20 | 11,540 | 27,450 | 2005 - 2012 | 预测每张图中是否至少存在一个各类别的实例 | AP | | | 检测 | 20 | 11,540 | 27,450 | 2005 - 2012 | 为图像中所有挑战类别的实例预测边界框 | AP (IoU > 0.5) | | | 分割 | 20 | 2,913 | 6,929 | 2007 - 2012 | 对物体类别进行语义分割 | IoU | | ILSVRC | 图像分类 | 1000 | 1,331,167 | 1,331,167 | 2010 - 2014 | 对每张图的一个已标注类别进行分类 | Top-5预测的二元类别错误率 | | | 物体检测 | 200 | 476,688 | 534,309 | 2013 - 2017 | 为每张图的所有实例预测边界框 | AP(IoU阈值与框大小成比例) | | MS COCO | 检测 | 80 | 123,000+ | 500,000+ | 2015 - 至今 | 对物体类别(things)进行实例分割 | AP at IoU in [0.5:0.05:0.95] | | | 关键点 | 17 | 123,000+ | 250,000+ | 2017 - 至今 | 同时进行物体检测和关键点定位 | 基于OKS的AP | | | Stuff | 91 | 123,000+ | - | 2017 - 至今 | 对背景类别进行像素级分割 | mIoU | | | 全景 | 171 | 123,000+ | 500,000+ | 2018 - 至今 | 对图像进行完整分割(stuff 和 things) | Panoptic Quality (PQ) | | Open Images | 物体检测 | 500 | 1,743,042 | 12,421,955 | 2018 - 至今 | 基于层次结构的边界框检测 | mAP | | | 实例分割 | 300 | 848,000 | 2,148,896 | 2018 - 至今 | 对物体类别进行实例分割;包含负标签以优化训练 | mAP (IoU > 0.5) | | | 视觉关系检测 | 57 | 1,743,042 | 380,000关系三元组 | 2018 - 至今 | 用关系三元组标记图像 | mAP和召回率的加权和 | Table 2: PASCAL VOC, ILSVRC, MS COCO, 和 Open Images 的挑战赛描述

其他物体识别数据集

除了上述四大主流数据集,还存在许多其他有价值的数据集。

物体检测数据集

尽管趋势是向分割掩码发展,但边界框标注因其成本低、一致性高而仍在许多数据集中使用。

| 数据集 | 图像数 | 类别数 | 边界框数 | 年份 | | :— | :— | :— | :— | :— | | Caltech 101 [75] | 9,144 | 102 | 9,144 | 2003 | | MIT CSAIL [234] | 2,500 | 21 | 2,500 | 2004 | | Caltech 256 [92] | 30,307 | 257 | 30,307 | 2006 | | Visual Genome [126] | 108,000 | 76,340 | 4,102,818 | 2016 | | YouTube BB [197] | 5.6 m | 23 | 5.6 m | 2017 | | Objects 365 [211] | 638,000 | 365 | 10.1 m | 2019 | Table 3: 通用物体检测数据集(不含3.1节中已介绍的)

物体分割数据集

这些数据集提供实例级或语义级的分割掩码。近年来,视频物体分割 (Video Object Segmentation, VOS) 成为一个热门方向,DAVIS和YouTube-VOS是该领域的主要基准。

| 数据集 | 图像数 | 类别数 | 物体数 | 年份 | 挑战赛 | 描述 | | :— | :— | :— | :— | :— | :— | :— | | SUN [256] | 130,519 | 3819 | 313,884 | 2010 | 否 | 主要用于场景识别,但也提供了实例级分割掩码 | | SBD [95] | 10,000 | 20 | 20,000 | 2011 | 否 | PASCAL VOC训练/验证图像上的物体轮廓 | | Pascal Part [46] | 11,540 | 191 | 27,450 | 2014 | 否 | PASCAL VOC数据集中20个类别的物体部件分割 | | DAVIS [30] | 150 (视频) | 4 | 449 | 2016 | 是 | 一个专注于半监督和无监督分割任务的视频物体分割数据集和挑战赛 | | YouTube-VOS [260] | 4,453 | 94 | 7,755 | 2018 | 是 | 从短视频片段(3-6秒)收集的视频物体分割数据集 | | LVIS [94] | 164,000 | 1000 | 2 m | 2019 | 是 | 针对长尾分布类别的实例分割标注,这些类别样本很少 | | LabelMe[207] | 62,197 | 182 | 250,250 | 2005 | 否 | 实例级分割;部分背景类别也被标注 | Table 4: 物体分割数据集

场景理解数据集中的物体识别

对图像的全面理解不仅需要识别物体,还需要理解场景。单纯的物体识别可能提供一些上下文线索,但也可能产生误导。背景属性(Stuff),如草地、天空,在传统物体识别数据集中常被忽略,但它们对提供几何关系和上下文推理至关重要。因此,许多以场景为中心的数据集被提出来,以实现更深层次的视觉理解。