An Augmentation Overlap Theory of Contrastive Learning


TL;DR

本文提出了一个“增强重叠”(Augmentation Overlap)理论,通过揭示同一类别的不同样本在数据增强下会产生重叠的视图,解释了实例级别的对比学习为何能学习到具有类别区分性的表示,并基于此推导出了更紧密的下游任务性能界。

关键定义

本文的核心理解建立在对以下概念的阐述和更新上:

相关工作

自监督对比学习通过拉近同一样本的增强视图(正样本)并推开不同样本的视图(负样本),在各种任务上取得了与监督学习相媲美的性能。然而,其工作机制的理论解释尚不清晰。

当前存在的关键问题是:为什么旨在进行实例级别区分的对比学习,最终能学习到对类别级别下游任务有效的表示?

本文方法

本文的理论贡献分为两个主要部分:首先改进了基于旧有假设的界,然后提出了全新的增强重叠理论。

改进:基于条件独立假设的更紧密性能界

在挑战条件独立性假设之前,本文首先展示了即便在该假设下,通过更精细的分析技术也能得到远优于先前工作的性能界。


方法 上界 ${\mathcal{L}}_{\rm sup}(f) \leq {\mathcal{L}}_{\rm unsup}(f) + \text{Error}$
Arora et al. (2019) $O(\log\frac{M}{K}) - \log (1-\tau_M) + \mathrm{Col}$
Von Kügelgen et al. (2021) $\log\frac{N\tau + (1-\tau)(M-1)}{K}$
HaoChen et al. (2021) $\frac{\epsilon_{\text{align}}}{2} + 2 \log 2$
本文 $\frac{e}{\sqrt{M}}$


核心:增强重叠理论

本文最重要的贡献是提出了“增强重叠”理论,以取代不切实际的条件独立性假设。

t-SNE可视化

对比学习框架与增强重叠示意图 增强重叠视图示例 (a) 对比学习框架。 (b) 来自ImageNet的四张图片的增强视图。前两行是汽车,后两行是笔。第一列是锚点样本,2-5列是其对应的增强视图。可见,不同汽车(同类)可能产生相似的局部视图(如轮胎),而汽车和笔(异类)的视图则差异明显。

实验结论

尽管本文主要是一篇理论性很强的论文,所提供的文本片段未包含完整的实验章节,但其理论推导和观点由以下几方面得到支撑: