DELTA: Decoupling Long-Tailed Online Continual Learning


TL;DR

本文提出了一种名为 DELTA 的解耦学习框架,通过两阶段训练策略(监督对比学习 + 均衡损失)有效解决了长尾在线持续学习(Long-Tailed Online Continual Learning, LTOCL)中的灾难性遗忘和类别不平衡问题。

关键定义

相关工作

目前,在线持续学习 (Online Continual Learning, OCL) 的研究主要分为基于正则化的方法和基于记忆(回放)的方法。这些方法通常假设数据类别是均衡分布的,这限制了它们在真实世界长尾数据场景中的应用。

另一方面,长尾分类研究提出了多种解决类别不平衡的策略,如重采样、重加权和两阶段学习。然而,这些方法大多需要预先知道整个数据集的全局分布信息,这在数据以流式、单次处理方式出现的 OCL 场景中是不可行的。

因此,现有研究在处理兼具在线(单次过数据)持续(任务序列)长尾(类别严重不平衡)这三个特性的 LTOCL 问题上存在明显空白。本文旨在填补这一空白,解决模型在长尾数据流中学习时,既要避免灾难性遗忘又要克服对头(head)部类别过拟合的难题。

本文方法

为了应对 LTOCL 的挑战,本文提出了 DELTA 框架,其核心思想是将表示学习与分类器学习解耦,分为两个阶段进行训练。

DELTA 框架概览

上图展示了 DELTA 框架的概览。在处理任务 $t$ 时,当前批次的样本 $X_t$ 与从记忆存储器 $B_t$ 中检索的样本及其增强版本混合,形成组合数据 $G_t$。该数据流经两阶段训练流程。

第一阶段:表示学习

此阶段的目标是在长尾和单次过数据的条件下学习到有效的特征表示。

\[L_{contrastive}(Z_{T})=\sum_{j\in T}\frac{-1}{ \mid P(j) \mid }\sum_{p\in P(j)}\frac{exp(v_{j}\cdot v_{p}/\tau)}{\sum_{k\in A(j)}exp(v_{j}\cdot v_{k}/\tau)}\]

其中 $v$ 是样本经过编码器和投影网络后的表示向量,$\tau$ 是温度超参数。

第二阶段:均衡分类器学习

在第一阶段学习到高质量的特征表示后,此阶段的目标是训练一个在类别间表现均衡的分类器。

多样本配对学习

为了进一步缓解训练数据(长尾)与测试数据(均衡)之间的分布差异,本文探索了多样本配对策略。

实验结论

本文在 Split CIFAR-100-LT 和 VFN-LT 这两个长尾数据集上进行了广泛实验,验证了 DELTA 方法的有效性。

方法 CIFAR100-LT           VFN-LT          
  20 任务 20 任务 20 任务 10 任务 10 任务 10 任务 15 任务 15 任务 15 任务 7 任务 7 任务 7 任务
  M=0.5K M=1K M=2K M=0.5K M=1K M=2K M=0.5K M=1K M=2K M=0.5K M=1K M=2K
OnPRO[ICCV ’23] 14.02 $0.44$ 16.28 $\pm$ 0.81 18.01 $\pm$ 0.22 16.53 $\pm$ 0.55 16.92 $\pm$ 0.08 18.85 $\pm$ 0.32 11.93 $\pm$ 0.04 12.77 $\pm$ 0.07 13.50 $\pm$ 0.05 8.02 $\pm$ 0.60 9.38 $\pm$ 0.21 11.84 $\pm$ 0.49
SCR[CVPRW ’21] 12.22 $\pm$ 0.72 13.48 $\pm$ 0.90 15.88 $\pm$ 0.79 16.65 $\pm$ 0.90 17.02 $\pm$ 0.77 17.58 $\pm$ 0.66 11.55 $\pm$ 0.17 11.82 $\pm$ 0.10 12.39 $\pm$ 0.73 7.71 $\pm$ 0.49 9.19 $\pm$ 0.46 9.48 $\pm$ 0.47
ASER[AAAI ’21] 8.86 $\pm$ 0.30 7.86 $\pm$ 0.61 8.18 $\pm$ 0.31 12.68 $\pm$ 0.70 13.76 $\pm$ 0.01 15.90 $\pm$ 0.91 6.85 $\pm$ 0.34 7.61 $\pm$ 0.38 7.22 $\pm$ 0.36 7.46 $\pm$ 1.18 7.52 $\pm$ 1.09 6.35 $\pm$ 0.19
PRS[ECCV ’20] 7.61 $\pm$ 0.09 7.54 $\pm$ 0.21 7.03 $\pm$ 0.13 7.34 $\pm$ 0.92 8.95 $\pm$ 0.33 9.01 $\pm$ 0.39 7.17 $\pm$ 0.83 8.72 $\pm$ 0.15 8.39 $\pm$ 0.19 7.85 $\pm$ 0.50 8.66 $\pm$ 0.22 9.21 $\pm$ 0.30
CBRS[ICML ’20] 8.51 $\pm$ 0.19 8.66 $\pm$ 0.61 8.91 $\pm$ 0.33 9.50 $\pm$ 0.48 7.22 $\pm$ 0.43 7.31 $\pm$ 0.08 8.12 $\pm$ 0.94 8.35 $\pm$ 0.33 8.18 $\pm$ 0.44 7.52 $\pm$ 0.11 7.64 $\pm$ 0.08 7.92 $\pm$ 0.34
GSS[NeurIPS ’19] 5.16 $\pm$ 0.10 5.22 $\pm$ 0.22 5.09 $\pm$ 0.21 8.97 $\pm$ 0.65 10.12 $\pm$ 0.02 9.96 $\pm$ 0.47 5.86 $\pm$ 0.30 6.01 $\pm$ 0.91 5.86 $\pm$ 0.06 5.92 $\pm$ 0.54 4.30 $\pm$ 0.22 4.66 $\pm$ 0.60
LT-CIL(offline) 3.01 $\pm$ 0.77 2.67 $\pm$ 0.04 2.43 $\pm$ 0.02 1.76 $\pm$ 0.11 2.36 $\pm$ 0.25 3.76 $\pm$ 0.22 1.82 $\pm$ 0.45 2.02 $\pm$ 0.44 2.38 $\pm$ 0.08 3.08 $\pm$ 0.71 2.92 $\pm$ 0.04 1.99 $\pm$ 0.31
DELTA (本文方法) 16.53 $\pm$ 0.01 17.71 $\pm$ 0.11 19.93 $\pm$ 0.07 20.25 $\pm$ 0.71 21.06 $\pm$ 0.23 22.47 $\pm$ 0.51 12.5 $\pm$ 0.01 13.45 $\pm$ 0.02 13.84 $\pm$ 0.01 8.00 $\pm$ 0.39 10.41 $\pm$ 0.52 12.84 $\pm$ 0.54

混淆矩阵比较

多样本配对性能分析