DCMI | Hongwei Zhao's Blog

Dual-consistency Model Inversion for Non-exemplar Class Incremental Learning

Paper | Code | CVPR 2024

0. 摘要

非范例类增量学习（NECIL）旨在在历史数据不可用的情况下，不断吸收新知识，同时不忘先前获得的知识。一种生成性 NECIL 方法是反转旧类别的图像进行联合训练。然而，这些合成图像与真实数据相比存在显著的域偏移，妨碍了对旧类别的识别。在本文中，我们提出了一种新的方法，称为双重一致性模型反转（DCMI），通过两个关键的一致性对齐来生成更好的旧类别合成样本：（1）合成图像与相应原型之间的语义一致性；以及（2）新类别合成和真实图像之间的域一致性。此外，我们引入了原型路由（PR），以提供任务先验信息并生成无偏见且准确的预测。我们在不同数据集上的综合实验一致地展示了我们方法相对于先前最先进方法的优越性。

1. 引言

当将训练有素的深度神经分类网络应用于新类别时，通常的策略是对新图像进行微调，这往往会导致对旧类别的灾难性遗忘。类别增量学习（CIL）旨在不断适应新类别，同时不忘已学习的类别。基于范例的方法通过存储旧类别数据的子集作为范例，并在未来与新类别数据一起重新训练，显示出了希望。虽然有效，但在实践中存储范例可能存在挑战，因为担心数据隐私或存储空间有限。非范例类增量学习（NECIL），也称为无范例 CIL，最近受到了越来越多的关注。与基于范例的对应方法相比，它在训练和存储效率方面具有优势，并解决了与数据隐私和版权相关的担忧。与此同时，缺乏范例的情况下训练模型更具挑战性。现有的非范例方法主要采用知识蒸馏（KD）来防止更新模型，称为“新模型”，通过强制其输出与旧模型一致来忘记学到的知识。然而，仅使用新类别样本进行蒸馏会削弱 KD 的有效性，因为旧类别和新类别之间存在显著的分布差异，导致累积错误。为了解决这个问题，基于生成的方法尝试使用模型反转合成旧类别样本，然后使用真实和合成样本对新模型进行蒸馏。这些合成样本通过产生高置信度的分类概率从旧模型生成，类似于旧类别的语义分布。值得注意的是，与预先训练生成器的传统生成方法不同，反转方法不依赖于旧类别的历史数据，使它们在 NECIL 中更实用。

2. 相关工作

2.1. 类别增量学习

基于范例的方法存储代表性数据作为范例以供将来训练。iCaRL 首先提出在 CIL 中保存范例，此后，复现策略成为后续工作的常见做法。知识蒸馏（KD）被广泛用于防止遗忘。UCIR 引入了对特征分布的 less-forget 约束，PODNet 使用 KD 进行中间特征蒸馏。ISM-Net 引入了模型队列蒸馏以增强长期性能。EEIL 提出了一个额外的平衡微调会话来解决 CIL 中的关键挑战，UCIR 用余弦归一化替换了 softmax 层。最近，一些工作通过模型扩展来提高 CIL 性能。尽管基于范例的方法只保存旧数据的子集，但关于隐私风险和存储需求的担忧仍然存在。非范例方法最近受到了关注。一些方法提出了参数重要性估计来防止关键参数的显著变化，而 LwF 引入了 KD 来约束输出 logits，其中先前的模型作为教师。ABD 引入了模型反转来提高 KD 的有效性，通过合成旧类别数据。PASS 在 CIL 中探索了自监督学习，并提出了原型增强以进行分类器学习。SSRE 引入了自我维持的扩展方案和原型选择。FeTrIL 提出了一种特征转换技术。

2.2. 模型反转

MI 是数据自由知识蒸馏（DFKD）的重要技术，将知识从训练有素的教师模型转移到紧凑的学生模型，当原始训练数据不可用时。DFKD 在解决模型压缩、迁移学习和增量学习等问题中找到了广泛应用。训练有素的模型封装了数据信息，允许通过噪声优化或生成器进行反向生成。Lopes 等人率先使用激活摘要进行 DFKD，而 Nayak 等人优化了 softmax 类输出计算的类别相似性噪声。Chen 等人集成了生成对抗网络以提高效率，Bhardwaj 等人将激活统计数据存储为元数据。DeepDream 引入了图像先验项，DeepInversion 专注于最小化特征图和批量归一化统计数据之间的距离。

2.3. 知识蒸馏

KD 最初由 Hinton 等人提出，用于模型压缩和迁移学习。该技术涉及将知识从复杂的教师模型转移到轻量级学生模型，通过让学生模仿教师的输出来实现。知识蒸馏方法可以广泛地分为基于 logits 的蒸馏、基于特征的蒸馏和基于关系的蒸馏。基于 logits 的蒸馏旨在传达标签分布中隐含的信息，而基于特征的蒸馏寻求来自中间特征的指导以促进学生学习。基于关系的蒸馏在样本之间建立结构关系或上下文关系以指导学生网络。与我们工作最相关的是 ABD，它识别了使用合成图像时对性能产生不利影响的显著域偏移。他们通过引入局部 CE 损失和重要性加权特征蒸馏来解决这个问题。在我们的工作中，我们通过纳入新类别数据的认证来增强合成图像的域一致性，这是先前研究中忽视的一个维度。

3. 动机

在 CIL 中，训练数据以单独的任务流进行，每个任务都包含不相交的类别 $C_t$（$0 \leq t \leq N$）。CIL 的目标是学习一个模型，该模型对于新旧类别的假设（$h_n$ 和 $h_o$）与标记函数（$f_n$ 和 $f_o$）之间的不一致性较低：
$$
\epsilon_{D_n}(h_n, f_n) + \epsilon_{D_o}(h_n, f_o) = \mathbb{E}{x \sim D_n}[|h_n(x) - f_n(x)|] + \mathbb{E}{x \sim D_o}[|h_n(x) - f_o(x)|]. \tag{1}
$$
新任务误差项 $\epsilon_{D_n}(h_n, f_n)$ 可以通过使用新任务数据上的典型分类损失来最小化。然而，最小化 $\epsilon_{D_o}(h_n, f_o)$ 是具有挑战性的，230因为在学习新类别时无法访问旧类别分布 $D_o$ 以及旧类别标签 $f_o$。为了解决这个问222题，知识蒸馏（KD）通常在 CIL 中使用，它确保 $h_n$ 在学习 $D_n$ 的同时保持接近先前状态 $h_o$（即，$\epsilon_{D_o}(h_o, f_o)$ 很小）。这里，我们通过推导新假设对旧类别的误差界限，全面理解在 CIL 中应用 KD，考虑旧假设对旧类别的误差、新假设对新类别的误差、新旧假设之间的差异以及蒸馏数据与旧类别数据之间的变分散度：
$$
\epsilon_{D_n}(h_n, f_n) + \epsilon_{D_o}(h_n, f_o) \leq \epsilon_{D_n}(h_n, f_n) + \epsilon_{D_o}(h_o, f_o) + \epsilon_{\hat{D}_o}(h_n, h_o) + d_1(\hat{D}_o, D_o). \tag{2}
$$
证明见补充材料。

在这个界限中，不等式右侧的第一项和第二项预期是很小的，通过经验风险最小化来实现。第三项描述了在蒸馏数据分布 $\hat{D}_o$ 下 $h_n$ 和 $h_o$ 之间的差异，这由 KD 保证。最后一项是旧类别 $D_o$ 和蒸馏数据 $\hat{D}_o$ 之间的分布差异。这个界限揭示了通过设计更好的 KD 技术和使用类似于旧类别分布的蒸馏数据，可以实现更好的 CIL 性能。在缺乏旧类别数据的情况下，许多非范例方法求助于使用新类别数据 $D_n$ 作为 $\hat{D}_o$ 的替代品。然而，$D_n$ 和 $D_o$ 之间存在显著差异，这导致模型偏离其先前的最小值，并导致对旧类别的显著遗忘。其他一些方法通过引入类似于旧类别语义分布的合成样本来解决这个问题，这在一定程度上缓解了遗忘。然而，这些方法忽略了合成和真实分布之间的域差距，导致旧类别的合成和真实分布之间存在显著差异。在这项工作中，我们通过生成同时具有语义和域一致性的更好合成样本来解决这个问题。

4. 提出的方法

4.1. 旧类别的双重一致性反转

最近的生成性 NECIL 方法利用模型反转来合成旧类别样本。然而，显著的域差距对 KD 的有效性产生了负面影响。以下，我们介绍了一种新颖的模型反转方法，用于旧类别合成，确保语义和域一致性。

4.1.1. 语义一致性

我们方法的概述如图 2 所示。为了分离类别，我们使用一个有条件的生成器 $G$，具有可学习的嵌入向量 $E = {e_i}{i=1}^m$，其中 $m = \sum{i=0}^{t-1}|C_i|$ 是第 $t$ 阶段的旧类别数量。嵌入空间被构建为嵌入向量 $E$ 的线性跨度。对于每个旧类别 $k$（$1 \leq k \leq m$），生成器 $G$ 的输入嵌入 $\hat{e}_k$ 被计算为 $E$ 的线性组合，权重为 $\alpha_k^i$：
$$
\hat{e}k = \sum{i=1}^{m} \alpha_k^i e_i, \tag{3}
$$
其中 $\alpha_k^i$ 表示类别 $i$ 和 $k$ 之间的余弦相似度，随后是 softmax 层：
$$
\alpha_k^i = \frac{\exp(\cos(\mathbf{p}_i, \mathbf{p}k))}{\sum{j=1}^{m} \exp(\cos(\mathbf{p}_j, \mathbf{p}_k))}, \tag{4}
$$
其中 $\mathbf{p}_i$ 代表类别 $i$ 的平均特征，称为类别原型，$\cos(\mathbf{p}_i, \mathbf{p}_k) = \frac{\mathbf{p}_i^T \mathbf{p}_k}{|\mathbf{p}i| |\mathbf{p}k|}$。然后，旧类别的合成样本如下生成：
$$
\hat{x}k = G(\hat{e}k \oplus z), \quad z \sim \mathcal{N}(0, 1), \tag{5}
$$
其中 $\oplus$ 表示维度连接。然后，合成样本被投影到旧模型 $\theta{t-1}$ 的深层特征空间。随后，计算 $\theta{t-1}(\hat{x}k)$ 和原型之间的 softmax 相似度：
$$
\hat{y}i(\hat{x}k) = \frac{\exp(\cos(\mathbf{p}i, \theta{t-1}(\hat{x}k)))}{\sum{j=1}^{m} \exp(\cos(\mathbf{p}j, \theta{t-1}(\hat{x}k)))}. \tag{6}
$$
如果 $\theta{t-1}(\hat{x}k)$ 捕获了类别 $k$ 的语义，相似度 $\hat{y}i(\hat{x}k)$ 应该与 $\alpha_k^i$ 对齐。因此，我们最小化交叉熵损失以确保语义一致性：
$$
L{oSC}(\hat{x}k) = -\sum{i=1}^{m} \alpha_k^i \log \hat{y}i(\hat{x}k). \tag{7}
$$
类似地，新类别图像 $x_l$（$m < l \leq n, n = \sum{i=0}^{t}|C_i|$）被投影到特征空间以获得原型相似度：
$$
\beta{x_l}^i = \frac{\exp(\cos(\mathbf{p}i, \theta{t-1}(x_l)))}{\sum{j=1}^{m} \exp(\cos(\mathbf{p}j, \theta{t-1}(x_l)))}. \tag{8}
$$
通过与权重 $\beta{x_l}^i$ 线性组合 $e_i$，可以获得新类别的叠加嵌入向量：
$$
\hat{x}l = \sum{i=1}^{m} \beta{x_l}^i e_i. \tag{9}
$$
为了进一步增强语义一致性，我们最小化新类别的交叉熵损失：
$$
L{nSC}(\hat{x}l) = -\sum{i=1}^{m} \beta{x_l}^i \log \hat{y}(\hat{x}l), \tag{10}
$$
其中 $\hat{x}l = G(\hat{e}{x_l} \oplus z)$。总体语义一致性损失写为：
$$
\min{G} L{SC}(G) = \mathbb{E}{\hat{x}k \sim G(\hat{e}k \oplus z)} [L{oSC}(\hat{x}k)] + \mathbb{E}{\hat{x}l \sim G(\hat{e}{x_l} \oplus z)} [L{nSC}(\hat{x}_l)]. \tag{11}
$$

4.1.2. 域一致性

为了解决域偏移问题，我们采用了对抗性学习框架来对齐合成数据 $\hat{x}l$ 与新类别真实数据 $x_l$ 的分布：
$$
\min{G} \max_{D} L_{DC}(G, D) = \mathbb{E}{x_l} [\log D(x_l)] + \mathbb{E}{\hat{x}l \sim G(\hat{x}l \oplus z)}[\log(1 - D(\hat{x}l))]. \tag{12}
$$
其中 $D$ 是一个判别器，它区分 $\hat{x}l$ 和 $x_l$ 的域，而 $G$ 生成欺骗判别器 $D$ 的域分布。方程 12 的目标相当于最小化分布 $P{x_l}$ 和 $P{\hat{x}l}$ 之间的 Jensen-Shannon 散度。由于语义分布已经是一致的，$P{x_l}$ 的域分布被分离并学习。总之，总体优化目标以交替的最小 - 最大方式更新：
$$
\min{G} \max{D} L_{Syn} = L_{SC}(G) + \lambda L_{DC}(G, D). \tag{13}
$$
我们经验性地设置 $\lambda = 0.5$ 以平衡语义和域之间的一致性。

4.2. 新类别的网络适应

为了学习新类别 $X_t$，我们初始化一个新的分类器 $\phi_t$，继承自旧分类器的参数：$\phi_{1:m}^t = \phi_{1:m}^{t-1}$，其中上标表示类别索引。根据建议，为了防止过度拟合生成的样本，并可能造成错误的决策边界，我们采用局部交叉熵来学习新类别：
$$
L_{LCE} = -\mathbb{E}{t} \log \left( \sum{i=m+1}^{n} P_{i}^{\theta_t, \phi_t}(X_t) \right), \tag{14}
$$
其中 $P_{m+1:n}^{\theta_t, \phi_t}$ 表示在新类别中计算的 softmax 概率。使用旧类别的合成数据 $\hat{X}t = {\hat{x}i}{i=1}^m$，由方程 5 生成，我们对倒数第二层特征和分类器输出 logits 应用知识蒸馏：
$$
L{KD} = \left( 1 - \cos \left( \theta_t(X_t \cup \hat{X}t), \theta{t-1}(X_t \cup \hat{X}t) \right) \right) + \left| P{1:m}^{\theta_t, \phi_t}(X_t \cup \hat{X}t) - P{1:m}^{\theta_{t-1}, \phi_{t-1}}(X_t \cup \hat{X}t) \right|. \tag{15}
$$
第一项（称为 $L{F KD}$）防止类别原型漂移并稳定特征分布。第二项（称为 $L_{CKD}$）保持分类器的区分能力。总体适应损失写为：
$$
\min_{\theta_t, \phi_t} L_{Ad} = L_{LCE} + \gamma L_{KD}, \tag{16}
$$
其中 $\gamma$ 经验性地设置为 10。值得注意的是，生成器 $G$ 和嵌入 $E$ 在适应过程后被丢弃。严格遵循 NECIL 设置，不为未来任务存储合成或真实数据。

4.3. 无偏预测的原型路由

分类器分别针对旧类别和新类别进行训练（参见 $L_{LCE}$ 和 $L_{CKD}$），这阻止了建立联合预测空间。因此，跨任务的有偏预测发生，导致性能不佳。为了解决这个问题，我们提出了原型路由（PR）来消除预测中的偏差。具体来说，线性分类器 $\phi_t$ 被划分为多个头，每个头对应特定任务，并且只负责该任务中的类别。为了获得无偏的任务先验，我们应用原型匹配：
$$
\hat{u} = \arg \min_{T(i)} d(\theta_t(x), \mathbf{p}i), \tag{17}
$$
其中 $d(\cdot)$ 表示余弦距离，$T(\cdot)$ 表示从类别到任务的映射。$\hat{u}$ 是最具相似性的原型的任务标签，用作预测的任务先验。然后，通过任务先验 $\hat{u}$ 激活相应的头，线性分类器输出任务后类别预测：
$$
\hat{y} = \arg \min{y} \phi_{T’(\hat{u}):T’(\hat{u}+1)}^t (\theta_t(x)). \tag{18}
$$
其中 $T’(\hat{u})$ 表示任务 $\hat{u}$ 的第一个类别索引。DCMI 在增量任务 $t$（$1 \leq t \leq N$）中的算法描述在算法 1 中：

5. 实验

5.1. 数据集和设置

基准测试。为了进行全面研究，我们在 CIFAR-100、Tiny-ImageNet、ImageNet-Subset 和 ImageNet-Full 上进行了广泛的实验。协议与一致，其中一半的类别参与初始阶段（CIFAR100 和 ImageNet-Subset 20 阶段除外），其余类别在随后的增量阶段中均匀分布。类别顺序用随机种子 1993 打乱。我们报告标准指标来衡量 CIL 性能，包括平均准确率 $AN$ 和平均遗忘率 $FN$。理想的 CIL 方法应该有效地学习新类别（高 $AN$），同时最小化对已学知识的遗忘（低 $FN$）。

设置 $P=5$ $P=10$ $P=20$
$$
\begin{array}{|c|c|c|c|c|c|c|}
\hline
& \multicolumn{3}{|c|}{\text{AN(↑)}} & \multicolumn{3}{|c|}{\text{FN(↓)}} \
\hline
& P=5 & P=10 & P=20 & P=5 & P=10 & P=20 \
\hline
\text{Ablate PR} & 58.1 & 56.8 & 49.5 & 0.9 & 0.9 & 1.0 \
\hline
\text{Ablate SSL} & 65.1 & 64.5 & 60.9 & 7.7 & 7.4 & 8.6 \
\hline
\text{Ablate LCKD} & 22.6 & 10.0 & 10.6 & 73.8 & 73.1 & 72.5 \
\hline
\text{Ablate LF KD} & 67.2 & 65.1 & 56.3 & 9.0 & 10.8 & 24.7 \
\hline
\text{Full Method} & 67.9 & 66.8 & 64.0 & 7.8 & 7.3 & 9.8 \
\hline
\end{array}
$$
表 1. 在 CIFAR-100 数据集上消融组件的结果。PR 和 SSL 分别代表原型路由和自监督学习。

5.2. 消融研究和分析

原型路由。如表 1 所示，移除 PR 会导致明显的性能下降，主要归因于引入的任务最近偏差。这在图 6a 和 6b 中得到了说明，其中在没有 PR 的情况下观察到明显的偏差，导致基础类别之间的大量混淆。引入 PR 通过提供正确的任务先验有效地减轻了这种偏差。

自监督学习。表 1 清楚地表明，将自监督学习（SSL）纳入初始任务显著提高了 CIL 性能。如所强调的，SSL 有助于获取更通用和可转移的特征，这对后续任务有利。我们评估了 CIFAR-100 和 Tiny-ImageNet 10 阶段上各种 SSL 方法的有效性。测试了三种常用的 SSL 方法：LabelAug、SupCon 和 SimSiam。图 3a 表明，在初始任务上应用 SSL 可以带来显著的改进，强调了 SSL 在 CIL 中的重要性。然而，SSL 方法的有效性因数据集而异。在 CIFAR-100 上，LabelAug 证明最有效的结果，比不使用 SSL 高出 2.3%。在 Tiny-ImageNet 上，SupCon 成为最有效的 SSL 方法，比不使用 SSL 提高了 1.7%。

知识蒸馏。如表 1 所示，LCKD 和 LF KD 都是关键组件。去除 LCKD 会损害旧类别的决策边界，导致准确性大幅下降和极高的遗忘率。去除 LF KD 会导致输出特征分布的偏移，破坏类别原型的有效性。此外，我们探索了在 KD 期间合成数据的语义和域一致性的作用。如表 2 所示，仅依赖于语义或域一致性无法保证满意的性能。当合成数据同时展现语义和域一致性时，实现了更好的准确性和更低的遗忘。最佳结果出现在 KD 同时应用于新类别的真实数据和旧类别的合成数据时。此外，我们评估了将合成数据纳入 KD 对模型稳定性和可塑性的影响。实验结果在图 3b 中表明，用合成和真实数据的组合进行蒸馏，为基线和增量类别带来了更高的准确性，实现了稳定性和可塑性之间更有利的平衡。

表 2. 在 CIFAR-100 数据集上消融 KD 数据的结果，其中（1）仅使用合成数据，（2）仅使用真实数据，（3）真实 + 合成数据。SC 和 DC 分别代表语义一致性和域一致性。

表示距离。我们调查了旧类别的合成和真实样本之间的表示距离分数（MID）。如图 4 所示，我们将表 2 中的第 1 组设置作为基线 1〜3，从上到下。结果表明，基线 3 和完整方法实现了可比的较低 MID 分数，突出了双重一致性在生成与真实样本分布紧密相似的分布方面的重要性。相反，仅对齐语义或域被证明是不够的。

5.3. 比较结果

在本节中，我们与以前的最先进 NECIL 方法和一些经典基于范例的方法进行了全面比较。表 4 表明，提出的方法在所有以前的非范例方法中表现优于所有以前的最先进方法。与此同时，与某些基于范例的方法相比，我们的方法甚至在不使用范例的情况下也表现出优越的性能，强调了它在保留旧知识方面的可靠性。具体来说，我们的方法在 CIFAR-100 上显著提高了最先进的结果，分别在 5、10 和 20 阶段超过了以前最好的结果 1.3%、1.0% 和 2.2%。在 Tiny-ImageNet 上，我们的方法超过了最新的最先进方法 SOPE，分别在 5、10 和 20 阶段提高了 1.1%、1.0% 和 0.6%。对于更大规模的数据集，我们的方法在 ImageNet-Subset 上获得了 70.5%、70.0% 和 65.5% 的平均准确率，在 ImageNet-Full 上获得了 61.9%。在图 5 中，我们展示了全面的分类准确率曲线，清楚地说明了我们的方法在各个阶段都优于竞争对手。为了估计模型的遗忘，我们比较了与以前方法的平均遗忘，如表 3 所示。我们的方法一致地实现了比以前方法显著更低的遗忘，证明了它在减轻灾难性遗忘方面的有效性。

5.4. 可视化

特征空间的可视化。我们使用 t-SNE 来可视化旧类别的合成和真实数据的特征分布。在图 7 的每个子图中，左半部分展示了在区分不同域方面表现出色的浅层特征，而右半部分显示了在语义上具有区分性深层特征。图 7a 揭示了合成数据与同一类别的真实数据形成了不同的簇，表明了高语义一致性。同时，合成数据与真实数据的域差异很小，证明了域一致性。相比之下，图 7b 未能与相应类别对齐，图 7c 主要突出了显著的域差异。

类别间相似度的可视化。我们通过计算 CIFAR-100 上基础和增量类别的类原型之间的余弦相似度来评估相似度，如图 6c 所示。结果表明，基础和增量类别之间具有相对较高的相似度，表明通过旧类别概念的组合来表示新类别语义是可行的。

合成样本的可视化。这里我们提供了来自 ImageNet 的合成样本的可视化。当同时应用语义和域约束时（参见图 8b），生成的样本与真实样本非常相似。然而，当仅应用域一致性时，观察不到可辨识的类别相关模式（见图 8c）。类似地，当仅应用语义一致性时，合成图像在视觉上与真实图像显著不同（见图 8d）。

6. 结论

本文提出了一种新的生成性方法 DCMI，用于 NECIL。DCMI 能够合成在语义和域上都保持一致性的图像。将这些合成图像整合到知识蒸馏中，取得了显著改进的结果。此外，为了确保无偏预测，我们引入了原型路由，提供准确的任务先验以指导跨任务的预测。在 CIFAR100、Tiny-ImageNet、ImageNet-Subset 和 ImageNet-Full 上进行的广泛实验一致地证明了我们的方法与以前最先进的方法相比的优越性能。

致谢部分由国家科技重大项目（2021ZD0112001）、国家自然科学基金（No.62271119, U23A20286, 62071086, 和 08120002），以及民航飞行技术与飞行安全重点实验室独立研究项目（FZ2022ZZ06）支持。