FCS | Hongwei Zhao's Blog

FCS: Feature Calibration and Separation for Non-Exemplar Class Incremental Learning

CVPR 2024 | Code

Kimi全文翻译 :arrow_down:

0. 摘要

非范例类增量学习（NECIL）涉及在没有之前遇到的旧类别样本的情况下，对一系列数据进行分类模型的学习。这样的严格约束总是会导致对所学知识的灾难性遗忘。目前，现有方法要么采用知识蒸馏技术，要么保留类别原型来维持先前的知识。然而，仍然存在两个关键问题。一方面，随着模型的不断更新，旧类别保留的原型将不可避免地从新模型的特征空间中的合适位置漂移。另一方面，由于缺乏样本，新类别的特征将取代类似旧类别的位置，破坏分类边界。为了解决这些挑战，我们提出了一种针对 NECIL 的特征校准和分离（FCS）方法。我们的方法包括一个特征校准网络（FCN），通过最优传输学习将旧类别的原型适应到新模型，近似模型演化引起的原型漂移。此外，我们还提出了一种涉及原型的对比损失（PIC），增强不同类别之间的特征分离。具体来说，为了减轻不同学习阶段类别之间相互作用引起的边界扭曲，原型被涉及推动新类别的特征远离旧类别。在三种不同设置的数据集上的广泛实验已经证明了我们的 FCS 方法相对于最先进的类别增量学习方法的优越性。代码可在 https://github.com/zhoujiahuan1991/CVPR2024-FCS 上找到。

1. 引言

随着时间的推移，作为计算机视觉中的一个里程碑研究任务，图像分类一直受到大量关注。传统的基于深度学习的模型被设计为从静态数据中学习，假设所有类别的整个训练数据一次性可用。在处理动态和不断演变的数据流时，先前学习的类别的性能严重下降，导致一种称为灾难性遗忘的现象。为了解决这个问题，受人类在其一生中不断获取知识自然方式的启发，增量学习（IL）最近被研究。一个流行的 IL 解决方案旨在保留以前阶段的代表性数据，并在当前数据训练时回放过去知识。然而，它们不仅引起了关于数据隐私的关键问题，而且还导致了大量的存储和训练消耗。因此，本文考虑了一种更实用但更具挑战性的 IL 场景，即无法访问以前的样本，称为非范例类增量学习（NECIL）。在这种设置中，由于缺乏明确的先前知识，灾难性遗忘的问题变得更加严重。

现有的 NECIL 方法主要依赖于知识蒸馏将知识从旧模型转移到新模型，或记忆一组先前学习的类别原型以保留知识。尽管上述努力在一定程度上可以减轻灾难性遗忘，但性能受到两个关键挑战的限制。如图 1(3) 所示，随着新类别的增量学习，旧类别保留的原型将不可避免地在新模型的特征空间中漂移，不再能够准确代表这些旧类别的区分特征。尽管少数现有工作提出了估计不同 IL 阶段之间的特征变化，但它们仍然忽略了一个 IL 阶段内的变化。此外，没有旧类别的历史样本的指导，新类别的特征将占据并挤压类似于旧类别的空间。因此，旧类别和新类别之间的重叠破坏了分类边界，导致知识遗忘。如图 2 所示，当同时使用旧类别和新类别的分类头时，与单独使用它们相比，准确率明显下降。

为了解决上述挑战，我们提出了一种新的 NECIL 方法，关注 IL 阶段的特征校准和分离（FCS）。设计的 FCS 包括一个特征校准网络（FCN），将历史原型适应到新模型的特征空间中的适当位置，以及一个涉及原型的对比损失（PIC），分离旧类别和新类别的特征，以处理特征重叠引起的恶化。具体来说，受著名的最优传输理论的启发，我们提出的 FCN 在连接旧模型和新模型的特征空间中起着重要作用。通过将旧模型和新模型提取的新数据特征视为源和目标分布，通过最小化对齐源到目标分布特征的传输成本来学习传输计划。因此，FCN 利用这样的传输计划在校准新模型特征空间中的历史原型位置，并减轻漂移问题。此外，PIC 被设计用来解决特征重叠引起的分类边界扭曲。与现有方法不同，原型仅用于训练分类头，我们将通过我们的 FCN 校准的原型视为负参考，推动新类别远离旧类别。此外，提出的 PIC 损失也可以区分地分离新类别的特征，以进一步提高新模型的 IL 性能。总之，本文的主要贡献是三方面的：（1）提出了一个新的特征校准网络，适当地将历史原型适应到新模型的特征空间，减轻由特征漂移引起的灾难性遗忘问题。（2）引入了涉及原型的对比损失，进一步减轻不同 IL 阶段之间特征重叠引起的遗忘。（3）在各种基准上的广泛实验验证了我们方法在不同设置中的优越性。

2. 相关工作

2.1. 类别增量学习

现有的 CIL 方法主要可以分为三组：基于回放的、基于正则化的和基于网络架构的。基于回放的方法专注于保留以前阶段的代表性数据，并采用知识蒸馏提取并将以前阶段获取的知识转移到当前模型。基于正则化的方法旨在通过控制特征调整来稳定模型参数，从而减轻遗忘倾向。基于网络架构的模型动态调整网络结构或为不同阶段设计特定参数以适应不断演变的数据流。尽管上述方法取得了实质性进展，基于回放的方法和大多数基于正则化和网络架构的方法需要数据存储，可能引起数据隐私问题。

2.2. 非范例类增量学习

最近，非范例类增量学习（NECIL）特征化了一个特别具有挑战性的场景，即无法获取以前类别的样本，在这种情况下，先前数据的缺失进一步加剧了灾难性遗忘的问题。已经提出了各种 NECIL 方法来解决这个问题。引入了模型不同 IL 阶段输出之间的知识蒸馏损失以抵抗遗忘。旨在通过生成样本来回放旧知识来训练生成器，但他们的性能高度依赖于生成数据的高质量，并且顺序更新的生成器也面临灾难性遗忘的问题。从模型参数的角度来看，通过冻结部分模型参数来减少不同 IL 阶段知识更新的影响。尽管这些工作有效地减轻了遗忘，它们获取新知识的能力受到严重限制。最近的工作采用仅一小部分参数来提示模型，但高度依赖于大规模预训练模型。提出标签和原型增强以有效保留过去知识，但是保留的原型将不可避免地在新模型的特征空间中漂移，导致知识遗忘。尽管试图通过插值每个 IL 阶段后旧模型和新模型提取的新数据特征漂移来适应原型，但它简单地忽略了新模型的特征空间在一个 IL 阶段内不断变化的事实。因此，它们处理灾难性遗忘的能力仍然有限。此外，上述方法忽略了不同阶段类别特征之间的重叠，这也会导致根据我们的观察导致知识遗忘。

3. 问题表述和分析

3.1. 问题表述

在 NECIL 任务中，数据流由 $T$ 个阶段组成，表示为 $D = {D_t}{t=1}^T$ 依次进入以增量训练模型。每个数据集 $D_t = {X_t, Y_t}$ 由输入数据集 $X_t = {x{t,j}}{j=1}^{n_t}$ 和标签集 $Y_t = {y{t,j} \in C_t}{j=1}^{n_t}$ 组成，其中 $n_t$ 是阶段 $t$ 中的数据数量，$x{t,j}$ 代表第 $j$ 个图像，$C_t$ 是标签集。需要注意的是，不同阶段的标签是不相交的，即 $C_i \cap C_j = \emptyset$（$i \neq j$）。在阶段 $t$ 中，模型由特征提取器 $f_t: \mathbb{R}^{h \times w \times 3} \rightarrow \mathbb{R}^d$ 和分类头 $g_t: \mathbb{R}^d \rightarrow \mathbb{R}^{l_t}$ 组成，其中 $d$ 是特征维度，$l_t = \sum_{j=1}^{t} |C_j|$ 是已学习类别的数量。输入图像 $x$ 的预测标签可以通过 $\arg\max g_t \circ f_t(x)$ 获得。

3.2. 遗忘分析

在本节中，我们首先分析 NECIL 中遗忘的潜在原因，并阐明我们的动机。阶段 $t$ 的模型可以表示为 $\theta_t = g_t \circ f_t = [g_n^t, g_o^t] \circ f_t$，其中 $g_n^t: \mathbb{R}^d \rightarrow \mathbb{R}^{|C_t|}$ 和 $g_o^t: \mathbb{R}^d \rightarrow \mathbb{R}^{c_t-1}$ 分别是新类别和旧类别的分类头。同时，阶段 $t-1$ 学习的模型表示为 $\theta_{t-1} = g_{t-1} \circ f_{t-1}$。如图 1 所示，在阶段 $t$ 期间，我们观察到灾难性遗忘可能由以下四个方面引起：

特征提取器的变化（$f_{t-1}, f_t$）如图 1(1) 所示：在阶段 $t$ 获得的特征提取器 $f_t$ 将不可避免地与前身 $f_{t-1}$ 不同。此外，缺乏历史数据可能加剧这一现象，可能使 $f_t$ 不适用于早期阶段遇到的数据。为了解决这个问题，现有方法通常采用各种知识蒸馏损失来保留以前模型的知识。例如，PASS 通过最小化旧模型和新模型提取的特征之间的欧几里得距离来改善这一点：
$$
L_{kd} = |f_t(x) - f_{t-1}(x)|^2. \tag{1}
$$
分类头的变化（$g_{t-1}, g_o^t$）如图 1(2) 所示：与特征提取器的变化类似，旧类别的分类头 $g_{t-1}$，将不可避免地因缺少前序类别的数据而受到干扰。为了解决这个问题，最近的方法提出在训练期间维护一小部分先前类别的原型 $\Omega_{t-1}$。具体来说，原型被增强并用于训练分类头以维持旧知识。
$$
L_{pro} = L_{ce}(g_t(\text{Aug}(\Omega_{t-1})), Y’{t-1}), \tag{2}
$$
其中 Aug 表示原型增强，$\Omega{t-1}$ 表示之前 $t-1$ 任务的原型，$Y’{t-1}$ 表示原型的类标签，$L{ce}$ 是交叉熵损失。

虽然先前的研究主要集中在前两个方面，但我们确定了另外两个可能导致严重遗忘的因素：

次优交互 $f_t$ 和 $g_o^t$ 如图 1(3) 所示：尽管提出了各种知识蒸馏损失来减轻特征提取器的变化，新模型 $f_t$ 的特征空间将不可避免地与旧的 $f_{t-1}$ 发散。因此，新模型维护的旧类别原型将从旧模型漂移。这种不匹配可能会破坏原型准确表示旧类别的能力，从而损害分类头 $g_o^t$ 的能力。为了解决这个问题，我们引入了一个特征校准网络（FCN），它传输原型到新模型的特征空间，从而缓解了由于模型转换引起的特征漂移。

$g_o^t$ 和 $g_n^t$ 之间的交集如图 1(4) 所示：由于在阶段 $t$ 只能访问 $D_t$，$D_t$ 中的当前数据特征可能取代从 $D_1$ 到 $D_{t-1}$ 的类似历史数据。这种不同训练阶段之间的特征重叠引入了分类边界突破的潜力，随后导致性能下降。我们在图 2 中提供了这个问题的具体演示。我们可以观察到，当同时使用旧类别和新类别的分类头时，与单独使用它们相比，准确率明显下降。这种显著的下降显示了不同阶段类别之间分类边界交集的显著影响。为了有效解决这个挑战，我们引入了涉及原型的对比损失（PIC），它分离旧类别的原型和新类别的特征，以减少分类边界的相互影响。

4. 提出的方法

4.1. 特征校准网络（FCN）

如上所述，我们展示了直接在新模型的特征空间中使用旧模型提取的原型会导致次优性能。将旧模型和新模型的特征空间表示为 $F_{t-1}$ 和 $F_t$，概率分布表示为 $P \in \mathcal{P}(F_{t-1})$ 和 $Q \in \mathcal{P}(F_t)$。我们的目标是获得一个传输计划 $\mathcal{T}$，将分布 $P$ 映射到 $Q$ 并具有最低误差，这也被称为最优传输问题。Monge 的最优传输表述可以形成为：
$$
\text{Cost}(F_{t-1}, F_t) = \inf_{\mathcal{T} \mathbb{P} = \mathbb{Q}} \int_{F_t} c(x, T(x)) d\mathbb{P}(x), \tag{3}
$$
其中 $T: F_{t-1} \rightarrow F_t$ 是将源空间特征传输到目标空间的传输计划，$c(x, T(x))$ 是将 $x$ 传输到 $T(x)$ 的成本。在 IL 阶段 $t$ 的训练步骤中，模型被喂入一批数据 ${X_t, Y_t} = {x_j, y_j}{j=1}^{n_b}$，从 $D_t$ 中采样，批量大小为 $n_b$。我们可以得到旧模型和新模型提取的 $x_j$ 的特征，分别为 $f{t-1}(x_j)$ 和 $f_t(x_j)$。然后，方程（3）可以在离散形式中近似：
$$
\text{Cost}(F_{t-1}, F_t) = \inf_{{T} \mathbb{P} = \mathbb{Q}} \frac{1}{n_b} \sum_{j=1}^{n_b} c \left( f_{t-1}(x_j), T \left( f_{t-1}(x_j) \right) \right). \tag{4}
$$
对于成本函数 $c$，$f_{t-1}$ 提取的某个 $x_j$ 的特征应该映射到相关特征 $f_t(x_j)$，因此我们设置成本函数如下：
$$
c \left( f_{t-1}(x_j), T \left( f_{t-1}(x_j) \right) \right) = |T \left( f_{t-1}(x_j) \right) - f_t(x_j)|^2. \tag{5}
$$
与先前方法解决两个固定样本集之间的最优传输问题不同，我们的方法使用神经网络实现传输计划。这个网络通过最小化训练过程中的成本 $\text{Cost}(F_{t-1}, F_t)$ 来优化。
$$L_T = \text{Cost}(F_{t-1}, F_t). \tag{6}$$

然后，学习到的传输计划 $T$ 作为特征校准网络，将原型传输到新模型的特征空间（图 3）。在增量训练阶段 $t$ 期间，我们有旧类别的原型 $\Omega_{t-1}$，这些原型在训练分类头之前被传输到新模型的特征空间。因此，与方程（2）中的原型分类损失相比，我们的损失函数是：
$$
L_{pro-T} = L_{ce} \left( g_t \left( T \left( \text{Aug}(\Omega_{t-1}) \right) \right), Y’{t-1} \right). \tag{7}
$$
在 IL 阶段 $t$ 的训练之后，可以维护阶段 $t$ 中新类别的原型 $\omega_t$ 作为每个类别中特征的平均值。然后，前 $t$ 阶段的原型是 $\Omega_t = T(\Omega{t-1}) \cup \omega_t$，由校准的原型 $T(\Omega_{t-1})$ 和新类别的原型 $\omega_t$ 组成。

4.2. 涉及原型的对比损失（PIC）

知识遗忘的另一个方面是不同 IL 阶段相似类别的重叠，这将破坏已建立的分类边界，导致性能下降。为了解决这个挑战，我们引入了 PIC，它从两个方面减轻特征重叠：分离新类别以留出更多空间进行未来更新，并将新类别从旧类别推开。首先，受对比学习有效聚集相似特征的启发，我们采用监督对比损失来压缩每个类别的特征，从而允许更大的灵活性以适应未来类别。为了简化符号，本节省略了训练阶段 $t$。给定一批数据索引 $I$，我们增强每个数据 $x$ 并得到查询视图 $x_q$ 和关键视图 $x_k$，然后监督对比损失可以表示为：
$$
L_{co} = -\sum_{i \in I} \frac{1}{|S(i)|} \sum_{p \in S(i)} \log \frac{\exp(z{^q_i} \cdot z{^k_p}/\tau)}{\sum_{a \in I} \exp(z{^q_i} \cdot z{^k_a}/\tau)}, \tag{8}
$$
其中 $S(i)$ 是与图像 $x_i$ 具有相同类别标签的索引集，$z{^q_i} = f(x{^q_i})$ 和 $z{^k_i} = f(x{^k_i})$ 分别表示由特征提取器 $f$ 提取的查询视图和关键视图 $x_i$ 的特征，$\tau$ 是一个标量温度参数。其次，在初始训练阶段之后，我们有部分代表以前类别特征的维护原型。为了充分利用原型中的知识，原型被视为与训练样本不同类别的特征，然后监督对比损失是：
$$
L_{co} = -\sum_{i \in I} \frac{1}{|S(i)|} \sum_{p \in S(i)} \log \frac{\exp(z{^q_i} \cdot z{^k_p}/\tau)}{\sum_{a \in I \cup I_\Omega} \exp(z{^q_i} \cdot z{^k_a}/\tau)}, \tag{9}
$$
其中 $I_\Omega$ 是原型的索引集。通过利用涉及原型的对比损失，同一类别的实例被拉近在一起。同时，实例不仅被推开与不同类别，而且还与以前类别的原型分开。这种方法允许模型为未来类别留出更多空间，并分离不同类别的特征，减轻了分类边界交集引起的遗忘。

4.3. 总体优化

对于我们方法的优化，首先使用经典的交叉熵损失 $L_{ce}$ 进行主干训练。如上所述，我们的分析揭示了遗忘的四个不同方面，导致采用不同的损失来分别解决它们。我们探索了广泛认可的知识蒸馏损失 $L_{kd}$（方程（1））和原型分类损失 $L_{pro}$（方程（2））作为现有方法。然后，提出的校准网络学习损失 $L_T$（方程（6））用于学习可以将旧类别原型传输到新模型特征空间的 FCN。在此转换的基础上，我们用校准的原型替换 $L_{pro}$ 中的原型，得到我们的原型分类损失 $L_{pro-T}$（方程（7））。最后，采用涉及原型的对比损失 $L_{co}$（方程（9））来减轻特征重叠问题。总体优化损失可以表示为：
$$
L = L_{ce} + \alpha L_{kd} + \beta L_{pro-T} + \gamma L_T + \lambda L_{co}, \tag{10}
$$
其中 $\alpha$、$\beta$、$\gamma$ 和 $\lambda$ 是平衡不同组成部分的权重参数。

5. 实验

5.1. 实验设置

5.1.1 数据集

我们在三个公共数据集上评估我们提出的 FCS 模型：CIFAR-100、TinyImageNet 和 ImageNet-Subset。CIFAR-100 包含 100 个类别，每个类别有 500 张训练图像和 100 张测试图像。TinyImageNet 包含 200 个类别，每个类别有 500 张训练图像和 50 张测试图像。ImageNet-Subset 是 ImageNet 的一个子集，包含 100 个类别，每个类别有 1300 张训练图像和 50 张测试图像。我们遵循传统的 NECIL 设置来构建增量设置。具体来说，对于 CIFAR-100，模型在 50、50 和 40 个类别上训练，然后分别在 5、10 和 20 个 IL 阶段进行训练。对于 TinyImageNet，模型在 100 个类别上训练，然后分别在 5、10 和 20 个 IL 阶段进行训练。对于 ImageNet-Subset，模型在 50 个类别上训练，然后在 10 个 IL 阶段进行训练。

5.1.2 比较方法

我们的 FCS 方法与各种最先进的 NECIL 方法进行比较，包括 LwF、PASS、IL2A、SSRE、R-DFCIL、EDG 和 FeTrIL。此外，我们还与两种基于范例的 CIL 方法进行比较，iCaRL 和 EEIL，记忆大小设置为每个类别 20 个样本。此外，还包括两个特殊的实验设置，Joint-Train 和 Fine-Tune。Joint-Train 意味着所有数据一次性用于训练，作为上限结果。Fine-Tune 意味着直接微调模型，不使用任何抗遗忘算法。

5.1.3 评估指标

按照先前的工作，我们使用准确率和平均遗忘进行评估。准确率是所有已学习类别的平均准确率。平均遗忘计算了增量学习过程中不同任务的平均性能下降，可以估计先前任务的遗忘。

5.1.4 实现细节

我们使用广泛采用的 ResNet-18 作为我们的主干，并从头开始训练它。参数由 Adam 优化器进行优化，初始学习率为 1e3，权重衰减为 2e-4。模型训练 100 个周期，每 45 个周期后学习率衰减 0.1。我们将批量大小设置为 64，并遵循数据增强。特征校准网络实现为一个线性层，初始化为单位矩阵和零偏置。我们将不同损失的权重参数设置为 $\alpha = 10$、$\beta = 10$、$\gamma = 1$ 和 $\lambda = 0.1$，对于 5、10 个增量阶段的设置，$\lambda = 0.03$ 对于 20 个增量学习阶段和 ImageNet-Subset 数据集。所有实验都在单个 NVIDIA 4090 GPU 上使用 PyTorch 实现。

5.2. 与 SOTA 的比较

主要结果。表 1 显示了最终准确率的结果。在各种情况下，我们的方法显著优于以前的非范例方法和经典的基于范例的方法。我们在 CIFAR-100 上取得了 4.01%、2.75%、4.69% 的性能提升，在 TinyImageNet 上取得了 3.12%、2.54%、1.24% 的性能提升，在 ImageNet-Subset 上取得了 0.54% 的性能提升。值得注意的是，使用知识蒸馏原型的方法（例如，PASS、IL2A）随着阶段数量从 5 增加到 20，准确率大幅下降，CIFAR-100 上下降了 9.47%、9.69%，TinyImageNet 上下降了 7.72%、9.51%。相比之下，我们的结果表现出相对较小的性能下降，分别为 4.96% 和 3.47%。这种韧性归因于我们的校准原型对演变模型的适应性，以及我们的涉及原型的对比损失在减轻特征重叠方面的有效性。值得注意的是，在 ImageNet-Subset 上，我们的方法仅比冻结主干的方法（FeTrIL）高出 0.54%。这是因为 FeTrIL 冻结了主干，从而有效地保留了特征提取器的知识，防止了在应用于大型数据集时的遗忘。然而，FeTrIL 的知识获取能力受到严重限制，导致在 CIFAR-100 和 TinyImageNet 上的结果较差。此外，我们还在表 2 中提供了 CIFAR-100 上的平均遗忘结果。可以观察到，我们方法的平均遗忘最低，展示了我们方法的优越抗遗忘能力。

准确率曲线。为了详细展示我们的结果，我们在图 4 中展示了 CIFAR-100 数据集上我们方法的准确率。值得注意的是，我们的方法在初始阶段具有类似的准确率，在后续阶段取得了最佳结果。这一观察强调了我们的方法在知识遗忘和获取之间取得了更好的平衡。

混淆矩阵。在图 5 中，我们展示了 CIFAR-100 上不同方法的混淆矩阵。我们的方法在正确预测早期阶段的类别（矩阵的左上角）方面超越了现有方法。这是因为通过 FCN 校准的原型能更好地表示新模型特征空间中的旧类别特征，从而保留更多的知识。此外，PIC 有助于减轻旧类别和新类别之间的干扰，也有助于这一改进。

5.3. 消融研究

结果分析。为了阐明 FCS 的有效性，我们在 CIFAR-100 数据集上进行了广泛的实验。我们的方法包括两个组成部分：特征校准网络和涉及原型的对比损失。表 3 中的结果证实了以下观察：（1）我们方法的基线与 SOTA 方法取得了相当的结果，展示了通过 [41, 42] 提出技术增强模型训练的潜力。这种策略的融合增强了更泛化特征的学习，从而提高了整体性能。（2）FCN 的加入以（1.26%，2.40%，3.83%）的优势改善了基线的结果。这种增益可以归因于 FCN，它学习了旧模型和新模型特征空间之间的传输函数。校准的原型能更好地代表新模型特征空间中的历史数据特征，从而保留更多的知识以抵抗遗忘。值得注意的是，随着阶段从 5 增加到 20，FCN 带来的改进增加。这一现象归因于学习过程中模型变化的累积，我们的方法可以有效地减轻这个问题，取得了更好的结果。（3）显著地，使用 FCN 和 PIC 一起取得了最佳结果。这种组合方法比单独使用 FCN 实现了（0.36%，0.66%，0.05%）的改进。这种增益可以归因于 PIC 分离不同阶段的相似类别特征并减少对分类边界的损害的能力。同时，FCN 也通过为模型提供更合适和可适应的原型做出了贡献。

FCN 的消融研究。在表 4 中，我们展示了使用不同架构的特征校准网络（FCN）的结果。我们用三种不同的网络实现 FCN。具体来说，[512, 512] 表示一个输入维度为 512，输出维度为 512 的线性层。[512, D,512] 表示两个线性层，输入维度为 512，D 和输出维度分别为 D，512。结果表明，单线性层取得了最佳性能。这可以归因于线性层有效地捕获模型间特征漂移，同时相对容易学习。使用单线性层还确保了线性可分属性的保留，这有助于线性分类的学习。因此，我们选择这个单层作为我们 FCN 的架构。

FCN 的有效性。为了进一步阐明 FCN 的有效性，我们在图 6 中可视化了在 20 阶段设置下 CIFAR-100 和 TinyImageNet 数据集上每个阶段维护的原型与适当原型（由新模型提取）之间的平均欧几里得距离。我们可以观察到，我们方法的距离低于基线方法。这一现象表明 FCN 可以有效地将原型从旧模型的特征空间传输到新模型，并减轻特征空间漂移带来的知识遗忘。

PIC 的有效性。为了展示 PIC 的有效性，在图 7 中，我们展示了不同阶段旧类别（左）和新类别（中）的分类准确率的可视化。值得注意的是，采用 PIC 提高了旧类别和新类别在一系列阶段的准确率。这种改进可以归因于 PIC 分离不同类别的特征，从而减少它们的交集。为了进一步分析这种能力，我们展示了不同阶段类别之间分类边界交集导致的平均性能下降（右）。平均性能下降是作为仅使用旧类别和新类别的分类头与它们联合部署相比的性能下降来计算的（越低越好）。结果表明 PIC 可以减轻这种退化，证明了它在最小化分类边界汇合方面的有效性。

6. 结论

在本文中，我们介绍了一种特征校准和分离（FCS）方法来解决具有挑战性的非范例类增量学习（NECIL）任务。我们提出的 FCS 由一个新颖的特征校准网络（FCN）和一个特定的涉及原型的对比损失（PIC）组成。具体来说，受最优传输理论的启发，FCN 学习旧模型和新模型特征空间之间的传输函数，以校准保留的原型的漂移。此外，PIC 损失被设计为通过对比学习充分利用原型的知识，将不同 IL 阶段的类别分离开来，进一步增强了所提方法的泛化能力和区分能力。在各种数据集上的广泛实验展示了我们的 FCS 方法的优越性。致谢。这项工作得到了中国国家自然科学基金（62376011, 61925201, 62132001）的支持。