iLAP | Hongwei Zhao's Blog

ChatGPT全文翻译 :arrow_down:

0. 摘要

尽管许多关于持续学习的工作在减轻灾难性遗忘方面显示出令人鼓舞的结果，但这些方法依赖于有监督的训练。为了在无标签的增量学习环境中成功学习，模型必须区分已学习的类别和新类别，以正确地包含样本进行训练。我们引入了一种利用网络混淆的新增检测方法，该方法通过将新数据训练为新类别来工作。我们发现，在此检测方法中引入类别不平衡显著提高了性能。我们的方法在一组图像分类基准数据集（包括 MNIST、SVHN、CIFAR-10、CIFAR-100 和 CRIB）上的有效性得到了验证。

1. 引言

在人工智能领域，开发能够持续学习的系统仍然是一个主要障碍。其主要挑战在于减轻灾难性遗忘：即在学习新任务的同时，保持执行旧任务的能力。这个研究领域通常被称为持续学习、终身学习、顺序学习或增量学习：尽管在学习环境和训练过程中有所不同，但大多数方法都使用了监督学习。

最近，Stojanov 等人（2019 年）提出了一种新的无监督类别增量学习问题，灵感来自于儿童游戏行为如何支持他们学习物体模型的能力。在这种环境中，顺序任务以曝光的形式出现。每个曝光包含一组属于单一类别的图像，该类别对学习者是隐藏的。曝光的边界，即从一个曝光到下一个曝光的过渡是已知的。在这种环境中训练的模型类似于一个被放在有一组新玩具的游戏围栏中的小孩。孩子通过不断地拿起、检查和放下新/旧物体，随着时间的推移逐渐收集信息。类似地，代理在训练过程中无法访问曝光的身份。

为了在无监督类别增量设置中进行学习，代理必须成功执行两个步骤。给定一个新的学习曝光，关键步骤是进行新增检测：即识别一个曝光是否对应于已经学习的类别。如果代理确定某个曝光是熟悉的，第二个步骤是识别其标签，以便可以利用该曝光更新模型。这两个步骤必须可靠地执行，否则新增检测错误将导致标签噪声，从而扭曲已学习的模型，并增加后续错误的可能性。

深度神经网络已知会对训练过程中未见过的异常数据分布做出过度自信的决策（Hendrycks & Gimpel, 2016）。为了解决这个问题，相关的研究使用了监督方法（Liang et al., 2017; Alemi et al., 2018）和无监督方法（Choi & Jang, 2018; Hendrycks et al., 2018; Serrà et al., 2019）。涉及开放集识别的工作也通过应用基于距离的阈值来解决 OOD（Out-of-Distribution, 分布外）问题，这些阈值是从已知类别得分中计算得出的（Scheirer et al., 2012; 2014）。Stojanov 等人（2019 年）的工作在无监督增量设置中应用了类似的方法，通过一组监督样本计算类别特征。相比之下，我们提出了一个名为基于准确性表现的增量学习模型（iLAP），该模型通过考虑先前学习任务的表现变化来确定类别的新颖性和身份。

2. 相关工作

2.1 持续学习/增量学习

这一领域的先前工作主要旨在提高模型在整合新任务时保留信息的能力（Goodfellow et al., 2013; Parisi et al., 2019; Rebuffi et al., 2017; Lopez-Paz & Ranzato, 2017; Aljundi et al., 2018; Castro et al., 2018）。这些模型通常存在于任务标签和任务边界已知的学习环境中。方法包括回放技术，使用人工制品和生成样本来刷新模型的记忆（Kamra et al., 2017; Wu et al., 2018; Rolnick et al., 2019; Shin et al., 2017; Wu et al., 2019），以及基于正则化的实践，识别并保存对特定任务表现至关重要的权重（Kirkpatrick et al., 2017; Zenke et al., 2017; Yoon et al., 2017）。与以往的工作相比，我们的方法解决了一个设置中的增量学习问题，即曝光标签不可用。

2.2 无监督的持续学习

最近，一系列工作解决了任务边界和任务身份未知的无监督持续学习问题。Smith & Dovrolis（2019 年）通过分析输入图像穿过一系列感受野来确定输入补丁是否为异常，从而进行新增检测。同时，CURL 提出了一种通过一组共享参数学习类别区分表示的方法（Rao et al., 2019）。CN-DPM 引入了一种基于扩展的方法，利用专家混合模型来学习特征表示（Lee et al., 2020）。虽然 CN-DPM 在无任务设置下表现良好，但输入任务是多类的，并提供了单个类别标签。训练现有专家并确定何时需要新专家需要这些监督信息。虽然这些工作不需要边界信息，但其性能远低于有监督的基线（Rao et al., 2019）。

2.3 分布外检测

这一研究领域旨在检测训练和测试数据中的异常值。当前的方法大致可以分为统计、基于距离和深度学习方法（Eskin, 2000; Yamanishi et al., 2004; Knorr et al., 2000; Hautamaki et al., 2004; Sabokrou et al., 2018; Kliger & Fleishman, 2018）。最近的技术涉及使用阈值来根据网络置信度值确定类别的新颖性（Hendrycks & Gimpel, 2016）。ODIN 使用输入扰动来增加神经网络的 softmax 分数，以区分分布内图像和分布外图像（Liang et al., 2017）。DeVries & Taylor（2018 年）引入了一个置信度分支，以获得分布外估计值。我们的方法（iLAP）首次引入了一个依赖于数据中毒导致的类别准确性变化的阈值。

3. 方法

在本节中，我们概述了我们的方法。首先介绍学习设置，然后详细描述训练过程。最后，提供了选择阈值的见解。

3.1 设置

在无监督类别增量设置中，学习者 $L$ 感知到一系列输入曝光，记作 $E_1, E_2, …, E_n$。每个曝光包含一组图像，$E_i = {e_{i1}, e_{i2}, …, e_{in_i}}$，其中 $e_{ij} \in \mathbb{R}^{C \times H \times W}$，$C$、$H$ 和 $W$ 分别为输入图像的通道数、高度和宽度。每个曝光属于单一类别 $y_i \in \mathbb{N}$，该类别从类别分布 $P(C)$ 中采样。对于每个 $E_i$，$L$ 不知道真实类别标签 $y_i$。始终维护两个样本集 $P_{\text{train}} = (P_{\text{train}}^1, P_{\text{train}}^2, …, P_{\text{train}}^{\hat{K}})$ 和 $P_{\text{val}} = (P_{\text{val}}^1, P_{\text{val}}^2, …, P_{\text{val}}^{\hat{K}})$，其中 $\hat{K}$ 表示 $L$ 目前确定的类别总数。这些样本集用于存储来自曝光的样本，以便重放和评估准确性。每个样本集的大小 $\vert P_{\text{train}}^i \vert$ 和 $\vert P_{\text{val}}^i \vert$ 对每个类别都有上限。

3.2 检测训练

对于每个输入曝光，模型的任务是确定与曝光相关的类别是否已被学习。我们的解决方案是通过将输入曝光视为新类别来执行模型更新，我们将这种技术称为检测训练。在曝光类别重复的情况下，训练后先前学习类别的性能会急剧下降。这种行为的原因是模型将两个不同的标签与相似的类别分布相关联。

在检测训练期间，生成 $L$ 的一个副本 $\hat{L}$。输入曝光被分配为标签 $\hat{K} + 1$。对输入曝光进行训练 - 验证分割，以获得 $E_{\text{train}}$ 和 $E_{\text{val}}$，并分别与样本

集 $P_{\text{train}}$ 和 $P_{\text{val}}$ 聚合。使用组合样本训练 $\hat{L}$，并使用基于验证的提前停止法。我们表示向量 ${\Delta \hat{y}}{\hat{y} \in [\hat{K}]}$ 表示类别准确率的百分比下降（使用 $P{\text{val}}$ 计算），在更新前后进行比较。如果 $\max({\Delta \hat{y}})$ 超过阈值 $\theta$，则输入曝光可能已被 $L$ 学习。在这种情况下，与曝光相关的正确身份是 $\arg \max_{\hat{y} \in [\hat{K}]} \Delta \hat{y}$。否则，如果 $\theta$ 不满足，则 $\hat{K} + 1$ 是新类别的适当标签。

3.3 类别不平衡的检测训练

在检测训练过程中引入类别不平衡可以通过加剧重复曝光的类别准确率下降，创造出更明显的决策边界。考虑一个理论案例，其中一个最佳模型已学习了 $\hat{K}$ 个类别。输入曝光 $E_i$ 包含一个等同于先前学习类别 $\hat{y}i$ 的分布。如果使用相同数量的 $E_i$ 样本标记为 $\hat{K} + 1$ 和 $P{\text{train}}^{\hat{y}_i}$ 样本标记为 $\hat{y}_i$ 来更新模型，则在验证过程中类别 $\hat{y}_i$ 的准确率将变得模糊（$\hat{y}_i \approx 50%$，$\hat{K} + 1 \approx 50%$）。然而，如果模型使用更多的 $\hat{K} + 1$ 标签样本进行更新，由于推理过程中更偏向 $\hat{K} + 1$，类别 $\hat{y}_i$ 的准确率下降将大大增加。

$\hat{L}$ 在检测训练中有使用不平衡数据集的选项，其中样本集 $P_{\text{train}}$ 的每个类别样本数量相对于 $E_{\text{train}}$ 的数量进行取样。让 $P_{\text{sampled}}^i \subset P_{\text{train}}^i$，类别不平衡比率 $\lambda$ 定义为：

$$
\lambda = 1 - \frac{\vert P_{\text{sampled}}^i \vert}{\vert E_{\text{train}} \vert}
$$

在图 2 中，我们使用 Fashion-MNIST（Xiao et al., 2017）和 Imagenette（Howard）来获得我们在其他数据集实验中使用的 $\lambda$ 和 $\theta$ 的一般值。在各种 $\lambda$ 值下，跟踪了检测训练期间重复类别和非重复类别的准确率下降。目标是最大化重复类别的性能损失，同时保持其他类别的性能。在第 4 节中，$\theta$ 值为 0.6，$\lambda$ 值为 0.5。通过最大化两个准确率曲线之间的距离确定 $\lambda$ 值；$\theta$ 是在 $\lambda$ 处两个值的平均值。

3.4 模型和样本集更新

在检测训练中获得预测标签（$\hat{K} + 1$ 或 $\arg \max_{\hat{y} \in [\hat{K}]} \Delta \hat{y}$）后，使用从 $P_{\text{train}}$ 和 $E_{\text{train}}$ 获得的组合数据集训练 $L$。从 $E_{\text{train}}$ 和 $E_{\text{val}}$ 中创建两个最具代表性的样本集，并将其添加到各自的样本集中，以供将来重放。选择过程由图像特征与类别均值图像特征之间的距离排名决定。这种方法与 Castro 等人（2018）引入的过程一致。

有了 $P_{\text{val}}$，$L$ 可以评估旧类别和新类别的表现。如果任何类别的准确率低于某一百分比，该类别将被完全丢弃。这使得模型能够移除那些学习不足或已被遗忘的额外类别。在第 4 节中，所有实验的百分比阈值为 20%。

4. 实验

我们通过一系列图像分类基准数据集（MNIST、SVHN、CIFAR-10、CIFAR-100 和 CRIB）评估我们框架的性能。首先，我们将我们的新增检测器与相关的 OOD 方法进行比较。接下来，我们评估 iLAP 与其他增量学习者（如 BiC (Wu et al., 2019) 和 IOLfCV (无监督)）的性能。

4.1 实验细节

在接下来的实验中，使用一个预训练的 ResNet-18 模型（He et al., 2016）进行 iLAP 和所有基线的测试（附录 A.4 中展示了不使用预训练的额外实验）。对于 iLAP，带有类别不平衡的检测训练使用 $\lambda = 0.5$ 和 $\theta = 0.6$，而不带类别不平衡的检测训练使用 $\lambda = 0$ 和 $\theta = 0.4$。所有基准数据集的参数保持不变。

对于每个曝光，模型使用 Adam 优化器（Kingma & Ba, 2014）进行 15 个 epoch 的训练，批次大小为 16，并使用基于验证的提前停止法；学习率设为 2e−4。特征提取层使用十倍低的学习率，即 2e−5。对于所有模型，每个类别的样本集大小等于曝光大小。曝光验证集划分比为 0.8（例如，对于曝光大小为 200，iLAP 的 [训练集] = 160，[验证集] = 40）。在 4.1 节中的 IOLfCV 使用了通过最大化 F-score 来确定分布内曝光与分布外曝光分类的阈值。为了获得最佳性能，使用了整个数据集。这些值分别为 MNIST 的 0.46、SVHN 的 0.63、CIFAR-10 的 0.57 和 CIFAR-100 的 0.62。

4.2 分布外检测结果

在包含 200 个曝光的增量设置中评估 OOD 检测器。使用常用的指标（FPR95、AUROC 和 AUPR）评估检测器区分曝光是否新颖的能力（Hendrycks & Gimpel, 2016）。附录 A.1 中描述了比较工作的详细信息和评估方法。结果如表 1 所示。

4.3 增量学习结果

学习者 $L$ 的准确性通过使用以下方程计算的映射 $m : [\hat{K}] \rightarrow [K]$ 获得：

$$
S(x, y) = \begin{cases}
\frac{1}{\vert m^{-1}(y) \vert}, & \text{if } L(x) \in m^{-1}(y) \
0, & \text{otherwise}
\end{cases}
$$

$$
\text{Accuracy} = \mathbb{E}_{x, y \sim \text{test}} [S(x, y)]
$$

学习者的准确性是使用测试集上的样本准确性分数的平均值，其中 $x, y$ 表示一个样本。对于带有标签 $y$ 的每个样本，令 $m^{-1}(y)$ 表示学习者的相应标签集。如果学习者输出不属于集合 $m^{-1}(y)$，则分配 0 的准确性分数（即类别未被检测到）。否则，如果 $m$ 是非单射的并且已为单个真实类别分配了多个标签，则分配一个准确性分数 $\frac{1}{\vert m^{-1}(y) \vert}$ 来惩罚学习者。性能结果如表 2 和表 3 所示。附录 A.2、A.3 和 A.4 中提供了额外的可视化内容。

5. 分析

依赖于基于距离的阈值的传统 OOD 方法受限于可用的监督样本。这些值不直观，并且在不同数据集之间差异很大（而我们的百分比阈值对于所有数据集来说大约为 50%）。在增量学习设置中，早期的错误会随着更多曝光的引入而放大，适当的阈值初始化决定了模型的可行性。然而，我们认为即使有良好的阈值，这些方法在某些特定条件下仍然会失败。本节的目的是讨论从实验中获得的结果。随后，我们强调了

传统的基于距离的方法忽视的一些案例。

5.1 分布外检测分析

带有类别不平衡检测训练（CI）的 iLAP 在 MNIST、SVHN、CIFAR-10 和 CIFAR-100 基准测试中的所有指标上均优于相关的 OOD 方法。然而，不带 CI 的 iLAP 的结果并不如预期。CE 在增量设置中表现最差，可能是因为置信度分支的性能依赖于更大的训练样本。IOLfCV 的方法表现与相关方法相当。

5.2 无监督增量学习分析

带有 CI 的 iLAP 在 MNIST、SVHN、CIFAR-10、CIFAR-100 和 CRIB 基准测试中分别击败了 IOLfCV 10.0、41.3、22.1、7.0 和 1.0 个百分点。iLAP 在曝光大小减小时也能保持其性能（见附录 A.3）。我们发现 CIFAR-100 和 CRIB 的较低性能表现并非直接归因于数据集中类别数量较多。相反，问题在于增量学习设置下的曝光顺序如何创建，以及如何计算基于距离的阈值。

IOLfCV 的阈值通过最大化新颖与非新颖类别的二分类 F-score 来计算。在我们的实验中，使用了整个数据集来计算基线的阈值。尽管这种做法不切实际，但我们希望说明即使在最理想的条件下，iLAP 也能击败基线。

在图 3 中，我们展示了随着网络学习的类别越来越多，类别特征距离的行为。当学习所有 100 个类别时，最大化 F-score 的最优阈值位于两个图之间的中点。然而，由于阈值是固定的，新增检测器在训练早期难以正确识别重复类别，更倾向于将重复类别标记为未见（图 3 中的红色阴影区域）。根据 Stojanov 等人（2019 年）描述的设置，每个基准中的类别以随机顺序重复相同次数。因此，在有大量类别的数据集中，重复曝光之间的距离更大。因此，IOLfCV 在 CIFAR-100 上的表现似乎比 CIFAR-10 好，但如果早期重复曝光频繁，则会失败。

5.3 类别相似性

iLAP 能够检测所有 MNIST、SVHN 和 CIFAR-10 的类别，并且平均在 CIFAR-100 中检测到 96.5 个类别。与此同时，IOLfCV 在所有评估基准中都难以识别独特类别。通过更仔细的检查，我们发现基于距离的方法在类别过于相似时无法区分它们。

考虑两个类别 $k_1$ 和 $k_2$，它们可以通过学习的特征空间 $F$ 中的分类器 $C$ 分开。一个输入曝光，类别 $k_3$，在特征空间 $F$ 中与类别 $k_1$ 共享相似的分布，但在某个特征空间 $F’$ 中可分离。基于距离的方法很可能会失败，因为它可能会将 $k_1$ 和 $k_3$ 分类为相同的类别。然而，由于我们的方法总是将输入曝光视为新类别进行训练，$C$ 被迫学习特征空间 $F’$，使得这两个类别可以分开。图 4 展示了在某个特征空间中，两个先前的类别，男孩和灯。在输入曝光类别女孩引入模型后，基于距离的方法无法区分类别男孩和女孩（图 4 左）。然而，由于检测训练总是尝试将输入曝光分类为新类别，我们的方法能够识别出特征空间 $F’$（图 4 右）。

6. 结论

要在无监督类别增量设置中实现学习，需要一个可靠的新增检测器。当前方法利用基于类别特征距离校准的检测阈值。在我们的工作中，我们说明了使用静态的基于距离的阈值不仅不切实际，而且不可靠。相反，我们引入了一种利用混淆错误进行新增检测的技术，该技术通过始终将输入曝光视为新类别进行训练。通过一系列图像分类基准，我们说明了即使在缺乏标签的情况下，我们的方法也能够接近监督学习的表现。