OCL-SKD:通过自我知识蒸馏在线持续学习中平衡塑性与稳定性

【字体: 时间:2026年03月13日 来源:Neurocomputing 6.5

编辑推荐:

  在线持续学习需平衡模型获取新知识的能力(可塑性)与防止灾难性遗忘的稳定性。本文提出基于自知识蒸馏的OCL-SKD方法,通过从低置信度预测向高置信度预测转移知识削弱模型过度自信以提升可塑性,同时最小化新旧模型输出分布的散度以维持稳定性。实验在CIFAR-10、CIFAR-100和Tiny-ImageNet上验证,该方法达到最佳性能。

  
刘湛阳|刘一可|刘金凤
北京航空航天大学无人系统研究所,中国北京 100191

摘要

在线持续学习(OCL)主要致力于解决在连续数据流中有效获取新知识的同时,减轻对先前学习知识的灾难性遗忘问题。这一挑战通常被称为可塑性-稳定性困境。与离线持续学习不同,在线持续学习中,训练数据是以小批量形式出现的,并且只能训练一次,这使得平衡可塑性和稳定性变得更加困难。为了解决这个问题,我们从自我知识蒸馏(OCL-SKD)的角度提出了一种在线持续学习解决方案。具体来说,我们认为在线持续学习中,模型容易对其预测产生过度自信,这对可塑性是有害的。因此,我们引入了一种自我知识蒸馏策略,将知识从低置信度的预测转移到高置信度的预测中,从而增强模型获取新知识的能力(即提高可塑性)。此外,我们通过最小化两个模型输出之间的差异,将旧模型的知识转移到新模型中,从而减轻对先前学习知识的灾难性遗忘(即保持稳定性)。在CIFAR-10、CIFAR-100和Tiny-ImageNet上的广泛实验结果表明,我们的方法能够在在线持续学习中平衡可塑性和稳定性,并取得最先进的性能。我们的工作源代码可在以下链接公开获取:https://github.com/LLZQYF/OCL-SKD

引言

深度神经网络在图像分类任务中取得了显著的成功[16]。然而,这种优异的性能往往基于封闭世界假设,即训练数据和测试数据来自相同的固定类别。实际上,在实际应用中这种假设通常是不合理的。由于现实世界本质上是开放和动态的,因此在不断演变的数据分布上训练的深度神经网络不可避免地容易发生灾难性遗忘[10],[28],模型逐渐失去区分先前学习任务数据的能力。
持续学习,也称为增量学习,旨在从无限的数据流中逐步学习,同时平滑地适应新数据并防止对先前见过的数据的灾难性遗忘。一般来说,增量学习可以分为三种场景:任务增量学习(TIL)、领域增量学习(DIL)和类别增量学习(CIL)[27]。在这项工作中,我们关注更通用和更具挑战性的类别增量学习场景。在训练过程中,模型需要依次学习一系列任务,每个任务包含一组不同的类别。在测试过程中,模型需要在没有任何特定任务信息的情况下对所有遇到的类别进行准确预测。
除了三种不同的场景外,持续学习还可以通过两种方式进行:离线学习和在线学习[36]。在离线持续学习中,模型可以无限访问当前任务的所有训练数据,并且可以训练任意多个 epoch。与离线学习不同,在线持续学习中,每个任务的数据以单次传递的形式出现,模型在积累到一小批样本时进行训练。对于所有任务,模型只能像一次训练迭代一样看到训练数据一次。在本文中,我们采用在线学习模式来解决类别增量学习问题。
在过去几年中,提出了各种方法来帮助模型在在线持续学习中逐步学习。这些方法主要是为了减轻灾难性遗忘(即模型的稳定性),以获得更好的整体性能。然而,相对较少关注于增强模型获取新知识的能力(即模型的可塑性)[20]。我们认为,在线持续学习中,可塑性尤为重要,模型对其预测的过度自信可能对其获取新知识的能力产生不利影响。因此,我们提出了一种基于自我知识蒸馏的在线持续学习方法,称为OCL-SKD。从低置信度预测到高置信度预测的知识蒸馏可以削弱模型的过度自信,从而提高模型的可塑性。此外,我们使用模型的冻结副本作为旧模型,并通过知识蒸馏将旧模型的知识转移到新模型中,从而有效保持模型的稳定性。最终,OCL-SKD在在线持续学习的各种实验设置中成功实现了可塑性和稳定性之间的良好平衡,并展现了最先进的性能。
我们的贡献可以总结如下:
  • (1)
    我们提出了一种创新的在线持续学习解决方案,通过自我知识蒸馏有效削弱模型对其预测的过度自信,从而提高模型获取新任务知识的能力(即提高可塑性)。
  • (2)
    所提出的方法鼓励模型在学习新任务时,使旧模型为先前任务训练的对数分布对齐,从而减轻对旧任务的灾难性遗忘(即保持稳定性)。
  • (3)
    在广泛使用的基准数据集上的广泛实验结果表明,OCL-SKD的性能优于其他最先进的基线方法。

部分摘录

持续学习

自从深度神经网络重新兴起以来,持续学习受到了越来越多的关注,从而开发了许多防止或减轻灾难性遗忘的方法。这些方法主要可以分为三类:1)基于回放的方法[30]、[34]、[35],它们使用来自先前任务的有限训练样本或使用生成网络生成伪数据来帮助模型保留先前的知识;2)基于正则化的方法[2]、[7]

初步介绍

在线持续学习旨在开发一个统一的模型,该模型可以逐步训练,利用来自单次传递的数据流。具体来说,表示任务t的数据集,表示任务t的类别集,表示任务的总数。数据集包含个样本,其中是输入样本,是其对应的类别标签。注意,在在线持续学习中,不同任务的类别集是不相交的(即)。基于回放的方法

实验设置

数据集。我们使用三个图像分类基准数据集来验证在线持续学习方法的有效性,包括CIFAR-10[21]、CIFAR-100[21]和Tiny-ImageNet[23]。CIFAR-10包含60,000张32×32像素的RGB图像,共10个类别。每个类别有5000张训练图像和1000张测试图像。它被分为5个不相交的任务,每个任务包含2个类别。CIFAR-100包含60,000张32×32像素的RGB图像,共100个类别。每个类别有5000张训练图像和1000张测试图像。

结论

为了克服在线持续学习中的可塑性-稳定性困境,我们提出了一种新颖的自我知识蒸馏策略,将知识从低置信度的预测转移到高置信度的预测中。通过减少模型对其预测的过度自信,我们的方法提高了模型获取新知识的能力,从而提高了可塑性。此外,为了保持稳定性,我们最小化了当前模型和先前模型输出之间的差异,有效地

CRediT作者贡献声明

刘湛阳:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,软件,方法论,调查,形式分析,数据整理,概念化 刘一可:验证,资源,数据整理 刘金凤:监督,资金获取

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了宁夏自然科学基金(编号2025AAC030154)的支持。
刘湛阳目前正在北京航空航天大学无人系统研究所攻读博士学位。他的研究兴趣包括深度学习、持续学习和自动驾驶。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号