结合任务特定批量归一化(task-specific batch normalization)和分布外检测(out-of-distribution detection)的增量学习方法

【字体: 时间:2026年03月13日 来源:Neurocomputing 6.5

编辑推荐:

  增量学习研究如何通过任务特定归一化(BN)层和分类头,结合OOD检测预测任务ID,平衡学习新任务与保留旧知识,在医学和自然图像数据集上达到最优性能。

  
周志平|谢旭晨|邱一桥|林润|郑伟石|王瑞轩
中国广东省广州市中山大学计算机科学与工程学院

摘要

本研究聚焦于图像分类的增量学习,探讨在无法访问旧数据时如何减少对所有已学习知识的灾难性遗忘。挑战在于平衡可塑性(学习新知识)和稳定性(保留旧知识)。根据测试过程中是否能够获取任务标识符(task-ID),增量学习分为任务增量学习(TIL)和类别增量学习(CIL)。TIL范式通常使用多个分类器头,根据task-ID选择相应的头。由于CIL范式无法访问task-ID,最初为TIL开发的方法需要显式的task-ID预测来弥补这一差距,使其适应CIL范式。在本研究中,我们提出了一种新颖的持续学习框架,通过引入分布外检测(OOD detection)来扩展TIL方法以用于CIL。该框架利用任务特定的批量归一化(Batch Normalization, BN)和任务特定的分类器头来有效调整每个任务的特征图分布,从而增强可塑性。与卷积核相比,任务特定的BN参数更少,有助于最小化参数增长,保持稳定性。基于多个任务特定的分类器头,我们为每个头引入了一个“未知”类别。在训练期间,来自其他任务的数据被映射到这个未知类别;在推理期间,通过选择分配给未知类别的概率最低的分类器头来预测task-ID。我们的方法在两个医学图像数据集和两个自然图像数据集上取得了最先进的性能。源代码可在以下链接获取:https://github.com/z1968357787/mbn_ood-git_main

引言

深度学习模型已被广泛应用于各个领域,包括图像识别[1]、[2]、自然语言处理[3]、[4]、生成对抗网络[5]、[6],以及工业应用如多模态弧检测[7]、[8]。然而,它们通常依赖大量数据进行训练才能达到高性能。在现实世界中,往往难以一次性获得所有必要类别的数据,导致数据分阶段获取。此外,不同阶段出现的类别通常是互不重叠的。因此,AI模型通常需要逐步学习新类别。由于隐私和内存限制,模型只能访问当前阶段的数据,并且被限制只能检索之前阶段的数据。研究发现,在这些情况下,模型容易发生灾难性遗忘[9],即之前学习到的任务性能显著下降。因此,使模型能够在不断学习新知识的同时不忘记旧知识是推动深度学习在各个领域广泛应用的关键挑战。
已经提出了多种方法来缓解灾难性遗忘问题。然而,这些方法往往难以平衡模型的稳定性和可塑性,并且在控制参数增长方面也可能面临挑战。例如,基于模型参数正则化的方法[10]、[11]、[12]旨在通过约束防止关键神经网络权重发生剧烈变化,从而避免旧知识的丢失。但这种保护可能导致模型变得僵化,难以吸收新知识。另一种方法是动态扩展模型结构[13]、[14]、[16],为新的任务添加新的层或子模块。尽管这些方法显著增强了模型的可塑性,但不可避免地会增加内存需求。因此,如何在不显著增加内存负担的情况下有效添加网络组件是这类方法的核心问题。总体而言,现有方法难以在可塑性、稳定性和内存控制之间取得良好平衡,而这正是增量学习的核心挑战。
在常规的顺序多任务学习过程中(不使用增量学习),使用一个不受限制的特征提取器依次适应每个任务的独特知识表示。在此过程中,特征提取器仅专注于学习新任务,导致旧任务的灾难性遗忘。通过最小化特征提取器的更新,可以大幅减轻或完全避免灾难性遗忘。在本文中,我们提出了一种方法,通过引入任务特定的批量归一化(BN)层和分类器头来最小化对学习到的特征表示的修改。由于BN层的参数远少于典型CNN中的卷积层,因此可以为每个任务添加它们,同时实现最小的参数增长。这些任务特定的模块在后续的持续学习中得到训练并保留下来,有助于减轻灾难性遗忘并保持模型稳定性。此外,BN有效重塑了特征分布,增强了模型捕捉任务特定特征的能力并提高了学习可塑性。由于在类别增量学习(CIL)环境中无法获取任务标识符(task-ID),因此在推理时需要额外的机制来选择适当的任务特定模块。对于每个任务特定的BN层和分类器头,来自其他任务的数据可以被视为分布外(OOD)样本。为了利用这一特性,我们为每个分类器头添加了一个“未知”类别。在训练期间,来自其他任务的样本被映射到这个类别,使分类器头能够进行隐式的OOD检测。在推理期间,通过选择分配给未知类别的概率最低的分类器头来预测task-ID,从而使模型选择最合适的任务特定模块。
本研究扩展了我们之前的会议论文[17],我们在其中做出了两项基础性贡献:
  • 1.
    首次在任务增量学习(TIL)中引入了任务特定的BN;
  • 2.
    在task-ID可用的情况下,我们证明了任务特定的BN层和分类器头可以显著提升任务内的分类性能。
基于这些基础,本研究包括以下主要贡献:
  • 1.
    我们首次在CIL范式中引入了任务特定的BN。
  • 2.
    基于多个任务特定的分类器头,我们引入了分布外检测来预测task-ID,证明了task-ID预测机制可以有效将TIL扩展到CIL环境,其中task-ID是未知的。
  • 3.
    我们提出的方法在两个医学图像数据集和两个自然图像数据集上取得了最先进的CIL性能,实现了模型稳定性、可塑性和参数增长之间的更好平衡。

方法概述

图像分类的增量学习分为两种主要范式:任务增量学习[18]、[19](TIL)和类别增量学习[18]、[19](CIL)。TIL和CIL都在训练过程中以任务为基础顺序学习新的类别知识。每个任务包含多个类别,不同任务之间的类别集是互不相交的。在测试期间,TIL为每个样本提供任务标识符(task-ID)。

方法

方法的示意图如图1所示。图1(a)和(b)表示训练阶段。图1(a)展示了训练的第一阶段,随着新任务的到来,添加了任务特定的批量归一化和任务特定的分类器头。特别是,为任务特定的分类器头添加了一个额外的“未知”类别,用于表示不属于当前任务的样本。每个任务对应一个任务特定的子模型,每个子模型由

实验设置

数据集:我们在两个医学图像数据集(Skin8 [69]和Path16 [20]、[70]、[71]、[72]、[73]、[74]、[75])以及两个自然图像数据集(CIFAR100 [76]和CUB200 [77])上进行了一系列实验,以全面验证我们提出方法的有效性。这四个数据集均可在互联网上公开获取,其统计信息见表1。
Skin8 [69]是2019年皮肤疾病分类挑战赛中使用的数据集

结论与局限性

为了解决灾难性遗忘问题,并在稳定性、可塑性和参数增长之间取得更好的平衡,我们提出了一种基于任务特定批量归一化和分类器头结合OOD检测的类别增量学习方法。该方法在医学图像数据集Skin8、Path16以及自然图像数据集CIFAR100和CUB200上取得了最先进的性能。泛化实验进一步证实了我们的方法的可适应性

CRediT作者贡献声明

周志平:撰写——原始草案、方法论、研究
谢旭晨:撰写——原始草案、方法论、研究
邱一桥:撰写——原始草案、形式分析、数据整理
林润:撰写——原始草案、形式分析、数据整理
郑伟石:撰写——审阅与编辑、撰写——原始草案
王瑞轩:撰写——审阅与编辑、撰写——原始草案

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了国家自然科学基金(项目编号62071502)的支持。
周志平目前是中山大学的研究生。他于2024年6月获得华南理工大学的学士学位。他的研究兴趣包括机器学习和深度学习,特别是持续学习、分布外检测和多模态模型。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号