DUKAE:基于预训练模型的双层次知识积累与集成方法,用于持续学习
《Pattern Recognition》:DUKAE: DUal-level Knowledge Accumulation and Ensemble for pre-trained model-based continual learning
【字体:
大
中
小
】
时间:2026年05月02日
来源:Pattern Recognition 7.6
编辑推荐:
宋泽李|苏同华|张旭瑶|徐启星|王忠杰
哈尔滨工业大学,哈尔滨,中国
摘要
基于预训练模型的持续学习(PTMCL)受到了越来越多的关注,因为它能够通过利用预训练模型(PTM)中固有的广泛基础理解来更快地获取新知识。大多数现有的PTMCL方法使用参数高效微调(PEFT)来学习新知
宋泽李|苏同华|张旭瑶|徐启星|王忠杰
哈尔滨工业大学,哈尔滨,中国
摘要
基于预训练模型的持续学习(PTMCL)受到了越来越多的关注,因为它能够通过利用预训练模型(PTM)中固有的广泛基础理解来更快地获取新知识。大多数现有的PTMCL方法使用参数高效微调(PEFT)来学习新知识,同时巩固现有记忆。然而,它们经常面临一些挑战。一个主要挑战是分类头的不对齐,因为每个任务的分类头都是在不同的特征空间中训练的,导致任务之间的决策边界不一致,从而增加了遗忘。另一个关键限制是特征级知识积累的局限性,特征学习通常仅限于初始任务,这限制了模型的表示能力。为了解决这些问题,我们提出了一种名为“双级知识积累与集成”(DUKAE)的方法,该方法通过分布采样将分类头对齐到一个统一的特征空间,并引入自适应专家集成(AEE)来融合不同特征子空间中的知识。在CIFAR-100、ImageNet-R、CUB-200和Cars-196数据集上的广泛实验证明了我们方法的优越性能。
引言
持续学习旨在从连续的数据流中逐步获取新知识,同时保留之前学到的信息。传统上,持续学习涉及从随机初始化的参数空间开始,并逐步积累新知识。近年来,随着预训练模型(PTM)在自然语言处理[1]、[2]和计算机视觉[3]、[4]中的广泛应用,基于PTM的持续学习(PTMCL)领域的研究越来越多。得益于PTM强大的基础知识,PTMCL方法就像站在巨人的肩膀上,知识是在一个先进的起点上积累的。这些方法显著优于从零开始并逐步积累知识的传统持续学习方法。
当前的PTMCL方法通常可以分为两类。第一类[5]将PTM的参数视为一个新的起点,连续更新整个PTM的参数,而不添加任何额外参数。第二类[6]、[7]、[8]、[9]更为常见,它们保持PTM的参数不变,通过参数高效微调(PEFT)[10]来获取新知识。这些基于PEFT的方法微调额外的参数以学习特定于任务的知识,同时保留PTM的强大表示能力。通常,它们为每个任务微调一小部分参数,并将这些额外参数缓存起来以保留知识。在推理过程中,通过选择与推理样本最相关的PEFT模块[6]、[7]、[11]或整合所有特定于任务的PEFT模块[8]来维护先前任务的记忆。
尽管这些方法有优势,但它们也面临重大挑战。一个主要问题是每个特定于任务的分类头都是在不同的特征空间中学习的,并且一旦学习完成就保持不变[6]、[7]、[8]、[9],从而导致分类头不对齐的问题(见图1a)。任务之间分类头的不对齐会导致任务间比较的一致性不足,从而导致错误分类,进而增加遗忘。一些方法[12]、[13]通过将特征网络的学习限制在初始任务上来避免不对齐问题(见图1b)。然而,这些方法仅依赖第一个任务的数据来训练特征网络,没有利用后续数据来增强表示能力。因此,它们的性能受到特征区分能力的限制。
为了解决这些挑战,我们提出了一种新颖的双级知识积累与集成(DUKAE)方法,该方法首次同时利用特征级和决策级的知识积累,通过学习特定于任务的特征子空间和相应的子空间对齐的分类器,然后通过创新的集成方法来整合这些子空间中的知识(见图1c)。通常,我们首先使用PEFT为每个新任务学习特定于任务的特征网络模块,并结合自监督学习(SSL)来增强特征网络的表示能力。微调后的PEFT模块以及来自先前任务的模块被累积到一个PEFT模块池中,每个模块定义一个独立的特征子空间。为了解决不对齐问题,我们使用高斯分布为每个特征子空间训练对齐的分类器,这些分布存储在所有现有特征子空间中的每个类别中。最后,通过我们的自适应专家集成(AEE),我们的方法可以有效地利用PEFT模块积累的特征级知识和子空间对齐分类器的决策级知识,从而增强记忆保留能力。我们的贡献总结如下:
- 我们提出了一种双级知识积累的PTMCL方法,同时利用特征级和决策级知识积累。
- 我们提出了一种新颖的AEE,以促进来自不同特征子空间的知识的高效集成。
- 我们进行了广泛的实证评估,证明我们的方法达到了最先进(SOTA)的性能。
相关工作
持续学习,也称为增量学习或终身学习,是一个研究领域,旨在使模型能够从连续的数据流中学习而不会发生灾难性遗忘。它通常可以分为三种场景:类增量学习(CIL)[14]、[15]、领域增量学习(DIL)[16]和任务增量学习(TIL)[17],其中CIL是最具挑战性和研究最广泛的[18]、[19]。
PTMCL的构建
持续学习旨在从一系列任务数据{D1,D2,…,DT}中逐步获取新知识,同时保留之前学到的知识。对于每个任务t,训练集Dt定义为Dt={(xt,n,yt,n)}n=1Nt,其中Nt表示数据标签对的数量,xt,n∈Xt表示输入样本,yt,n∈Yt是相关的标签。每个任务t引入了一组新类别Ct,类别的数量用|Ct|表示,并且类别集合之间没有重叠。
双级知识积累与集成
尽管我们的基础方法解决了分类器不对齐的问题,但其性能本质上受到特征网络fP1(?)有限的特征区分能力的限制。由于fP1(?)主要学习与第一个任务相关的特征,因此它不会为后续任务积累新的特征知识。然而,在不同任务的数据上训练的特征网络可能表现出不同的区分能力。如图3所示,当我们进行训练时...
实验
在本节中,我们描述了实验设置,并展示了我们提出的方法与九种PTMCL方法相比的结果。
结论与未来工作
在本文中,我们介绍了DUKAE,一种用于PTMCL的双级知识积累与集成框架。我们的方法通过学习子空间对齐的分类器,解决了基于PEFT的PTMCL中的一个关键挑战——任务诱导的特征子空间之间的分类器不对齐问题。此外,所提出的AEE提供了一种原则性的方法来整合来自多个累积子空间的预测,提供了关于如何整合异构的特定于任务的知识的多专家视角。
作者贡献声明
宋泽李:撰写——审稿与编辑、撰写——原始草稿、可视化、验证、软件、项目管理、方法论、概念化。
苏同华:撰写——审稿与编辑、监督、资源、方法论、资金获取、形式分析、概念化。
张旭瑶:撰写——审稿与编辑、资源、形式分析。
徐启星:可视化、验证、软件。
王忠杰:监督、资源、资金获取、形式分析。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国家重点研发计划(项目编号2024YFB3309400)、国家自然科学基金(项目编号62277011)、重庆智能技术与数字经济研究院项目(项目编号YJX-2025001001009)、广东人工智能与数字经济实验室开放研究基金(项目编号GML-KF-24-18)和CAAI-CANN开放基金的支持。
宋泽李于2016年获得哈尔滨工业大学软件学院的学士学位,目前正在哈尔滨工业大学攻读软件工程博士学位。他的研究兴趣包括持续学习、计算机视觉和边缘计算。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号