一个结合长期记忆网络和多个短期记忆网络的持续学习框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：A Continual Learning Framework with Long-Term and Multiple Short-Term Memory Networks

【字体：大中小】 时间：2026年02月27日 来源：Neural Networks 6.3

编辑推荐：

　　持续学习框架LaMuS通过引入多个短期记忆网络与一个长期记忆网络，结合高斯混合模型约束解决知识整合难题，有效平衡稳定性与可塑性。

刘尚格|王磊|严瑞|霍静|李文斌|高阳

南京大学新型软件技术国家重点实验室，南京，210008，中国

摘要

持续学习旨在在保持稳定性和可塑性的同时逐步积累知识。大多数现有方法侧重于减轻灾难性遗忘，但往往以牺牲可塑性为代价。虽然引入辅助记忆组件来关注新任务数据可以有效提高可塑性，但使用单一网络可能不足以捕捉新任务中的全部知识多样性。受到神经科学研究强调的丰富、分布式记忆表示价值的启发，我们提出了一种新框架，该框架结合了多个短期记忆网络来捕获多样化的任务特定知识，并通过长期记忆网络来保留先前的知识。为了最大化该框架的潜力，我们指出了常用的基于欧几里得距离的正则化方法的局限性，并开发了一种基于高斯混合模型（GMM）的正则化方法，以鼓励从多个短期网络中灵活选择和整合知识。通过对各种基准测试的理论分析和实验研究，证明了我们的框架在更好地平衡知识保留和新学习方面的有效性和优势。此外，我们的框架与各种基于权重正则化的算法以及采用带有回放的功能正则化的方法兼容，为在不同范式中增强持续学习提供了一种多功能的方法。

引言

持续学习的目标是使人工智能系统能够从一系列任务中学习和积累知识（Parisi, Kemker, Part, Kanan, Wermter, 2019a, Parisi, Kemker, Part, Kanan, Wermter, 2019b; Roy et al. (2023); Wang et al. (2024)）。持续学习中的一个关键挑战是稳定性与可塑性的平衡问题，即如何在保留先前获得的知识（稳定性）和学习新任务的能力（可塑性）之间找到平衡（De Lange et al. (2021); Kim et al. (2023); Wang et al. (2024)）。

目前大多数方法（Bhat et al. (2023); Sun et al. (2023); Wang et al. (2022)）优先考虑稳定性以减轻灾难性遗忘（French (1999); McCloskey and Cohen (1989)）。这通常会限制可塑性，阻碍模型学习新任务的能力（Peng et al. (2024); Wang et al. (2024)）。受到互补学习系统理论（McCllland et al. (1995)以及大脑中短期记忆与长期记忆之间相互作用的启发（Kumaran et al. (2016); Parisi et al. (2018)），一些持续学习方法结合了短期记忆和长期记忆组件来解决稳定性与可塑性的问题（Arani et al. (2022); Kamra et al. (2017); Kemker and Kanan (2017); Peng et al. (2024)）。特别是，一些研究探索了辅助记忆组件来存储和处理任务特定知识（Kim et al. (2023); Peng et al. (2024); Wang, Zhang, Jia, Li, Bao, Ma, Zhu, Zhong, 2021b, Wang, Zhang, Li, Zhang, Su, Zhu, Zhong, 2023），以提高可塑性。在基于权重正则化的方法中，如辅助网络持续学习（ANCL）（Kim et al. (2023）引入了专门用于新任务的辅助网络来增强可塑性。同样，在基于功能正则化并带有回放的方法中，如带有经验回放的互补学习系统（CLS-ER）（Arani et al. (2022）通过模型权重的指数移动平均（EMA）维护两个互补的网络：一个能够快速适应新任务的灵活模型和一个能够保留长期知识的稳定模型。为了术语的一致性，我们将保留先前任务知识的网络称为长期记忆网络，将快速适应新任务的网络称为短期记忆网络。

尽管取得了进展，但这些方法都有一个根本性的局限性。它们通常依赖于单一的短期记忆组件，这限制了捕捉和利用新任务中多样化信息的能力。从两个角度来看待这一局限性：1）从神经科学的角度来看，研究表明海马体可以通过分布式激活模式形成多样化的记忆表示（Leutgeb et al. (2007); O’Reilly and Rudy (2001）。这些多样化的记忆表示能够高效编码不同的信息（GoodSmith et al. (2017)，并且分布式激活模式有助于信息处理和学习（Kuchibhotla et al. (2017)）。这一生物学证据表明，在人工智能系统中部署和维护多个记忆网络的潜在好处。2）从优化的角度来看，当只使用单一记忆网络时，我们将面临预先识别最适合整合的网络的挑战。

这种情况促使我们考虑使用多个短期记忆网络，并利用优化过程自动识别最佳组合的短期记忆网络与长期记忆网络进行整合。基于这一想法，我们提出了一个名为长期和多个短期记忆网络（LaMuS）的新框架用于持续学习。如图1d所示，所提出的框架引入了多个短期记忆网络以及一个长期记忆网络。多个网络的存在使我们的模型能够从不同角度学习新任务并更灵活地适应它们。同时，长期记忆网络保留了先前获得的知识，在稳定性和可塑性之间取得了平衡。

然而，所提出的框架面临的一个关键挑战是如何有效地将这些多个短期记忆网络与长期记忆网络整合在一起。现有的持续学习方法在整合单一短期记忆网络时通常采用基于欧几里得距离的约束，无论是通过对网络权重的参数约束（例如ANCL-EWC中的

L_{2}

（Kim et al. (2023)）还是特征对齐（例如CLS-ER中的MSE损失（Arani et al. (2022)）。虽然这些方法对单一网络有效，但直接将这样的欧几里得距离正则化应用于多个网络并通过求和组合时会遇到问题。由于凸函数之和仍然是凸的，将这些约束应用于多个网络不可避免地会导致优化结果趋向于一个“平均”点。这与我们引入多个短期记忆网络并利用优化过程自动识别最佳短期网络集的目标相矛盾。为了解决这个问题，我们进一步设计了一种基于高斯混合模型（GMM）（Bishop and Nasrabadi (2006）的新正则化方案，以同时支持多个模式，每个模式对应于其中一个短期记忆网络。这种方案有效地避免了上述“平均”效应，并促进了合适短期网络的自动整合。

为了展示所提出的LaMuS框架的通用性，我们沿着两条平行路径对其进行了实现。首先，我们通过用多个短期记忆网络替换ANCL（Kim et al. (2023)中的单一辅助网络，并通过基于GMM的正则化方法来增强基于权重正则化的方法。其次，我们通过用多个塑性模型替换CLS-ER（Arani et al. (2022)中的单一塑性模型，并再次使用基于GMM的正则化方法来改进结合回放与功能正则化的方法，以实现有效的知识整合。

我们的主要贡献可以总结如下：

•
提出了一种新的持续学习框架，利用多个短期记忆网络来适应新任务的多样化信息。这种方法在保持稳定性的同时增强了可塑性。
•
设计了一种创新且基于数学原理的正则化方法，用于在持续学习的背景下整合记忆网络。与直接使用基于欧几里得距离的正则化方法相比，这种方法提供了更有效的正则化。
•
我们通过将其应用于基于权重正则化的方法和结合功能正则化与回放的方法来实例化我们的框架，展示了所提出框架的通用性。
•
在各种基准测试上进行了广泛的实验，证明了所提出框架在平衡稳定性和可塑性方面的有效性。还对该框架与相关CL方法进行了彻底的分析和比较。

提出的方法

在本节中，我们介绍了长期和多个短期记忆网络（LaMuS）框架。首先，我们建立了持续学习中正则化的统一视图。然后，我们介绍了从单一辅助组件扩展到多个短期记忆网络的过程，并指出了在整合多样化知识时结合凸约束的局限性。接着，我们提出了一种基于高斯混合模型（GMM）的非凸正则化方案，以有效利用

基于权重正则化的方法实验

在本节中，我们专注于将我们的框架应用于基于权重正则化的持续学习方法，并在任务增量学习（TIL）场景中评估我们的LaMuS框架，因为基于权重正则化的方法非常适合TIL场景。

结合回放的功能正则化方法实验

在本节中，我们通过结合功能正则化与回放的方法来展示我们的框架，并在类别增量学习（CIL）这一更具通用性和挑战性的场景中评估LaMuS框架。

结论

本文提出了LaMuS框架，该框架通过整合多个短期记忆网络与长期记忆网络来解决稳定性与可塑性的平衡问题。广泛的分析表明，使用多个记忆网络通过从不同角度捕获多样化的知识表示更为有效。这表明分布式记忆表示不仅在生物系统中有益，在人工神经网络中也是如此。

CRediT作者贡献声明

刘尚格：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论，调查，概念化。王磊：撰写 – 审稿与编辑，方法论，调查，概念化。严瑞：撰写 – 审稿与编辑，验证，方法论。霍静：撰写 – 审稿与编辑，形式分析，概念化。李文斌：撰写 – 审稿与编辑，撰写 – 原始草稿，方法论，调查，概念化。高阳：监督，方法论，

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国科学技术协会青年精英科学家资助计划（2023QNRC001）、国家自然科学基金（62192783, 62276128）和江苏省自然科学基金（BK20221441）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作