持续学习的目标是使人工智能系统能够从一系列任务中学习和积累知识(Parisi, Kemker, Part, Kanan, Wermter, 2019a, Parisi, Kemker, Part, Kanan, Wermter, 2019b; Roy et al. (2023); Wang et al. (2024))。持续学习中的一个关键挑战是稳定性与可塑性的平衡问题,即如何在保留先前获得的知识(稳定性)和学习新任务的能力(可塑性)之间找到平衡(De Lange et al. (2021); Kim et al. (2023); Wang et al. (2024))。
目前大多数方法(Bhat et al. (2023); Sun et al. (2023); Wang et al. (2022))优先考虑稳定性以减轻灾难性遗忘(French (1999); McCloskey and Cohen (1989))。这通常会限制可塑性,阻碍模型学习新任务的能力(Peng et al. (2024); Wang et al. (2024))。受到互补学习系统理论(McCllland et al. (1995)以及大脑中短期记忆与长期记忆之间相互作用的启发(Kumaran et al. (2016); Parisi et al. (2018)),一些持续学习方法结合了短期记忆和长期记忆组件来解决稳定性与可塑性的问题(Arani et al. (2022); Kamra et al. (2017); Kemker and Kanan (2017); Peng et al. (2024))。特别是,一些研究探索了辅助记忆组件来存储和处理任务特定知识(Kim et al. (2023); Peng et al. (2024); Wang, Zhang, Jia, Li, Bao, Ma, Zhu, Zhong, 2021b, Wang, Zhang, Li, Zhang, Su, Zhu, Zhong, 2023),以提高可塑性。在基于权重正则化的方法中,如辅助网络持续学习(ANCL)(Kim et al. (2023)引入了专门用于新任务的辅助网络来增强可塑性。同样,在基于功能正则化并带有回放的方法中,如带有经验回放的互补学习系统(CLS-ER)(Arani et al. (2022)通过模型权重的指数移动平均(EMA)维护两个互补的网络:一个能够快速适应新任务的灵活模型和一个能够保留长期知识的稳定模型。为了术语的一致性,我们将保留先前任务知识的网络称为长期记忆网络,将快速适应新任务的网络称为短期记忆网络。
尽管取得了进展,但这些方法都有一个根本性的局限性。它们通常依赖于单一的短期记忆组件,这限制了捕捉和利用新任务中多样化信息的能力。从两个角度来看待这一局限性:1)从神经科学的角度来看,研究表明海马体可以通过分布式激活模式形成多样化的记忆表示(Leutgeb et al. (2007); O’Reilly and Rudy (2001)。这些多样化的记忆表示能够高效编码不同的信息(GoodSmith et al. (2017),并且分布式激活模式有助于信息处理和学习(Kuchibhotla et al. (2017))。这一生物学证据表明,在人工智能系统中部署和维护多个记忆网络的潜在好处。2)从优化的角度来看,当只使用单一记忆网络时,我们将面临预先识别最适合整合的网络的挑战。
然而,所提出的框架面临的一个关键挑战是如何有效地将这些多个短期记忆网络与长期记忆网络整合在一起。现有的持续学习方法在整合单一短期记忆网络时通常采用基于欧几里得距离的约束,无论是通过对网络权重的参数约束(例如ANCL-EWC中的(Kim et al. (2023))还是特征对齐(例如CLS-ER中的MSE损失(Arani et al. (2022))。虽然这些方法对单一网络有效,但直接将这样的欧几里得距离正则化应用于多个网络并通过求和组合时会遇到问题。由于凸函数之和仍然是凸的,将这些约束应用于多个网络不可避免地会导致优化结果趋向于一个“平均”点。这与我们引入多个短期记忆网络并利用优化过程自动识别最佳短期网络集的目标相矛盾。为了解决这个问题,我们进一步设计了一种基于高斯混合模型(GMM)(Bishop and Nasrabadi (2006)的新正则化方案,以同时支持多个模式,每个模式对应于其中一个短期记忆网络。这种方案有效地避免了上述“平均”效应,并促进了合适短期网络的自动整合。
为了展示所提出的LaMuS框架的通用性,我们沿着两条平行路径对其进行了实现。首先,我们通过用多个短期记忆网络替换ANCL(Kim et al. (2023)中的单一辅助网络,并通过基于GMM的正则化方法来增强基于权重正则化的方法。其次,我们通过用多个塑性模型替换CLS-ER(Arani et al. (2022)中的单一塑性模型,并再次使用基于GMM的正则化方法来改进结合回放与功能正则化的方法,以实现有效的知识整合。