《Neurocomputing》:Dynamic transformer architecture for continual learning of multimodal tasks
编辑推荐:
针对多模态持续学习中的灾难性遗忘和计算需求问题,本文提出TAM-CL框架,通过动态模型扩展、任务注意力机制和知识蒸馏实现跨任务知识迁移,在保持低内存开销的同时显著提升性能,实验验证其优于现有方法4.62%。
作者:Yuliang Cai | Mohammad Rostami
美国加利福尼亚州洛杉矶市,南加州大学,组织与部门系
摘要
Transformer神经网络在各种数据模式的应用中逐渐取代了之前的架构。微调大型预训练Transformer神经网络所需的计算资源和存储空间日益增加,这给这些模型在需要边缘计算的应用中的广泛采用带来了重大挑战。为了解决这一挑战,持续学习(Continual Learning, CL)作为一种解决方案应运而生,它通过促进顺序到来的任务之间的知识迁移,使自主学习代理能够持续学习。然而,当前的CL方法主要集中在仅基于视觉或语言的任务上。我们提出了一种基于Transformer的CL框架,专注于涉及视觉和语言的任务,即视觉与语言(Vision-and-Language, VaL)任务。在我们的框架中,我们利用了新颖的任务注意力模块(Task-Attention Block)和引入的额外参数来针对每个任务对网络进行定制。因此,我们实现了动态模型扩展,以便依次学习多个任务。我们还使用了知识蒸馏(Knowledge Distillation)和经验回放(Experience Replay)来更有效地学习当前任务。我们提出的方法——任务注意力多模态持续学习(Task Attentive Multimodal Continual Learning, TAM-CL)允许任务之间的信息交换,同时减轻了灾难性遗忘(Catastrophic Forgetting)的问题。值得注意的是,我们的方法是可扩展的,且内存开销最小。在具有挑战性的多模态任务上,TAM-CL的准确率比现有的最佳技术(State-of-the-Art, SOTA)高出4.62%。
引言
大型预训练的Transformer模型已应用于包括视觉和语言在内的广泛领域[2]、[3]、[4]、[5]、[6]、[7]。Transformer架构基于编码器和解码器层,实现了自注意力机制[8]。自注意力层通过对序列中令牌的位置进行关联,从序列中提取全局特征向量来实现注意力机制。随后,这一概念被应用于计算机视觉任务[9]、[10]和语音处理任务[11]、[12],方法是使用一系列补丁作为令牌来建模图像。通过对每种语言和图像模态修改基础思想和训练程序,开发出了各种改进的Transformer架构。
通常,Transformer模型会在一个非常大的数据集上进行预训练,然后进行微调以适应特定的下游任务,即使这些任务的特定数据有限。这种方法能够有效地利用从大型数据集中获得的可泛化知识进行迁移学习。然而,在任务层面进行微调可能会削弱模型的泛化能力,因为模型会变得过于特定于任务。此外,还需要为每个任务保留一个单独的基模型版本。随着Transformer架构不断变大,存储多个基模型版本变得实际上不可行。为了解决这些问题,开发了持续学习(Continual Learning, CL)[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]算法来应对Transformer模型中的复杂性。这些算法采用共享模型,利用跨任务的知识迁移来学习顺序出现的任务。目标是使共享模型能够在不降低先前学习任务性能的情况下学习新任务。
在Transformer发明之前,持续学习已经有丰富的先例[22]、[23]、[24]、[25]、[26]。持续学习(CL)的主要障碍是灾难性遗忘(Catastrophic Forgetting)[27],即模型在更新以学习新任务时,对过去学习任务的性能会下降。有几种方法可以解决灾难性遗忘问题。一类CL算法通过规范固定的共享模型,利用不同的信息路径或权重[28]、[29]、[30]来学习不同任务。基于规范的方法的基本概念是识别对编码每个任务所获得的知识至关重要的模型参数子集,然后在更新模型以学习新任务时合并这些参数。另一种方法是模型扩展[31]、[32],其目标是通过添加少量额外权重来扩展基模型,并使用这些权重来学习新任务。最后,一些算法采用伪复习(Pseudo-Rehearsal)与经验回放[33]、[34]、[35]、[36]、[37],该方法涉及将每个任务的代表性训练数据样本存储在内存缓冲区中,并与当前任务的数据一起回放,以保留过去任务的编码知识。某些方法通过使模型能够为先前学习的任务生成伪样本来减少对内存缓冲区的需求,然后在经验回放中使用这些样本。将零样本学习(Zero-Shot Learning, ZSL)[38]、[39]、[40]整合到持续学习框架中是很有吸引力的,因为它可以在出现新任务时减少重新训练的需要,并通过将部分学习负担转移到语义层面来降低灾难性遗忘的风险。尽管这些方法有效,但现有的CL技术是为单模态任务设计的,例如仅涉及视觉[41]、[42]、[43]或语言[13]、[14]的任务,并没有解决多模态任务(如视觉与语言VaL任务)所带来的独特挑战。采用单模态方法的一个主要原因是,在Transformer架构出现之前,每种模态的特定神经网络架构差异很大,例如卷积神经网络与循环神经网络。由于Transformer的基本思想在不同数据模态中表现良好,我们可能能够使用单一的统一架构来融合来自不同模态的输入。
更具体地说,我们提出了一种用于在CL框架内学习涉及视觉和语言(VaL)任务的新算法。在我们的工作中,我们利用了Transformer中的动态模型扩展。为此,我们使用基础的双模态Transformer的自注意力层作为所有任务的共享编码器。随后,我们通过添加任务注意力层[43]、[44]、[45]来增强基模型,这些层通过引入特定于任务的令牌来为每个任务定制模型。我们的方法内存开销最小,并且在测试期间仅略微增加了推理时间。此外,它不需要大量的超参数调整,并且即使在任务数量未知的情况下也能保持灵活性。我们的独特贡献包括:
•一种基于任务注意力层的动态扩展、高效的Transformer架构,使模型能够关注任务。
•一种训练算法,用于处理多样化的、顺序到来的视觉与语言任务,如视觉问答、视觉蕴含和视觉推理。
•广泛的实验表明,所提出的模型与现有基线相比达到了最佳性能(SOTA)。
章节片段
用于视觉和语言任务的Transformer
已经开发了多模态Transformer来处理涉及视觉和语言(VaL)的任务[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40]、[41]、[42]、[43]、[44]、[45]、[46]–49。这些Transformer的基本概念是在每种模态上使用自注意力层来提取相关信息
问题描述
考虑一组按顺序引入的视觉与语言(VaL)任务,每个任务都附带有一个带注释的训练数据集 = ,其中代表图像输入,代表语言输入,而是文本类型的离散标签。值得注意的是,这些任务的顺序以及是事先不知道的,代理在没有任何先验知识的情况下遇到这些任务。假设的训练数据点是从特定于任务的联合分布中独立同分布(iid)抽取的。
提出的方法
更具体地说,图2展示了我们在多模态学习场景中基于Transformer的持续学习架构。该架构由一个共享的预训练可替换多模态Transformer、一个共享的非预训练任务注意力块以及特定于任务的MLP分类头组成。使用特定于任务的头可以学习不共享相同输出空间的任务。为了使模型能够适应顺序到来的任务,任务注意力块
持续学习流程
在第4节中,我们介绍了我们提出的方法TAM-CL的组成部分。为了使模型能够以持续学习的方式学习顺序到来的任务,我们设计了一个持续学习训练流程,与TAM-CL模块配合使用,以防止先前任务的灾难性遗忘。我们在图2中展示了持续学习流程。假设模型已经完成了对任务的训练:
实验结果
作为一种用于解决视觉-语言任务的方法,TAM-CL需要通过视觉问答、视觉理解和视觉推理等任务进行评估。为了测试其防止灾难性遗忘的能力,我们选择了五个独立的多模态数据集进行评估,并将这些数据集按顺序呈现给该架构。此外,为了证明TAM-CL是一种有竞争力的方法,我们选择了五种基线方法进行比较。
结论
我们开发了一种基于Transformer架构的多模态持续学习算法。我们的方法包括动态模型扩展、特定于任务的注意力、知识蒸馏和经验回放,以减轻灾难性遗忘并实现积极的知识迁移。实验证明了该方法的有效性,在前向迁移和灾难性遗忘方面都达到了最佳性能。
CRediT作者贡献声明
Yuliang Cai:撰写——审阅与编辑、撰写——初稿、可视化、验证、软件开发、形式分析、数据整理、概念化。Mohammad Rostami:撰写——审阅与编辑、撰写——初稿、验证、监督、方法论研究、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能会影响本文报告的工作。
Yuliang Cai于2022年从南加州大学(UCSD)获得学士学位。他目前是南加州大学的博士候选人。