
-
生物通官微
陪你抓住生命科技
跳动的脉搏
用于缓解多模态学习中灾难性遗忘的视觉-语言高效调优方法
【字体: 大 中 小 】 时间:2026年03月11日 来源:INTERNATIONAL JOURNAL OF COMPUTER VISION 9.3
编辑推荐:
参数高效调优多模态模型时,现有方法单模态调优无法充分挖掘模型泛化能力,而多模态调优存在灾难性遗忘问题。本文提出VioLET框架,通过协同多模态梯度解决模态耦合冲突,并利用语言超球面能量控制实现高效调优,在ResNet-50和ViT/B-16上验证新类泛化与少样本识别性能优势,同时降低27%内存和36%训练时间。
参数高效调优(Parameter-Efficient Tuning, PET)已被广泛研究,用于将预训练的视觉语言模型(Vision-Language Models, VLMs)适配到各种下游任务中。大多数现有的PET方法仅限于对文本模态进行单模态调优,无法充分利用VLMs的泛化能力。最近的多模态调优方法在泛化到未见类别时会出现性能急剧下降的问题,且会带来显著的内存和计算开销。在本文中,我们揭示了多模态遗忘问题——该问题会破坏模型在同时调优视觉特征和文本嵌入时的耦合性,并提出了一种新颖的、基于视觉语言的高效调优框架(ViSiOnLanguageEfficient Tuning, VioLET)来解决这一问题。我们首先提出了VioLET-CMG,该框架通过引入额外的视觉编码器来利用协同多模态梯度(Collaborative Multi-Modal Gradients, CMG),以提供额外的文本梯度来调节多模态调优过程。VioLET-CMG避免了视觉和文本梯度之间的冲突,并通过文本梯度正交化确保了模态间的耦合性。此外,我们还提出了VioLET-CarE,该框架通过控制语言超球能量(Language HypeSpherical Energy, CarE)来消除额外的视觉编码器,从而实现准正交的文本调优,使得VioLET-CMG能够进行协同多模态梯度计算。VioLET-CarE通过加性的低秩特征变换提升了文本调优的计算效率。实验结果表明,所提出的VioLET框架在使用ResNet-50和ViT/B-16作为骨干网络的情况下,在新类别泛化和少量样本识别任务中始终能够达到最佳性能。值得注意的是,与VioLET-CMG相比,VioLET-CarE平均降低了27%的GPU内存成本和36%的训练时间,同时提升了泛化能力。
参数高效调优(Parameter-Efficient Tuning, PET)已被广泛研究,用于将预训练的视觉语言模型(Vision-Language Models, VLMs)适配到各种下游任务中。大多数现有的PET方法仅限于对文本模态进行单模态调优,无法充分利用VLMs的泛化能力。最近的多模态调优方法在泛化到未见类别时会出现性能急剧下降的问题,且会带来显著的内存和计算开销。在本文中,我们揭示了多模态遗忘问题——该问题会破坏模型在同时调优视觉特征和文本嵌入时的耦合性,并提出了一种新颖的、基于视觉语言的高效调优框架(ViSiOnLanguageEfficient Tuning, VioLET)来解决这一问题。我们首先提出了VioLET-CMG,该框架通过引入额外的视觉编码器来利用协同多模态梯度(Collaborative Multi-Modal Gradients, CMG),以提供额外的文本梯度来调节多模态调优过程。VioLET-CMG避免了视觉和文本梯度之间的冲突,并通过文本梯度正交化确保了模态间的耦合性。此外,我们还提出了VioLET-CarE,该框架通过控制语言超球能量(Language HypeSpherical Energy, CarE)来消除额外的视觉编码器,从而实现准正交的文本调优,使得VioLET-CMG能够进行协同多模态梯度计算。VioLET-CarE通过加性的低秩特征变换提升了文本调优的计算效率。实验结果表明,所提出的VioLET框架在使用ResNet-50和ViT/B-16作为骨干网络的情况下,在新类别泛化和少量样本识别任务中始终能够达到最佳性能。值得注意的是,与VioLET-CMG相比,VioLET-CarE平均降低了27%的GPU内存成本和36%的训练时间,同时提升了泛化能力。