视觉-语言模型(VLMs),如CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年),在大规模的图像-文本对上进行训练,利用丰富的自然语言监督来进行开放集视觉概念的推理。这些模型通常使用手动设计的提示模板,在模板中嵌入下游任务的类别名称,例如“一张{类别名称}的照片”。然后文本编码器为提示生成文本嵌入,该嵌入与图像编码器生成的图像嵌入匹配以进行预测。尽管精心设计的提示可以显著提高VLMs的性能,但手动设计这些模板的过程耗时且劳动密集,需要大量的语言调整以确保提示与图像之间的准确对齐。
最近,诸如提示学习(Zang, Goh, Susskind, & Huang, Zheng, Wei, Hu, Zhu, & Nevatia, Zhou, Yang, Loy, Liu, 2022a, Zhou, Yang, Loy, Liu, 2022b)和适配器学习(Gao, Geng, Zhang, Ma, Fang, Zhang, Li, Qiao, 2024, Li, Lian, Lu, Bai, Chen, Wang, 2024a, Yu, Lu, Jin, Chen, Wang, 2023)等方法引入了可学习的权重向量,作为手动词调优的替代方案。这些方法利用少量样本数据有效调整了冻结的VLMs编码器的输入-输出特征空间,避免了由于微调整个VLMs可能导致的灾难性遗忘和过拟合(Shu, Guo, Wu, Wang, Wang, Long, 2023, Zhou, Yang, Loy, Liu, 2022b),从而提高了下游任务的泛化性能。其中,提示学习因其适应和泛化不同任务的效率而受到广泛关注。如表1所示,它大致可以分为两类:(1)领域共享提示。领域共享提示涉及学习在所有类别或实例(图像)之间共享的上下文提示,无论它们属于文本分支(Yao, Zhang, Xu, 2024, Zhang, Wu, Gao, Shen, Song, 2024a, Zhou, Yang, Loy, Liu, 2022b)、视觉分支(Jia, Tang, Chen, Cardie, Belongie, Hariharan, Lim, 2022, Zang, Li, Zhou, Huang, & Loy)还是两者兼有(Khattak, Rasheed, Maaz, Khan, Khan, 2023a, Wang, Yan, Ding, 2024)。然而,这些方法仅关注有限的基类(已见类),未能捕捉更广泛的图像特定信息。此外,通过在最终输出层的特征级别对齐视觉和文本模态,VLMs往往会偏离其预训练的多模态空间。(2)图像条件提示。图像条件提示(Zhou等人,2022a)将图像特征与文本上下文提示相结合,提供实例级别的知识,从而增强提示的鲁棒性和对新类别的泛化能力。尽管使用了瓶颈层来桥接图像和文本特征空间,但单个图像特征仍然容易受到单样本偏差的影响,并且缺乏类别嵌入分布建模。这限制了模型对新(未见)图像或类别的泛化能力,并增加了过拟合的风险。为了显式建模类别嵌入分布,通常使用大型语言模型(LLMs)(Achiam, Adler, Agarwal, Ahmad, Akkaya, Aleman, Almeida, Altenschmidt, Altman, Anadkat等人,Touvron, Martin, Stone, Albert, Almahairi, Babaei, Bashlykov, Bhargava, Bhosale等人)来提供特定类别的知识,并从每个类别的文本特征中提取关键信息以适应下游任务。然而,类别级信息可能会增加微调模型对类别变化的敏感性,从而对其新类别泛化性能产生负面影响。相比之下,提取外部知识应基于对单个图像实例及其所属类别的全面理解。这有助于减轻类别变化的影响,并为每个实例提供更细粒度的表示,从而提高VLMs的泛化能力。
最近在多模态大语言模型(MLLMs)(Li, Li, Savarese, & Hoi, Liu, Li, Wu, Lee, 2024a, Zhu, Chen, Shen, Li, & Elhoseiny)方面的进展使它们能够作为单个图像实例的“领域专家”,提供相应的图像标题,如图1(a)所示,其中包含实例特定信息(例如“奥运会比赛”)、粗粒度类别信息(例如“平衡木”)和一般知识(例如“一个女人”)。图像标题不仅描述了图像中的对象信息,还捕获了高级关联信息,例如对象与其周围环境或其他对象之间的语义关系和上下文依赖性。例如,标题“跑道上的白色和蓝色飞机”反映了对象“飞机”与场景“跑道”之间的空间语义关系。与CoCoOp(Zhou等人,2022a)中使用的图像特征相比,图像标题中的这种高级语义信息有助于提示学习获取超出单个图像特征的复杂语义知识,从而进一步优化VLMs中类别嵌入分布的建模(如图1(b)所示)。值得注意的是,MLLMs只能提供粗粒度类别信息,因为它们的预训练数据与下游任务的特定任务数据不对齐。即使提供了一组参考类别名称,MLLMs也常常难以准确推断出正确的细粒度类别标签。最近的研究(Zhang等人,2024b)表明,关键分类信息编码在MLLMs的潜在空间中,有效解码这些特征需要在下游训练数据上进行大规模微调。然而,这种微调过程计算成本高昂且耗时。
为了缓解先前方法的局限性,我们提出了MuGCP,这是一种新颖的多模态互导条件提示学习框架。MuGCP通过集成语义条件提示(SCP)和视觉条件提示(VCP)来增强类别嵌入建模,同时通过我们提出的注意力互导(AMG)模块和多提示融合(MPF)机制促进多模态空间内的实例级别对齐和交互,从而提高整体性能。具体来说,MuGCP利用VLMs的少量样本学习能力自适应解码MLLMs的内部特征表示,从而为每个实例生成富含细粒度高级语义知识的SCP。这有助于缓解在VLMs中显式建模类别嵌入分布的挑战,同时避免了在大规模数据集上微调MLLMs的计算开销。AMG模块生成语义丰富的VCP,与SCP一起动态对齐文本和视觉的表示空间,促进信息融合、特征选择和非线性建模。MPF机制将VCP和SCP与上下文提示相结合,利用编码器内的冻结Transformer层捕获判别特征,确保有效的协调,提高类别嵌入和实例特定知识之间的学习和建模。最后,基于MLLMs的文本增强用于在提示学习过程中强制一致性约束,进一步提高模型的鲁棒性。
我们的主要贡献总结如下:
•我们提出了MuGCP,这是一个有效且灵活的框架,它利用MLLMs作为多模态条件提示学习器,自适应增强提示学习方法显式建模类别嵌入分布的能力。此外,MuGCP可以无缝替代其他主流MLLMs,促进它们与VLMs的集成。
•AMG模块和MPF机制旨在增强实例级别的跨层和跨模态互导交互,实现信息融合、特征选择和非线性建模,并将它们与上下文提示结合,以协调类别嵌入和实例特定知识的建模。
•实验表明,MuGCP在14个不同数据集上的零样本泛化和少量样本分类任务中均优于现有的最先进方法。