用于视觉-语言模型的多模态互导条件提示学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Exploratory Research in Clinical and Social Pharmacy》：Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models

【字体：大中小】 时间：2026年03月21日 来源：Exploratory Research in Clinical and Social Pharmacy 1.8

编辑推荐：

　　多模态条件提示学习框架MuGCP通过语义条件提示与视觉条件提示的互指导机制和融合策略，有效提升视觉语言模型在零样本和少样本分类任务中的表现，并在14个数据集上验证优于现有方法。

杨世军|张翔|赵万青|胡奇瑶|彭贤林

西北大学电子信息学院（人工智能学院），中国陕西省西安市710127

摘要

提示学习有助于视觉-语言模型（VLMs）高效适应各种下游任务。然而，它面临两个主要挑战：（1）对未见实例的类别嵌入分布建模不足，导致在新类别上的泛化能力不佳；（2）现有方法主要将跨模态对齐限制在视觉和文本编码器的最终输出层，这限制了它们与预训练的多模态嵌入空间保持拓扑一致性的能力。受这些挑战的启发，我们提出了MuGCP（多模态互导条件提示学习），这是一种用于条件提示生成的新范式。MuGCP利用多模态大语言模型（MLLMs）作为条件提示学习器，自适应生成语义条件提示（SCP），为图像实例提供细粒度的高级语义知识。为了促进视觉-语言模型（VLMs）多模态空间内的有效对齐和交互，我们引入了注意力互导（AMG）模块。该模块促进了视觉和语义信息之间的相互引导，并生成视觉条件提示（VCP），从而通过多模态条件提示交互实现实例级别的对齐。此外，我们还提出了多提示融合（MPF）机制，将SCP和VCP与上下文提示相结合，促进不同提示之间的无缝协调，并增强类别嵌入和实例特定知识的建模。在14个不同数据集上的广泛实验表明，MuGCP的性能始终优于现有的最先进方法。

引言

视觉-语言模型（VLMs），如CLIP（Radford等人，2021年）和ALIGN（Jia等人，2021年），在大规模的图像-文本对上进行训练，利用丰富的自然语言监督来进行开放集视觉概念的推理。这些模型通常使用手动设计的提示模板，在模板中嵌入下游任务的类别名称，例如“一张{类别名称}的照片”。然后文本编码器为提示生成文本嵌入，该嵌入与图像编码器生成的图像嵌入匹配以进行预测。尽管精心设计的提示可以显著提高VLMs的性能，但手动设计这些模板的过程耗时且劳动密集，需要大量的语言调整以确保提示与图像之间的准确对齐。

最近，诸如提示学习（Zang, Goh, Susskind, & Huang, Zheng, Wei, Hu, Zhu, & Nevatia, Zhou, Yang, Loy, Liu, 2022a, Zhou, Yang, Loy, Liu, 2022b）和适配器学习（Gao, Geng, Zhang, Ma, Fang, Zhang, Li, Qiao, 2024, Li, Lian, Lu, Bai, Chen, Wang, 2024a, Yu, Lu, Jin, Chen, Wang, 2023）等方法引入了可学习的权重向量，作为手动词调优的替代方案。这些方法利用少量样本数据有效调整了冻结的VLMs编码器的输入-输出特征空间，避免了由于微调整个VLMs可能导致的灾难性遗忘和过拟合（Shu, Guo, Wu, Wang, Wang, Long, 2023, Zhou, Yang, Loy, Liu, 2022b），从而提高了下游任务的泛化性能。其中，提示学习因其适应和泛化不同任务的效率而受到广泛关注。如表1所示，它大致可以分为两类：（1）领域共享提示。领域共享提示涉及学习在所有类别或实例（图像）之间共享的上下文提示，无论它们属于文本分支（Yao, Zhang, Xu, 2024, Zhang, Wu, Gao, Shen, Song, 2024a, Zhou, Yang, Loy, Liu, 2022b）、视觉分支（Jia, Tang, Chen, Cardie, Belongie, Hariharan, Lim, 2022, Zang, Li, Zhou, Huang, & Loy）还是两者兼有（Khattak, Rasheed, Maaz, Khan, Khan, 2023a, Wang, Yan, Ding, 2024）。然而，这些方法仅关注有限的基类（已见类），未能捕捉更广泛的图像特定信息。此外，通过在最终输出层的特征级别对齐视觉和文本模态，VLMs往往会偏离其预训练的多模态空间。（2）图像条件提示。图像条件提示（Zhou等人，2022a）将图像特征与文本上下文提示相结合，提供实例级别的知识，从而增强提示的鲁棒性和对新类别的泛化能力。尽管使用了瓶颈层来桥接图像和文本特征空间，但单个图像特征仍然容易受到单样本偏差的影响，并且缺乏类别嵌入分布建模。这限制了模型对新（未见）图像或类别的泛化能力，并增加了过拟合的风险。为了显式建模类别嵌入分布，通常使用大型语言模型（LLMs）（Achiam, Adler, Agarwal, Ahmad, Akkaya, Aleman, Almeida, Altenschmidt, Altman, Anadkat等人，Touvron, Martin, Stone, Albert, Almahairi, Babaei, Bashlykov, Bhargava, Bhosale等人）来提供特定类别的知识，并从每个类别的文本特征中提取关键信息以适应下游任务。然而，类别级信息可能会增加微调模型对类别变化的敏感性，从而对其新类别泛化性能产生负面影响。相比之下，提取外部知识应基于对单个图像实例及其所属类别的全面理解。这有助于减轻类别变化的影响，并为每个实例提供更细粒度的表示，从而提高VLMs的泛化能力。

最近在多模态大语言模型（MLLMs）（Li, Li, Savarese, & Hoi, Liu, Li, Wu, Lee, 2024a, Zhu, Chen, Shen, Li, & Elhoseiny）方面的进展使它们能够作为单个图像实例的“领域专家”，提供相应的图像标题，如图1(a)所示，其中包含实例特定信息（例如“奥运会比赛”）、粗粒度类别信息（例如“平衡木”）和一般知识（例如“一个女人”）。图像标题不仅描述了图像中的对象信息，还捕获了高级关联信息，例如对象与其周围环境或其他对象之间的语义关系和上下文依赖性。例如，标题“跑道上的白色和蓝色飞机”反映了对象“飞机”与场景“跑道”之间的空间语义关系。与CoCoOp（Zhou等人，2022a）中使用的图像特征相比，图像标题中的这种高级语义信息有助于提示学习获取超出单个图像特征的复杂语义知识，从而进一步优化VLMs中类别嵌入分布的建模（如图1(b)所示）。值得注意的是，MLLMs只能提供粗粒度类别信息，因为它们的预训练数据与下游任务的特定任务数据不对齐。即使提供了一组参考类别名称，MLLMs也常常难以准确推断出正确的细粒度类别标签。最近的研究（Zhang等人，2024b）表明，关键分类信息编码在MLLMs的潜在空间中，有效解码这些特征需要在下游训练数据上进行大规模微调。然而，这种微调过程计算成本高昂且耗时。

为了缓解先前方法的局限性，我们提出了MuGCP，这是一种新颖的多模态互导条件提示学习框架。MuGCP通过集成语义条件提示（SCP）和视觉条件提示（VCP）来增强类别嵌入建模，同时通过我们提出的注意力互导（AMG）模块和多提示融合（MPF）机制促进多模态空间内的实例级别对齐和交互，从而提高整体性能。具体来说，MuGCP利用VLMs的少量样本学习能力自适应解码MLLMs的内部特征表示，从而为每个实例生成富含细粒度高级语义知识的SCP。这有助于缓解在VLMs中显式建模类别嵌入分布的挑战，同时避免了在大规模数据集上微调MLLMs的计算开销。AMG模块生成语义丰富的VCP，与SCP一起动态对齐文本和视觉的表示空间，促进信息融合、特征选择和非线性建模。MPF机制将VCP和SCP与上下文提示相结合，利用编码器内的冻结Transformer层捕获判别特征，确保有效的协调，提高类别嵌入和实例特定知识之间的学习和建模。最后，基于MLLMs的文本增强用于在提示学习过程中强制一致性约束，进一步提高模型的鲁棒性。

我们的主要贡献总结如下：

•

我们提出了MuGCP，这是一个有效且灵活的框架，它利用MLLMs作为多模态条件提示学习器，自适应增强提示学习方法显式建模类别嵌入分布的能力。此外，MuGCP可以无缝替代其他主流MLLMs，促进它们与VLMs的集成。

•

AMG模块和MPF机制旨在增强实例级别的跨层和跨模态互导交互，实现信息融合、特征选择和非线性建模，并将它们与上下文提示结合，以协调类别嵌入和实例特定知识的建模。

•

实验表明，MuGCP在14个不同数据集上的零样本泛化和少量样本分类任务中均优于现有的最先进方法。

部分摘录

视觉-语言模型（VLMs）

VLMs通过利用丰富的图像-文本对数据，在视觉表示学习领域取得了显著进展。这些模型旨在学习由自然语言引导的丰富视觉表示，在共享的嵌入空间中对齐文本和图像特征。例如，CLIP（Radford等人，2021年）和ALIGN（Jia等人，2021年）等模型利用大规模图像-文本数据集，展示了强大的多模态知识并促进了跨领域迁移

方法论

我们的MuGCP的整体框架如图2所示。MuGCP利用互学习大语言模型（MLLMs）作为条件提示学习器，自适应生成语义条件提示（SCP），这些提示富含细粒度的高级语义知识，用于图像实例。视觉条件提示（VCP）的生成由注意力互导（AMG）模块促进，该模块实现了跨层和跨模态的实例级别提示交互，对齐

实验设置

数据集 为了公平公正地评估我们的MuGCP，我们在14个不同的数据集上对其进行了评估。这些数据集包括通用对象数据集，如ImageNet（Deng等人，2009年）和Caltech101（Fei-Fei, Fergus, & Perona, 2004年）；细粒度分类数据集，如Oxford Pets（Parkhi, Vedaldi, Zisserman, & Jawahar, 2012年）、Stanford Cars（Krause, Stark, Deng, & Fei-Fei, 2013年）、Flowers（Nilsback & Zisserman, 2008年）和Aircraft（Maji, Rahtu，

局限性

MuGCP在细粒度数据集上显示出特别强的优势，这归因于语义丰富的SCP和AMG模块的结合，该模块鼓励模型关注与细微语义差异对齐的细粒度视觉区域。尽管MuGCP主要在分类任务上进行评估，但其提示级别的语义和视觉表示之间的交互机制不是特定于任务的，可以自然扩展到其他视觉-语言任务中，其中

结论

在本文中，我们提出了MuGCP，它将MLLMs的百科知识动态集成到VLMs中，用于零样本/少量样本图像分类任务。具体来说，我们创新性地利用MLLMs作为条件提示学习器，自适应生成语义条件提示（SCP）。同时，我们设计了注意力互导（AMG）模块来生成视觉条件提示（VCP），并促进语义和视觉之间的跨层和跨模态提示级别交互

未引用的参考文献

表10、表15、图9

CRediT作者贡献声明

杨世军：撰写——原始草稿、方法论、软件、验证、资源管理、数据整理、形式分析。张翔：概念化、方法论、验证、撰写——原始草稿、撰写——审阅与编辑。赵万青：撰写——审阅与编辑。胡奇瑶：方法论。彭贤林：项目管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言