PromptMix：利用大语言模型（LLM）辅助的提示学习方法，以提升视觉-语言模型的泛化能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：PromptMix: LLM-Aided Prompt Learning for Generalizing Vision-Language Models

【字体：大中小】 时间：2026年01月24日 来源：Information Fusion 15.5

编辑推荐：

　　智能工程任务因数据稀缺和模式模糊导致实际应用性能下降，现有视觉语言模型（VLMs）存在过拟合和提示表达能力不足的问题。本文提出PromptMix框架，通过模态无关共享表示（MASR）缩小预训练与领域数据分布差距，利用大语言模型（LLM）辅助的提示进化（LAPE）机制提升语义表达，结合跨模态注意力适配器（CAA）增强多模态融合能力。实验表明该方法在7个工程数据集（含工业缺陷检测、医疗影像等）上显著提升基模态到新任务和少样本学习场景的适应性与泛化能力。

陈永才|张庆华|史新发|张磊

机构：广东石油化工技术学院，城市：茂名，邮编：525000，省份：广东，国家：中国

摘要

随着深度学习技术的发展，智能工程任务逐渐进入实际应用领域。然而，在实际条件下，由于数据稀缺或模式微妙易混淆，模型性能往往会下降。尽管基于提示学习的视觉-语言模型为无需重新训练模型主干结构的学习提供了新途径，但这些方法在数据量较少时仍存在过拟合问题，或者提示本身的表达能力较弱。为了解决这些问题，我们提出了一个名为PromptMix的新框架，该框架综合考虑了语义提示学习、多模态信息融合以及预训练数据与领域特定数据之间的对齐。具体而言，PromptMix包含三个关键组件：(1) 模态无关共享表示模块，用于构建一个共享的潜在空间，以减少预训练数据与目标数据之间的分布差异；(2) LLM辅助的提示演化机制，用于语义丰富并迭代优化可学习的上下文提示；(3) 跨注意力适配器，用于在样本量较少时增强多模态信息融合和模型的鲁棒性。在七个数据集上的实验表明，PromptMix有效提升了视觉-语言模型的适应性，改善了语义表示，并在从基础到新任务以及小样本学习场景中实现了良好的泛化能力，尤其是在标记数据有限的情况下。

引言

随着深度学习技术的普及，智能工程任务（如工业缺陷检测[2]、磨损碎片分析[3]和纹理分类[4]）得到了广泛应用。实际上，在深度学习应用中，性能受到训练数据质量的高度影响。为了解决数据稀缺、标注成本和隐私限制导致的性能下降问题，人们提出了迁移学习[5]、小样本学习[6]和半监督学习[7]等方法。然而，这些方法在视觉模式微妙、粒度细且语义复杂的特定领域中仍存在计算开销大且性能不佳的问题。

近年来，视觉-语言模型（VLMs）[8]（例如CLIP[9]）的出现提供了一种新的识别范式，它能够在无需训练的情况下将图像和自然语言对齐到同一个嵌入空间中。CLIP使用双编码器对图像和文本进行编码，并通过将图像与人工制作的提示（如aphotoofa[CLASS]对齐来实现零样本分类。然而，这些人工制作的提示在具体的工程任务中表达能力较弱。为了提高CLIP的适应性，提出了CoOp[10]和CoCoOp[11]等提示学习方法，将提示视为可学习向量并通过标准分类损失进行优化。这些参数高效的方法允许CLIP在无需调整主干结构的情况下适应新任务。然而，这些策略在数据量较少时容易过拟合，从而削弱了CLIP的泛化能力。

事实上，在应用VLM时，主要矛盾在于预训练数据与领域特定数据之间的不匹配，以及提示学习过程中语义表示的不足。为了解决这些问题，我们提出了一个全新的学习框架，全面考虑了减少预训练数据与新任务数据之间的不一致性、语义提示学习以及多模态信息融合。本文的主要贡献如下：

(1) 我们提出了模态无关共享表示（MASR）模块，通过将可学习的共享令牌注入视觉和文本空间来构建一个模态无关的潜在空间，从而减少领域差异并提高迁移能力。

(2) 我们设计了LLM辅助的提示演化（LAPE）机制，利用大型语言模型的优势来语义丰富提示，并迭代优化提示，以实现相关语义的对齐。

(3) 我们提出了跨注意力适配器（CAA），以增强多模态信息融合并在样本量较少时确保模型的鲁棒性。它能够精确匹配视觉特征和纯化的文本提示，从而弥合模态差异并提高语义精度。

(4) 我们提出了PromptMix，这是一个统一的提示学习框架，通过整合模态无关共享表示、LLM辅助的提示演化以及轻量级的跨注意力适配器，使预训练的VLM能够适应多样化的、资源匮乏的智能工程任务。

章节片段

大型语言模型

大型语言模型（LLMs）的快速发展对计算机视觉领域产生了深远影响。早期的进展始于Word2Vec和Seq2Seq，为后续研究奠定了基础。后来，基于自注意力机制的Transformer架构[12]的引入标志着现代自然语言处理（NLP）新时代的开始。BERT[13]通过预训练和微调方法显著提升了各种NLP任务的性能。

概述

如图1所示，我们提出方法的整体流程如下：在文本方面，由LLM生成的描述< />_LLM被编码为语义先验，而初始化的文本< />_CLS与可学习的提示令牌< />_prompt结合后，通过Prompt Text Encoder进行处理，该编码器通过MASR模块注入可学习的共享令牌，以获得增强上下文的表示。在图像方面，输入图像由Prompt Image Encoder进行处理，同样通过MASR模块注入可学习的共享令牌。

数据集

为了评估我们方法的跨领域有效性，如表1所示，我们在七个涵盖多种专家级视觉识别任务的数据集上进行了实验。这些数据集包括六个公开可用的数据集和一个自定义数据集，涉及工业表面缺陷检测、医学成像、遥感、纹理分类和基于润滑剂的磨损碎片分析等领域。表1中的MED-3包含了三个医学子数据集，用于血细胞图像分析。

结论

在这项工作中，我们提出了PromptMix，这是一个统一的提示学习框架，它在从基础到新任务以及小样本学习环境中提升了VLM的适应性和泛化能力。通过整合MASR、LAPE和CAA，我们的方法减少了分布差异，优化了提示的语义，并增强了多模态信息融合。在七个数据集上的实验表明，该框架在适应性和泛化能力方面均取得了显著提升。

CRediT作者贡献声明

陈永才：撰写——原始草稿、可视化、验证、软件开发、方法论设计、概念化。 张庆华：监督指导。 史新发：监督指导、资源协调、项目管理、资金获取。 张磊：撰写——审稿与编辑、监督指导、资源管理、项目行政、资金申请。

利益冲突声明

张磊报告称获得了国家自然科学基金的支持；同时获得了广东省自然科学基金和茂名市科技专项基金的支持。张磊还拥有一项待审的专利。作者声明不存在可能影响研究结果的额外关系或活动。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

大型语言模型

概述

数据集

结论

CRediT作者贡献声明

利益冲突声明

热点排行