基于不确定性和多样性的选择方法在视觉-语言模型中的主动学习应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Information Fusion》：Uncertainty and Diversity Based Selection for Active Learning in Vision-Language Models

【字体：大中小】 时间：2026年02月27日 来源：Information Fusion 15.5

编辑推荐：

　　提出UnDi方法，通过不确定性评估和多样性保持优化样本选择，结合CLIP生成高质量伪标签，显著提升VLM适应性能。

Fan Yang|Kejun Ren|Jiahao Shen|Mingcai Chen|Yuntao Du

山东大学软件学院，中国济南，250061

摘要

预训练的视觉语言模型（VLMs），如CLIP，展现了强大的零样本学习能力，但在特定领域的视觉任务中仍逊色于完全监督学习的模型。模型适配是一种有效的方法，它通过仅微调一小部分参数来缩小这种性能差距，同时保持预训练的模型框架不变。然而，这种方法仍然依赖于标注样本，而在现实世界场景中，标注样本往往难以获得。主动学习（AL）通过选择一小部分未标注数据进行注释，提供了一个有前景的解决方案。以往的方法主要集中在选择信息量大的样本上，但未能同时平衡这两者。为了解决这个问题，我们在本文中提出了一种新的方法UnDi，该方法能够平衡不确定性和多样性来选择样本。首先，UnDi引入了一种评分机制，综合考虑样本的置信度、变异性和熵来评估样本的不确定性。其次，为了进一步提高多样性并避免冗余，UnDi对高不确定性候选样本应用K均值聚类。此外，我们将AL问题视为半监督学习问题，因为有许多未标注样本可用。为了更好地利用未标注样本中的信息，UnDi利用CLIP生成伪标签，并结合基于置信度的过滤机制来确保伪标签的质量。在多个图像分类数据集上的广泛实验表明，UnDi在有和没有未标注样本的情况下，都显著优于现有的AL基线方法。代码可在以下链接获取：https://github.com/Yangfan-123-cell/UnDi

引言

预训练的视觉语言模型（VLMs），如对比语言图像预训练（CLIP）[1]，通过利用大规模的图像-文本配对数据集，在多种视觉识别任务中展示了出色的零样本学习能力。这些模型通过实现有效的跨模态理解和迁移学习，而无需特定任务的训练[2]、[3]、[4]、[5]，彻底改变了计算机视觉领域。然而，尽管它们具有令人印象深刻的泛化能力，但在应用于特定领域的视觉任务时，VLMs的表现仍不如完全监督学习的模型。例如，CLIP在ImageNet上的零样本准确率为76.2%，而最先进的监督学习方法的一致准确率超过85%[6]、[7]，这突显了需要有效适配策略的必要性。

为了缩小这一性能差距，最近的研究集中在通过各种参数高效技术来高效适配预训练的VLMs。模型适配方法包括提示工程方法，如上下文优化（CoOp）[8]和条件上下文优化（CoCoOp）[9]，以及基于适配器的方法，如CLIP-Adapter [10]和Tip-Adapter [11]，这些方法成为显著的参数高效微调技术。这些方法在保持模型框架不变的情况下优化了轻量级组件，大大提高了CLIP的迁移能力，同时计算开销最小。

虽然模型适配降低了计算成本，但由于标注成本高昂，即使在少样本学习场景中，获取标注数据仍然是一个重要瓶颈。主动学习（AL）通过智能选择样本进行标注，旨在在有限的标注预算下最大化模型性能[13]、[14]、[15]，提供了一个有前景的解决方案。

最近的研究越来越多地将AL策略与VLMs的适配相结合[16]、[17]。Bang等人[16]的早期工作认识到多样性在样本选择中的重要性，强调在样本选择过程中保持类别平衡，因为不平衡的查询会加剧预训练VLMs中的固有偏见。在此基础上，Safaei等人[17]进一步认识到不确定性和多样性的共同重要性，通过为未标注样本分配基于熵的权重，然后使用加权K均值聚类来引导采样到高熵区域以进行代表性选择。然而，这些方法面临两个关键限制：首先，基于不确定性或多样性的方法依赖于单一的评估指标，这对于像CLIP这样存在输出置信度校准问题的大型预训练模型来说是不可靠的[18]、[19]。其次，对整个未标注样本池进行聚类可能会无意中选择低不确定性得分的样本，因为聚类过程更重视几何多样性而非不确定性质量，从而无法有效平衡多样性和不确定性，可能降低所选样本的信息量。图1比较了在全样本聚类和高得分样本聚类下，从每个簇中选择五个样本时的样本熵。图3显示了高得分样本过滤对训练集类别覆盖率的影响。

为了解决这些限制，我们提出了UnDi（不确定性和多样性），这是一种专门为VLMs适配设计的新型主动学习框架。我们的方法引入了两项关键创新来克服现有方法的局限性。一方面，UnDi利用一个综合的多维评分机制，综合考虑样本的置信度、变异性和熵，以更稳健地评估样本的不确定性。另一方面，为了在保持高不确定性的同时实现有效的多样性，UnDi仅对通过我们的评分机制识别出的高不确定性候选样本应用K均值聚类，从而确保所有选中的样本都保持高不确定性得分，同时在特征空间实现空间多样性。

此外，考虑到主动学习场景本质上涉及大量的未标注数据，我们将这个问题视为半监督学习，并利用CLIP的零样本学习能力为高置信度的未选样本生成伪标签，并结合基于置信度的过滤机制来确保伪标签的质量。我们在七个基准数据集上进行了广泛的实验，结果一致证明了我们方法的有效性，在所有数据集中都观察到了性能提升。此外，当我们的伪标签策略与现有的主动学习基线结合使用时，所有方法的性能都得到了提升。

我们的主要贡献总结如下：

•

我们引入了一种两阶段样本选择策略，首先通过评分机制识别高不确定性候选样本，然后在这个精炼的样本池中应用K均值聚类，以实现不确定性和多样性，同时避免信息稀释效应。

•

我们提出了一种综合的多维评分机制，结合样本熵、预测置信度和变异性，提供了比单一指标方法更稳健和可靠的样本不确定性评估。

•

我们提出了一种伪标签生成机制，利用CLIP的零样本学习能力将主动学习问题转化为半监督学习框架，有效地利用更广泛的未标注数据，而不增加手动标注的成本。

•

我们在多个图像分类数据集上进行了广泛的实验，证明UnDi在有和没有额外未标注样本的情况下，都显著优于现有的AL基线方法，证明了其在不同领域的有效性和泛化能力。

部分片段

视觉语言模型（VLMs）

视觉语言模型（VLMs）通过学习图像和文本的联合表示，显著推动了计算机视觉和自然语言处理领域的发展。像CLIP [1]和ALIGN [20]这样的模型在大量的图像-文本对数据集上预训练后，在各种下游任务中展示了出色的零样本学习能力。这些模型通常包括一个图像编码器（例如ResNet [6]或Vision Transformer（ViT）[21]）和一个文本编码器

方法论

我们提出了UnDi，这是一种通过未标注数据流的主动学习来适配预训练CLIP模型以用于下游视觉分类任务的新型框架。其核心创新在于通过利用多次前向传递中的预测动态来平衡样本选择中的不确定性和多样性，同时通过基于聚类的选择来确保表示多样性。这种双重考虑使得样本选择更加明智和全面

实施细节

数据集。我们在七个广泛采用的图像分类基准数据集上评估了我们的方法，这些数据集已与CLIP模型一起被广泛使用[37]。这些数据集涵盖了多种视觉领域，以确保全面评估：EuroSAT [38]用于具有10个土地覆盖类别的卫星图像分类，Oxford Pets [39]用于37种猫和狗品种的细粒度识别，DTD [40]用于47种材料类别的纹理分析，Caltech101 [41]用于涵盖101个一般对象的分类

讨论

在本节中，我们对提出的选择机制进行了深入分析，通过评估基础UnDi方法（不使用伪标签）来隔离查询策略的贡献。我们关注三个关键方面：对聚类算法的鲁棒性、样本质量的定量评估和计算效率。

结论

本研究解决了在严格标注预算下将大规模视觉语言模型适配到下游任务的关键挑战。通过有效协调不确定性估计和分布多样性，UnDi建立了一个优于现有主动学习基线的稳健框架。我们的科学贡献有三个方面：（1）一种多前向传递预测评分机制，提供了比单一指标方法更丰富的样本评估；（2）一种两阶段

科学写作中生成式AI的声明

在准备本手稿期间，作者仅使用Gemini 2.5 Pro进行语言润色和风格改进。核心思想、实验结果和解释完全属于作者本人。作者已彻底审查了最终版本，并对本文的内容和完整性负全责。

CRediT作者贡献声明

Fan Yang：写作 – 审稿与编辑，写作 – 原始草稿，可视化，方法论，形式分析，数据管理。Kejun Ren：写作 – 审稿与编辑，方法论，形式分析。Jiahao Shen：形式分析，数据管理。Mingcai Chen：方法论，形式分析。Yuntao Du：写作 – 审稿与编辑，方法论，资金获取，形式分析，数据管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言