通过视觉语言模型（VLM）进行语义对比学习，以实现少样本遥感目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对遥感图像中少样本目标检测的类别混淆问题，本文提出基于语义对比学习的框架，通过CAHW模块动态调整分类权重，结合SDC机制对齐视觉特征与文本原型，有效提升可分性，在DIOR和NWPU VHR-10.v2数据集上达到SOTA性能。

Bowei Yan|Chunbo Lang|Gong Cheng

西北工业大学自动化学院，中国西安，710072

摘要

少样本对象检测（FSOD）旨在仅使用少量标注来检测新的对象类别。然而，由于遥感图像中监督数据有限且类别间相似度较高，这一任务仍然极具挑战性。一个关键障碍是类别混淆，这是由于自上而下的视角下类别间视觉相似度过高导致特征流形纠缠所致。我们发现，标准的FSOD模型无法将区分性线索与共享的外观特征分离。这导致在视觉上相似的类别内部特征分布崩溃，严重影响了决策边界。为了解决这个问题，我们提出了一个基于语义对比学习的创新FSOD框架，该框架利用了大规模预训练的视觉语言模型（VLM）中的类别级文本知识。我们的方法引入了两个互补组件：（1）一个具有对比意识的超权重（CAHW）模块，通过整合语义指导来生成自适应的分类权重；（2）一个语义消歧对比（SDC）机制，将提议的视觉特征与文本原型对齐，以提高类别间的可区分性。CAHW和SDC的结合有效减轻了视觉上相似类别之间的类别混淆，使得在遥感图像中进行更鲁棒和可解释的少样本检测成为可能。在两个标准基准测试（DIOR和NWPU VHR-10.V2）上的广泛实验证明了我们方法的有效性。所提出的方法在各种k样本设置中始终优于现有的最先进技术。代码：https://github.com/Ybowei/SCL。

引言

近年来，深度学习的迅速发展显著提高了各种下游任务的性能，包括分类[1]、[2]、检测[3]、[4]、[5]和分割[6]、[7]。这一成功在很大程度上依赖于强大的计算资源和精心策划的大规模数据集。然而，为图像数据添加注释仍然是一个耗时且劳动密集的过程，尤其是在遥感应用中的密集预测任务中，例如对象检测。此外，传统模型在面对未见过的类别时往往表现出有限的泛化能力。为了解决这个问题，少样本对象检测（FSOD）任务受到了越来越多的关注。

受到人类仅从少量样本中学习新概念的能力的启发，FSOD旨在从标注良好的基础类别中提取知识，以识别标注稀缺的新类别。大多数FSOD方法[8]、[9]、[10]采用Faster R-CNN[11]作为核心框架，该框架通过两个步骤检测对象：首先，由一个与类别无关的区域提议网络（RPN）生成区域提议，然后通过框头进行分类和边界框回归。一些研究[12]、[13]表明，检测错误的主要来源不在于对象定位，而在于新实例的错误分类。一些工作[14]、[15]、[16]表明，与自然图像相比，在涉及遥感图像（RSIs）的FSOD任务中，这类错误更为突出。这种现象源于RSIs的独特特征引起的特征空间纠缠。具体来说，固有的自上而下的视角导致不同类别之间的视觉相似度显著增加，例如桥梁和立交桥的共享线性结构。至关重要的是，我们观察到，在少样本场景中，标准检测器中的有效区分性线索常常被这种视觉歧义所掩盖。这一限制在图1(b)的类别激活图（CAMs）中得到了明确的体现，图中显示模型倾向于不加区分地关注通用结构属性，而忽略了独特的、特定于上下文的线索。这种误导性的关注直接传播到嵌入空间。由于核心网络从通用视觉属性中提取特征，因此新类别的表示与视觉上相似的对应类别高度纠缠。这种纠缠表现为结构崩溃（如图5所示），导致决策边界不明确。结果，模型对混淆的类别产生高置信度的错误分类（见图1(d)），严重抑制了真实目标的检测分数。标准的FSOD检测器[17]、[18]通常忽略了支持特征内的内在相似性，而结合简单文本描述的方法[14]、[19]则存在语义不对齐的问题。因此，仅依赖视觉线索或粗略的语言先验不足以解决少样本检测中由特征空间纠缠引起的类别混淆。

基于此，我们提出了一个可泛化的框架，该框架利用预训练的VLM[20]进行语义对比学习。与训练图像的视觉特征对齐的语义知识对于下游任务具有强大的区分能力，并已成功应用于各种领域，如少样本分类[21]和零样本对象检测[22]。我们的核心思想是引入明确的语义原型来区分视觉上相似的类别。我们首先设计了一个问答格式的语言模板，从预训练的VLM中提取语义知识，如图2所示。此外，引入了一个支持图像分支来加强视觉线索和文本描述之间的语义关联。基于这些组件，通过文本编码器构建了一个对比知识词典，作为明确的语义指导。在对比知识词典的基础上，我们提出了一个具有对比意识的超权重（CAHW）模块，通过突出容易混淆的实例之间最独特的特征来指导少样本检测器中决策边界的构建。与大边距分类器相比，CAHW模块提供了更准确的分类并提高了泛化能力，特别是在数据稀缺的情况下。为了进一步提高类别间的可区分性，我们引入了一个语义消歧对比（SDC）策略，减少了视觉上相似对象之间的相关性，并促进了更具区分性的特征空间。通过将提议的特征与学习到的语义原型对齐，SDC有助于提取对视觉歧义更具鲁棒性的类别特定线索。与之前仅依赖小批量内视觉特征的方法不同，我们的SDC模块充分利用了预训练VLM中文本知识与视觉特征之间的对齐能力。在RSIs的两个FSOD基准测试上的广泛实验表明，我们的方法实现了最先进的（SOTA）性能，显著提高了各种少样本设置下的检测准确性。总结来说，我们工作的贡献可以总结如下：

•

我们深入研究了现有FSOD方法中的主要检测错误，这些错误主要是由错误分类视觉上相似的实例引起的。此外，我们研究了阻碍FSOD模型性能的关键因素，即学习区分性表示和构建良好分离的决策边界的有限能力。

•

因此，我们提出了两种互补策略——CAHW和SDC——通过利用预训练VLM中的关键语义知识来增强区分混淆类别的能力。

•

我们的工作表明，可以有效地利用特定于任务和有意义的语义知识来支持FSOD。与其他具有类似目标的方法相比，它实现了更好的性能和泛化能力，并为FSOD中的开放性挑战提供了启示。

部分片段

自然图像中的少样本对象检测

FSOD方法通常分为基于迁移学习[13]、[23]、[24]和基于元学习[26]、[27]、[28]的范式。基于迁移学习的方法通过对基础类别预训练的检测器进行微调以适应新类别。它们通常由于在数据量较少的情况下过拟合而泛化能力较差。相比之下，基于元学习的方法以情节式训练的方式模拟少样本任务，以提高泛化能力。

问题设置

FSOD中的一个主流策略是两阶段训练范式。在第一阶段，核心网络在基础数据集上进行训练，该数据集包含足够的基础类别_C_base>的标注。这一阶段的目标是从基础集合中学习可迁移的特征表示，使模型能够有效地泛化到新类别。在第二阶段——遵循标准的k样本检测设置——模型在组合数据集上进行微调

数据集和评估

数据集：我们在两个广泛使用的少样本对象检测基准测试上评估了所提出的方法：DIOR [46]和NWPU VHR-10.v2 [47]。DIOR [46]是一个用于对象检测任务的遥感数据集，包含20个对象类别。该数据集被均匀划分为四个部分，表示为{DIOR-20_i}，i ∈ {0, 1, 2, 3}，每个部分指定不同的基础类别和新类别。分割配置严格遵循先前工作[14]、[30]、[32]、[35]中建立的协议，以确保

结论

在本文中，我们提出了一个新颖的语义对比学习框架，以解决少样本遥感对象检测中的关键挑战——类别混淆。我们的框架整合了两个互补模块：CAHW模块，它使用语义先验调节分类权重以确保决策边界的鲁棒性；SDC模块，它通过将视觉提议与文本原型对齐来优化特征空间。它们的协同操作显著

CRediT作者贡献声明

Bowei Yan：撰写——原始草稿、可视化、验证、方法论、数据分析、概念化。Chunbo Lang：撰写——审阅与编辑、可视化、验证、方法论、数据分析、概念化。Gong Cheng：撰写——审阅与编辑、监督、资源管理、项目管理、方法论、调查、资金获取、数据分析、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作部分得到了中国国家自然科学基金（项目编号62376223）和中央高校基本科研业务费的支持。

联系信箱：

粤ICP备09063491号

摘要

引言