CIFE-FSOD：通过联合提取通用特征和实例特定特征实现少样本目标检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月01日 来源：Neurocomputing 6.5

编辑推荐：

　　少样本目标检测方法提出基于特征分离与课程学习的训练范式，通过Memory模块动态筛选高质量特征并构建持久记忆库，结合Meticulous模块增强实例特征感知，有效提升模型在PASCAL VOC和COCO数据集上的检测精度，平均AP50达39.6。

周胜业|李约翰|朱光明|梅琳|张亮

西安电子科技大学计算机科学与技术学院，中国陕西省西安市710071

摘要

许多少样本对象检测（FSOD）方法利用广泛的基类别进行元学习，以使模型具备强大的区分能力，从而仅使用少量标注样本就能有效地对新类别进行微调，从而实现竞争性的性能。然而，在元学习过程中，支持样本通常是随机选择的，这往往导致训练动态不稳定。为了克服这一限制，我们提出了一种新的训练范式，该范式明确调节模型在整个FSOD训练过程中感知的特征信息。我们的方法还存档了高质量的特征表示，以便在推理时使用，进一步提高预测准确性。具体来说，我们首先引入了一个带有自设计评分机制的Memory模块，该机制根据计算出的分数将信息丰富的特征自适应地存储到记忆库中。与单个支持图像相关的分数被保留并在推理过程中用于指导检测。此外，由于Memory模块本质上强调了实例间的共同特征，我们提出了一个Meticulous模块来增强模型对支持图像中实例特定特征的敏感性。当将所提出的方法集成到基于YOLO的对象检测器中时，它在YOLO基础的PASCAL VOC基准测试的所有三个类别分割上均实现了最先进（SOTA）的性能，在每个分割的五种不同样本设置下平均AP50达到了39.6。此外，通过结合消融研究和可视化结果，我们证明了我们提出的方法可以显著提高检测准确性。

引言

传统的基于深度学习的对象检测方法通常依赖于大规模的标注数据集，并且本质上仅限于检测在训练期间预定义的类别[1]、[2]、[3]、[4]、[5]。然而，在许多实际应用中，获取大量标注数据往往是不切实际的——特别是对于罕见或专门的对象类别，很少有足够的标注样本。在这种数据稀缺的情况下，传统的对象检测器由于严重依赖广泛的监督而难以有效识别和定位新类别。相比之下，少样本对象检测（FSOD）通过专注于在极端数据稀缺情况下的模型泛化来从根本上不同于传统范式。具体来说，FSOD旨在仅使用少数标注示例来实现之前未见对象类别的准确分类和定位，从而解决了从有限监督中学习的关键挑战。

基于元学习的少样本对象检测方法[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]通常将数据集

划分为两个不相交的子集：一个基类别集

和一个新类别集

。这两个集合的类别词汇是互斥的，它们的并集构成了

中所有的对象类别。基类别集

包含丰富的标注样本，使模型能够在预训练阶段学习到强大且可迁移的区分表示。相比之下，

中的每个新类别仅与有限数量的标注实例相关联——通常每个类别只有几个样本——因此形成了一个具有挑战性的评估环境，用于微调和评估模型的泛化能力和少样本适应性能。

然而，许多现有的基于元学习的少样本对象检测算法[6]、[7]、[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]存在几个显著的局限性：

1.
训练元任务是随机采样的，这可能导致优化不稳定和不同训练迭代之间样本质量的无控制变化。
2.
推理过程中使用的支持样本的质量无法自动调节，实际部署场景中通常需要手动选择高质量的支持图像。
3.
模型将同一类别内的所有样本视为同等信息量，缺乏特征或像素级别自适应样本融合的机制。因此，它无法充分捕捉单个支持图像的实例特定特征。

为了解决上述问题，并受到跨领域少样本学习中支持集选择算法[16]的启发，我们提出了一种新的训练范式，该范式分离了支持图像的通用特征和实例特定特征。这使得在训练期间可以明确控制，并在推理期间有效利用，如图1所示。首先，我们设计了一个Memory模块来收集和保留整个训练过程中的特征信息。具体来说，在每次训练迭代中，基于CLIP[17]的专家评分器评估每个支持图像的质量，相应的特征根据这些分数聚合成一个临时记忆表示。在每次迭代结束时，这个临时记忆特征被整合到一个持久记忆库中，成为一个稳定的记忆特征，该特征由当前损失和最近损失的移动平均值共同指导。在训练过程中，最终的记忆增强特征是原始支持特征、临时记忆特征和稳定记忆特征的加权和。在推理过程中，利用训练期间积累的稳定记忆特征来提高检测性能。此外，我们的训练范式为训练集中的所有标注支持图像生成质量分数；这些分数可以在测试时自动选择高质量的支持图像，从而形成改进的支持集并提升推理性能。

此外，我们设计了一个Meticulous模块来增强模型感知同一类别内不同支持图像之间实例特定特征的能力。该模块包括两个主要组件：第一个在细粒度上增强查询图像，而第二个根据查询特征图自适应地聚合记忆增强的支持特征。这个过程在特征-像素级别构建了特定于类别的支持表示。然后根据支持图像特征与增强后的查询特征图中空间对齐位置的相应特征像素之间的相似性计算每个对象提议的分类分数。

此外，由于临时和稳定记忆特征都给予高质量表示更高的权重，我们可以在训练期间动态调整这些记忆组分的贡献，从而创建一种课程学习效应[18]、[19]、[20]、[21]、[22]。具体来说，在早期训练阶段，模型接触到更容易收敛的高分特征，促进稳定优化。在后期阶段，它逐渐转向更好地反映训练集真实分布的特征。这种渐进式的暴露策略增强了模型的泛化能力，并有助于在新类别上进行更有效的微调。

总之，本文的主要贡献如下：

1.
我们提出了一种新的特征解耦方法，该方法在训练过程中将不同类别的支持图像中的通用特征和实例特定特征分开。这使得两种类型的特征更加可控，无论是在训练还是推理过程中，从而构建出与目标学习目标更一致的支持表示。
2.
我们引入了一种新的训练范式，允许在元学习的不同阶段控制特征信息的暴露，有效地将课程学习原则整合到元学习框架中。
3.
当将其集成到基于YOLO的少样本对象检测框架中时，所提出的方法在PASCAL VOC数据集上超越了其他基于YOLO的方法，实现了39.6的平均AP50，并达到了最先进（SOTA）的性能。

章节片段

少样本学习

受人类识别系统的启发，少样本学习旨在利用从先验知识中得出的推理来识别新的对象类别。现有的方法大致可以分为两大类：基于优化的方法[23]、[24]、[25]和基于度量学习的方法[26]、[27]、[28]。

基于优化的方法侧重于通过元学习框架来增强泛化能力。在这个范式中，模型在多样化的任务集上进行训练

问题定义

遵循少样本对象检测的常见做法，我们采用元学习框架进行模型训练。在训练过程中，对于每个查询图像

，会采样一组支持图像

。这里，

表示支持图像中的对象类别，而

表示它对应于当前 episodic 采样中的

第

个实例。每个支持图像

都附带一个属于

类别的对象的边界框注释。模型在对比学习中接受训练

实验设置

所提出的CIFE方法用于少样本对象检测，在Pascal VOC 2007和VOC 2012数据集[57]以及MS COCO [58]上进行评估。每个数据集中的对象类别分为两组：基类别，具有丰富的标注样本；和新类别，仅包含

个标注实例。在基础训练阶段，网络仅使用基类别的训练数据进行优化。在随后的微调阶段，网络进一步

结论

总之，本文介绍了一种少样本对象检测方法，该方法联合提取了类别通用特征和实例特定特征。通过整合课程学习等策略，所提出的方法显著提高了检测准确性，在PASCAL VOC数据集上实现了39.6的平均AP50，并超越了现有的基于YOLO的方法，同时生成了用于推理的评分文件。尽管取得了这些进展，该方法仍存在某些局限性：

CRediT作者贡献声明

周胜业：撰写 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，软件，项目管理，方法论，调查，形式分析，数据管理，概念化。李约翰：撰写 – 原始草稿，验证，方法论，调查，形式分析，数据管理。朱光明：撰写 – 审稿与编辑，验证，监督，资源管理，项目管理，方法论，调查，形式分析，概念化。梅琳：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

周胜业出生于2001年7月26日。他获得了西安电子科技大学软件工程学士学位。他目前正在西安电子科技大学计算机科学与技术学院攻读软件工程硕士学位。他的主要研究兴趣包括计算机视觉、对象检测、图像分类、对比学习和少样本学习。

联系信箱：

粤ICP备09063491号

摘要

引言