Protoconnet：一种用于开放集少样本图像分类的原型增强与对齐方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：Protoconnet: Prototypical augmentation and alignment for open-set few-shot image classification

【字体：大中小】 时间：2026年01月29日 来源：Displays 3.4

编辑推荐：

　　开放集小样本图像分类中，ProtoConNet通过聚类数据选择增强样本多样性，结合上下文语义精炼模块消除背景干扰，再利用原型对齐缩小已知类与未知类特征距离，有效提升模型对已知类别的识别精度和未知类别的鲁棒性。

山东大学软件学院，中国济南，山东

摘要

开放集小样本图像分类旨在使用少量标记数据训练模型，使模型在面对未知环境时能够实现良好的泛化能力。现有方法主要利用单张图像的视觉信息来学习类别表示，以区分已知和未知类别。然而，这些方法往往忽略了整合丰富上下文信息的好处。为了解决这个问题，本文提出了一种原型增强和对齐方法，称为ProtoConNet，该方法结合了不同样本的背景信息来增强特征空间的多样性，打破了小样本场景中上下文和图像主体之间的虚假关联。具体来说，它包括三个主要模块：基于聚类的数据选择（CDS）模块在保留核心特征的同时挖掘多样化的数据模式；上下文增强的语义细化（CSR）模块构建上下文字典以整合到图像表示中，从而提高模型在各种场景中的鲁棒性；以及原型对齐（PA）模块减少图像表示与类别原型之间的差异，放大已知和未知类别的特征距离。来自两个数据集的实验结果验证了ProtoConNet提高了小样本场景中表示学习的有效性，并能够识别开放集样本，使其优于现有方法。

引言

图像分类是计算机视觉中的一个基本问题，是许多实际应用的核心组成部分[1]，[2]。随着智能系统的快速发展，图像分类已被广泛应用于医疗诊断，例如自动红细胞计数和基于血液涂片的身份验证，在这些应用中，即使在有限的标记数据下也能实现准确识别[3]，[4]。在交通和物流领域，图像分类支持包括船舶类型分类和驾驶行为分析等应用，这些应用通常涉及动态环境和以前未见过的类别[5]，[6]。在考古学和文化遗产领域，化石分类和石器微磨损分析等任务依赖于视觉分类来支持大规模、非侵入性的历史文物分析[7]，[8]，[9]。图像分类在工业检测中也起着重要作用，包括在线3D测量和对高反射率或漫反射物体的检测，在这些应用中收集详尽的标记样本往往不切实际[10]，[11]。在环境科学和农业领域，土地使用和土地覆盖分类以及植物病害检测和分类等应用[12]，[13]，需要能够在新区域、新条件和以前未见过的类别下稳健泛化的模型。

在这些多样化的应用场景中，视觉识别系统经常需要在复杂的背景、变化的上下文和有限的监督下运行，因此模型需要关注与任务相关的区域或特征，同时抑制无关信息。因此，注意力机制[14]在深度学习中得到了广泛探索，以增强特征表示和在具有挑战性的视觉任务中的鲁棒性。代表性的研究包括动态注意力匹配和图注意力网络[15]，[16]用于关系建模，它们明确捕获特征或实体之间的依赖性；认知波动增强注意力[17]机制，它们能够自适应地强调信息模式，以提高对噪声和不确定性的鲁棒性；多注意力框架[18]用于边缘投影轮廓测量[19]，它们整合了互补的注意力线索，以在具有挑战性的成像条件下提高测量精度；以及混合或残差注意力网络[20]，[21]用于工业视觉检测，它们细化多尺度特征并提高在复杂视觉环境中的区分能力。这些方法表明，引导模型注意力可以显著提高在复杂视觉条件下的判别能力。然而，大多数现有的基于注意力的方法是在封闭集和数据丰富的假设下开发的，依赖于足够的监督和相对稳定的类别分布。当只有少数标记样本可用时，注意力行为可能会变得有偏或不稳定，而且这些方法通常缺乏处理在现实世界部署中自然出现的未知类别的明确机制。

在许多现实世界的图像分类场景中，获取大规模标记数据既昂贵又耗时，甚至不可行，而未知或新类别在部署过程中自然会出现。这些实际限制激发了对开放集小样本视觉分类的兴趣日益增加，该分类旨在在极其有限的监督下识别已知和未知类别[22]，[23]，[24]，[25]。为了应对数据稀缺和高标记成本[26]，[27]，现有研究主要通过微调对在大规模数据集上预训练的模型进行改进，利用它们的丰富表示来处理下游任务[23]，[28]，[29]，[30]，[31]，[32]，[33]，[34]。然而，当只有少数标记样本可用时，这些策略通常会导致泛化能力不足和严重的知识遗忘，从而降低对未知类别的性能[35]，[36]，[37]，[38]，[39]，[40]。

为了缓解这些限制，当前的开放集小样本学习方法主要遵循两个方向。一种方法是通过数据增强[41]，[42]，[43]来提高样本多样性，但通常会带来大量的计算开销（例如，基于GAN或扩散的生成[44]），并且在遇到未见过的类别时可能会进一步放大遗忘。另一种方法利用多模态预训练模型和参数高效的微调来提高泛化能力[28]，[35]，[45]；然而，这些方法在已知类别识别方面的性能通常不如专门的封闭集模型。因此，在开放集小样本图像分类中，有效平衡已知类别的准确识别和对未见类别的稳健泛化仍然是一个未解决的挑战。

为了解决这个问题，本文提出了一种特征增强和原型对齐方法，称为ProtoConNet，该方法设计了一个开放集识别器来建立多个模型之间的连接，使得可以使用特定模型来处理开放集和封闭集样本，如图1所示。具体来说，ProtoConNet包括三个核心组件：基于聚类的数据选择（CDS）模块、上下文增强的语义细化（CSR）模块和原型对齐（PA）模块。为了避免随机选择样本所带来的不确定性，CDS模块使用聚类方法挖掘数据模式，同时保留样本的核心特征和多样性。CSR模块利用CDS模块选择的多样化样本提取丰富的上下文信息，并将其整合到图像特征中，从而打破样本主体和背景之间的虚假关联。随后，PA模块利用开放集识别器将图像表示与相应的类别原型对齐，减少它们之间的差异，同时放大已知和未知类别特征之间的距离，使ProtoConNet能够确定决策路径，充分利用不同模型的优势。

在两个数据集上进行了广泛的实验，并对三个组件进行了性能比较和消融研究，以及对关键组件的案例研究。实验结果表明，ProtoConNet提高了模型在小样本场景中对图像主体的关注度，并有效地区分了已知和未知类别。总之，本研究有三个主要贡献：

•
本文提出了一个基于Jittor框架的模型无关框架（ProtoConNet），可以作为一个即插即用的组件集成到任何骨干网络中。
•
实验发现，小样本学习往往会降低模型对未见环境中图像主体的关注度。整合来自多样化样本的上下文信息可以缓解这个问题，从而提高模型的泛化能力。
•
整个实验代码是使用Jittor框架实现的，我们通过添加几个自定义功能（包括Jittor版本中的Grad-CAM和IVLP模型）为Jittor平台的发展做出了贡献。

本文的其余部分组织如下。第2节回顾了有关聚类方法、小样本学习、开放集识别和小样本开放集识别的相关文献。第3节根据竞赛协议正式化了问题设置和评估目标，明确了训练约束、已知/新类别的构建以及封闭集（TestA）和开放集（TestB）评估的定义。第4节详细介绍了提出的ProtoConNet框架，包括其整体流程、关键模块和训练策略，并解释了所提出的设计如何改进已知类别的表示学习，同时提高对未知类别的鲁棒性。第5节报告了实验设置和结果，包括基准描述、实现细节、与最先进基线的比较以及额外的分析，如消融研究和参数敏感性分析。最后，第6节总结了本文并讨论了局限性和未来方向。

章节片段

聚类方法

聚类是一种基本的无监督学习技术，旨在通过将相似样本分组来揭示潜在的数据结构。代表性的聚类范式包括基于质心的方法（例如k-means），它们迭代最小化簇内方差；基于密度和方向的聚类[46]，[47]，将簇识别为特征空间中的高密度区域或各向异性结构；基于最大-最小距离的聚类[48]，它明确促进簇间分离

问题表述

本文以Jittor AI Challenge²为背景，并遵循竞赛的框架。假设有一个包含

C

个类别的图像数据集，表示为

{1, \dots, C}

。对于类别

c

，有

N_{c}

个样本，即

{x_{1},, x_{N}}

。在这个任务中，我们需要从每个类别中手动选择4个样本来辅助模型训练，这模拟了一个小样本视觉分类案例。有两个目标：TestA数据集只包含

框架

本文提出了一种称为ProtoConNet的上下文增强型小样本开放集识别方法，该方法通过提高特征空间的多样性来避免样本不足的负面影响。如图2所示，ProtoConNet包括三个主要模块：基于聚类的数据选择（CDS）模块，它使用聚类来选择代表性样本并减少不稳定性；上下文增强的语义细化（CSR）模块，它整合上下文信息

数据集

根据Jittor AI Challenge³，我们使用了一个综合数据集来验证我们的方法，包括Tsinghua Dogs、Caltech-101、Food-101和Animals，如表1所示。在Jittor AI Challenge中，去除了Caltech-101和其他数据集中的重复类别，剩下91个类别。参与者可以为每个类别选择4张图像进行训练，但不允许使用额外的标记或未标记数据。比赛有两个

结论

本文提出了一种开放集小样本图像分类框架（ProtoConNet），作为Jittor AI Challenge的一部分。该框架通过三个关键模块提高了模型性能，这些模块解决了数据选择、特征增强和多模型集成问题。具体来说，ProtoConNet利用CDS方法选择具有丰富特征多样性的代表性样本。CSR模块整合上下文信息，以减少图像主体之间的虚假关联

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系，这些利益或关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

章节片段

聚类方法

问题表述

框架

数据集

结论

利益冲突声明

热点排行