《Neural Networks》:Learning discriminative prototypes: adaptive relation-aware refinement and patch-level contextual feature reweighting for few-shot classification
编辑推荐:
few-shot learning通过动态建模原型间关系和局部特征重加权提升分类性能,在多个基准数据集上实现显著准确率提升。
姜梦娟|李凡章
中国苏州苏州大学计算机科学与技术学院,215006
摘要
少样本学习(FSL)旨在利用有限的标记样本实现高效分类,为解决数据稀缺场景下的模型泛化问题提供了一个重要的研究范式。在基于度量的FSL框架中,类别原型作为类别的核心可转移表示,其区分能力直接影响模型的分类性能。然而,现有方法面临两个主要瓶颈:首先,传统的特征选择机制使用静态建模方法,容易受到背景噪声的影响,并且难以捕捉类别之间的动态关系;其次,由于标记样本的数量和质量有限,基于全局特征的原型表示缺乏对局部区分特征的细粒度表达,限制了原型的表示能力。为了克服这些限制,我们提出了一种新的框架:学习区分性原型(LDP)。LDP包括两个模块:(1)自适应关系感知细化(Adaptive Relation-Aware Refinement),它动态地建模类别原型之间的关系,突出每个类别的关键特征,有效增强特征表示的鲁棒性;(2)补丁级上下文特征重加权(Patch-Level Contextual Feature Reweighting),通过对样本进行补丁级特征交互进行重加权操作,从而获得更具区分性的原型。实验结果表明,LDP在涵盖标准和跨领域数据集的五个数据集上表现出强大的竞争力,验证了其在FSL任务中的有效性。例如,在miniImageNet和tieredImageNet的1-shot设置中,LDP的准确率相比基线方法提高了超过12%;在跨领域数据集CUB200上,1-shot情况下的准确率提高了6.45%。我们的代码可在GitHub上找到:
https://github.com/fewshot-learner/LDP。
引言
近年来,基于深度学习的图像分类方法表现出优异的性能。然而,它们对大量高质量标记样本的依赖导致在标记样本稀缺时性能急剧下降(Finn等人,2017年;Guo等人,2025年;Snell等人,2017年)。不幸的是,在实际应用中,获取大规模和高质量标记数据常常面临许多困难。一方面,无法为所有类别收集足够的数据,例如濒危物种的图像或涉及患者隐私的医学样本。另一方面,即使某些类别的数据相对充足,数据的标记通常依赖于领域专家,这导致标记成本显著增加。此外,在一些动态或偏远地区,数据采集和标记的过程可能更加复杂和耗时。这些限制促使研究人员探索设计更高效和鲁棒的分类算法,以应对现实世界应用中的挑战。
与深度学习模型需要依赖大量标记数据才能获得良好性能的需求相比,人类只需观察少量样本就能快速掌握识别对象类别的能力。例如,一个小孩在看到几张猫的图片后就能掌握猫的特征。这一现象激发了研究人员开发在少样本条件下执行学习任务的算法,从而产生了少样本学习(FSL)的研究方向(Liu等人,2024年;Snell等人,2017年;Sung等人,2018年)。FSL的核心目标是使用有限的训练样本高效地训练分类器。近年来,FSL已广泛应用于图像分类(Jiang等人,2025年;Ma等人,2023年)、语义分割(Liu等人,2023年)、目标检测(Demirel等人,2023年)等领域。值得注意的是,FSL的价值不仅限于计算机视觉;它在非视觉任务中也具有重要意义,如语音识别(Cheng和Nguyen,2025年)和基于EEG的情绪识别(Ning等人,2021年)。
现有的少样本学习方法通常可以分为三类:基于优化的方法(Finn等人,2017年;Ravi和Larochelle,2017年)、基于增强的方法(Hariharan和Girshick,2017年;Zhang等人,2018b)以及基于度量的方法(Snell等人,2017年;Sung等人,2018年;Vinyals等人,2016年)。其中,基于优化的方法,以MAML(Finn等人,2017年)为代表,依赖于跨多个任务的元优化并通过快速参数更新实现跨任务迁移。然而,它们在训练过程中需要频繁计算梯度,导致计算成本较高。基于增强的方法通过生成模型或样本扩展来缓解数据稀缺问题;然而,生成样本的质量往往难以保证,生成模型的训练复杂,并且可能会引入额外的噪声,这可能对分类性能产生负面影响。相比之下,基于度量的方法因其简单性和计算效率而受到广泛关注。一个典型的例子是原型网络(ProtoNet)(Snell等人,2017年),它通过计算支持样本特征的均值来生成类别原型,并根据这些原型与查询样本的欧几里得距离进行分类,实现了实现的简单性和可扩展性。
然而,基于度量的方法通常依赖于有限且可能不稳定的支持样本集来构建原型,通过均值计算得到的原型存在两个主要限制:(1)静态平均无法捕捉类别间的动态关系;(2)基于全局特征得到的原型容易受到噪声和背景干扰的影响。先前的研究表明,有效利用局部特征可以显著提高模型性能(Li等人,2019年;Liu等人,2022年),但直接使用局部特征优化原型表示的方法仍然相对较少。
为了解决这些问题,我们提出了一种新的少样本学习方法,称为学习区分性原型(LDP)。该方法包括两个核心模块:自适应关系感知细化(Adaptive Relation-Aware Refinement,AdaRAR)和补丁级上下文特征重加权(Patch-Level Contextual Feature Reweighting,PLCFR)。具体来说,AdaRAR动态地建模类别原型之间的关系,从而增强全局特征的区分能力;同时,PLCFR利用未标记样本抑制噪声并在局部层次强调关键特征,并通过特征重加权策略细化原型,以获得更准确的表示。我们在五个基准数据集上进行了广泛的实验:miniImageNet、tieredImageNet、Fewshot-CIFAR100(FC100)、Caltech-UCSD Birds-200(CUB200)和Stanford Cars(Cars)。结果表明,LDP在分类性能上取得了显著提升,有效验证了其在少样本学习任务中的有效性和鲁棒性。
本研究的主要贡献总结如下:
1.我们提出了一个统一的框架LDP,它整合了AdaRAR和PLCFR。该框架从全局和局部两个角度共同优化原型,它们的协同作用显著增强了原型表示的区分能力和鲁棒性。
2.我们设计了自适应关系感知细化(AdaRAR)模块。该模块将类别原型视为关系图中的节点,并动态建模原型之间的关系,以自适应生成通道级特征权重,有效增强全局区分能力,克服了基于静态均值的原型在捕捉类别间动态关系方面的局限性。
3.我们引入了补丁级上下文特征重加权(PLCFR)模块。该模块利用未标记样本和模糊原型,进行细粒度的补丁级交互,以强调区分区域并抑制噪声和背景干扰,从而产生更准确和鲁棒的原型表示。
4.我们在五个基准数据集上进行了广泛的实验,涵盖了标准和跨领域场景。结果全面验证了LDP的有效性和通用性。例如,在miniImageNet和tieredImageNet上,LDP在1-shot设置中的准确率相比基线方法提高了超过12%;在跨领域数据集CUB200上,1-shot情况下的准确率提高了6.45%,进一步证明了其在不同任务分布下的强大泛化能力。
本文的其余部分组织如下:第2节提供了相关研究的系统回顾和讨论,为所提出的方法提供了基础背景。第3节阐述了问题并详细描述了LDP框架及其关键模块的实现。第4节报告了实验结果,包括与最先进方法的比较、跨领域实验、消融研究、可视化分析、参数敏感性分析和收敛性分析,从而从多个角度验证了所提出方法的有效性和每个模块的贡献。最后,第5节总结了本文。
相关工作
少样本图像分类的目标是在极其有限的标记样本(通常每个类别只有1个或5个)下快速识别新类别。现有方法通常可以分为三类:
(1)基于优化的方法。这种范式的核心目标是学习一个初始化良好的模型参数,以便模型只需少量梯度更新就能快速适应新任务。模型不可知的元学习(Model-Agnostic Meta-Learning,MAML)(Finn等人,2017年)是一个代表
问题阐述
FSL旨在仅使用少量标记样本构建能够有效泛化到新类别的模型。具体来说,FSL基于两个数据集进行研究:基础数据集和新数据集包含一个类别集,其中使用大量样本训练模型。新数据集包含一个类别集,,其中,