CSM-Net:一种用于少样本学习的关联嵌入方法,该方法通过交叉记忆注意力机制进行了优化

【字体: 时间:2026年03月09日 来源:Neural Networks 6.3

编辑推荐:

  few-shot learning 的关键挑战在于有限标注样本下的类特定表示学习和样本间关系建模,同时数据扰动影响显著。本文提出 Cross-Memory Attention (CMA) 模块,通过从支持集和查询集提取记忆特征并整合,建模长程依赖并降低参数量。结合 Multi-sample Adaptive Fusion 模块处理多样本场景,以及 Domain Adaptation 模块缓解数据扰动问题,实验验证在四个公开数据集上显著优于基线方法。

  
徐文强|刘俊文|孙旭涛|任永功
辽宁师范大学计算机与人工智能学院,中国大连辽宁

摘要

小样本学习是机器学习中的重要研究领域之一。其目标是在极其有限的标记样本下训练模型,并将其泛化到未见过的类别或任务中。关键挑战在于学习特定类别的表示以及在有限监督下建模样本之间的关系。此外,在小样本设置中,数据扰动往往会产生更明显的影响。为了解决这些挑战,我们提出了跨记忆注意力(Cross-Memory Attention,简称CMA)。CMA从支持集和查询集中提取记忆特征,并将支持记忆整合到查询表示中。通过这种方式,我们的方法能够在保持较低参数数量的同时,模拟支持集和查询集之间的长距离依赖关系,从而解决样本间关系的建模问题。此外,领域适应模块(Domain Adaptation Module)通过使用扰动数据训练额外的分支来减轻数据扰动的影响。该模块构建了一个可学习的分类空间,其引入克服了固定、不可学习度量学习在分类空间中的局限性。为了使我们的跨记忆注意力机制能够应用于5样本场景,我们提出了一个多样本自适应融合模块(Multi-sample Adaptive Fusion Module),该模块可以应用于任何多样本学习框架。该模块能够有效地从多个样本中提取共同特征,使其具有通用性和适应性。最后,我们在四个公共数据集上进行了广泛的实验,验证了我们模型的有效性。代码可在以下链接公开获取:https://github.com/Mrliujunwen/cross-memory-fewshot

引言

目前,深度学习模型能够从大规模数据集中有效学习。然而,在许多现实世界场景中,收集和注释此类数据集的成本非常高昂,这使得收集足够的数据来训练深度神经网络变得具有挑战性。因此,小样本分类作为一个关键研究领域应运而生,旨在解决从有限数据中学习的挑战,并在机器学习社区引起了广泛关注。小样本学习的目标是通过学习支持集中的少量样本来对查询集中的样本进行分类。支持集和查询集之前都未经过训练。学习样本通常是1样本或5样本。
已经提出了许多深度学习方法(Jia等人,2024年;Minaee等人,2021年;Xin等人,2024年)来解决小样本学习问题。这些方法大致可以分为两类:基于优化的方法和基于度量的方法。基于优化的方法侧重于在少量支持样本的情况下快速更新模型,而基于度量的方法旨在学习一个将图像映射到度量空间中的嵌入函数,在该空间中,图像对之间的相关性由它们的距离决定(Argüeso等人,2020年;Bateni等人,2020年;Cai等人,2020年;Kang和Cho,2022年;Simon等人,2020年;Tian等人,2020年)。这两种范式都将小样本学习视为一个元学习问题。最近的研究表明,两阶段范式——首先在大型基础数据集上进行预训练,然后在小样本任务上进行微调——已成为主导策略。
然而,这种范式在小样本场景中仍然面临两个根本性挑战:如何快速学习支持集和查询集之间的相似性关系,以及如何在极端数据稀缺的情况下减轻数据扰动导致的性能下降。
在现有研究中,许多工作(Wang等人,2023年;Xia等人,2015年;Zhang等人,2022a)最初使用卷积神经网络(CNN)来提取图像特征。由于CNN在图像分类中表现出强大的性能并且被广泛采用,因此将其用于小样本图像分类是一个自然的选择。然而,最近的研究指出,虽然CNN在捕捉局部特征方面表现出色,但它们在模拟图像内的更广泛上下文信息方面存在困难。为了解决这一限制,一些研究人员提出了将CNN与Transformer架构结合的混合模型(Chen等人,2021年;Ran等人,2023年;Wang等人,2023年),或者完全用纯基于Transformer的骨干网络替代CNN,以更好地捕捉图像块之间的长距离依赖关系,从而获得更具区分性的特征表示。
尽管如此,这些方法在小样本场景中可能仍然存在不足,原因如下:
  • 1.
    现有方法通常采用CNN-Transformer混合(或纯Transformer)作为独立的骨干网络来独立编码每个图像,这在很大程度上忽略了支持集和查询集之间样本之间的内在关系——这些关系对于准确的相似性匹配至关重要。
  • 2.
    大多数当前框架遵循两阶段范式:首先在大型基础数据集上进行预训练,然后在小样本任务上进行基于度量学习的微调。当小样本数据受到扰动、噪声或代表性差的影响时,这种流程对这些干扰非常敏感,导致查询集和支持集表示之间的对齐显著下降。
  • 为了解决这些挑战,我们提出了CSM-Net,这是一个基于跨记忆注意力架构的小样本学习框架,该框架明确地模拟了支持集和查询集之间的关系。在其核心,CSM-Net使用跨记忆注意力(CMA)模块来捕获这些支持-查询交互,用于小样本分类。如图2所示,CMA模块引入了一种记忆注意力机制,不仅减少了参数数量,还学习了支持集内的更精确的内部信息。然后,将得到的记忆特征和查询集输入到记忆解码器中以加强它们之间的相互关系。此外,我们还加入了两个额外的模块来提高整体小样本学习性能。在1样本场景中,可以直接在支持集和查询集之间应用CMA。在多样本场景中,我们引入了一个多样本自适应融合(MAF)模块,该模块有效地从多个支持样本中捕获局部和全局特征,形成一个高质量的记忆块。此外,还设计了一个领域适应(DA)模块,以在某些支持样本噪声较大或不具代表性时提高鲁棒性。
    总之,本文的贡献可以总结如下:
  • 我们提出了一种新颖的CMA,可以学习支持集和查询集之间的相互关联。
  • 我们提出了一种MAF,它整合了来自多个样本的全局和局部信息,使其适用于任何小样本学习框架。
  • 我们开发了一个DA模块,可以在小样本条件下补偿度量学习中数据失真的影响。
  • 在四个广泛使用的小样本分类数据集上的实验结果证明了该方法的适用性和优越性。我们还进行了跨领域实验。
  • 相关工作

    相关研究

    当前的小样本学习方法大致可以分为两类:基于优化的方法和基于度量的方法(Xia等人,2015年;Zhang等人,2022a)。基于优化的方法(如Chen等人,2019年;Jamal和Qi,2019年)旨在通过快速更新网络参数来学习能够快速适应任务的网络模型。例如,模型不可知元学习(Model-Agnostic Meta-Learning)可以优化多个任务之间的初始化参数,实现快速适应

    提出的方法

    小样本学习的主要目标是分类少量未见过的样本。最近的研究(Gong等人,2023年;Wang等人,2023年;Zhang等人,2022a)表明,两阶段训练策略对小样本学习更为有效。第一阶段使用骨干网络训练通用特征提取器。第二阶段采用元学习训练策略来模拟小样本场景,然后应用度量学习进行分类

    数据集

    为了验证我们提出的模型,我们在四个公共数据集上进行了广泛的实验,包括miniImageNet(Vinyals等人,2016年)、tieredImageNet(Ren等人,2018年)、Fewshot-CIFAR100(FC100)(Oreshkin等人,2018年)和Caltech-UCSD Birds-200-2011(CUB)(Wah等人,2011年)。我们还进行了跨领域实验,以评估所提模型的领域迁移能力。我们的实验使用识别准确性作为评估指标。数据集的更详细描述如下

    结论

    在本文中,我们提出了一种新颖的跨记忆注意力机制,统一了支持集和查询集之间的关系。与纯Transformer相比,我们的方法在整合记忆特征的同时降低了关系嵌入的计算成本,从而统一了支持-查询关系。此外,为了使我们的支持-查询关系能够应用于多个样本,我们引入了一个多样本自适应融合模块,该模块全面整合了

    CRediT作者贡献声明

    徐文强:撰写 – 审稿与编辑,撰写 – 原始草稿,概念化。刘俊文:撰写 – 原始草稿,验证,方法论。孙旭涛:可视化,验证。任永功:撰写 – 审稿与编辑,资金获取,概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号