SPG-Mask：一种基于自监督前景结构先验的细粒度视觉分类方法，该方法采用动态掩码优化技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：SPG-Mask: Fine-Grained Visual Classification with Self-Supervised Foreground Structural Prior Driven Dynamic Mask Optimization

【字体：大中小】 时间：2026年03月07日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　细粒度视觉分类中提出SPG-Mask方法，通过自监督学习构建自适应前景结构先验，结合动态掩码优化和跨层语义融合模块，有效解决ViT架构在细粒度任务中的背景干扰和局部特征稀疏问题，在多个数据集上达到最优性能。

何慧明|李瑶|曹福远|杨洪菊

教育部与信息技术部计算智能与中文信息处理重点实验室，山西大学，太原，030006，山西，中国

摘要

视觉Transformer（ViT）已成为细粒度视觉分类（FGVC）领域的主流架构。然而，它存在一个固有的局限性：全局感受野会引入背景干扰，而自注意力机制则分散了对关键区域的关注，导致局部特征稀疏。传统方法通常采用硬选择策略来过滤冗余信息；但这些方法往往会影响对象的结构完整性，或者依赖于静态的外部线索。为了解决这些问题，我们提出了一种新的基于前景结构先验的动态掩码优化网络（SPG-Mask）。该网络通过从被动选择转变为主动优化，首先利用自监督学习构建一个潜在的自适应前景结构先验（AFSP），以捕获整体的结构信息。在这个先验的指导下，引入了一个个性化掩码提取（PME）模块，该模块包含差异化的奖励和惩罚机制。这种机制能够动态突出关键结构成分，同时抑制背景噪声，从而保留最小但语义上完整的特征。此外，还设计了一个多层次特征协同（MLTS）模块，用于整合不同层之间的互补语义。在CUB-200-2011、Stanford Dogs和NABirds三个基准数据集上进行的广泛实验表明，所提出的方法取得了最佳性能（SOTA）。结果表明，SPG-Mask在可解释性和效率方面均优于现有方法。源代码可在以下链接获取：https://github.com/Hehuiming123/SPG-Mask

引言

细粒度视觉分类（FGVC）旨在识别同一粗粒度类别内的相似子类别[1]、[2]、[3]、[4]。由于类别内部差异较大且类别间差异微妙，这类任务具有挑战性。传统的FGVC方法主要使用卷积神经网络（CNN）[5]、[6]、[7]、[8]、[9]作为骨干，通过局部感受野来建模空间结构关系。然而，这些方法在捕捉长距离依赖关系时往往存在局限性。近年来，视觉Transformer（ViT）[10]因其强大的全局建模能力[11]、[12]、[13]而成为主流架构。然而，直接将ViT架构应用于FGVC会引入一个根本性的权衡：全局感受野不可避免地会引入无关的背景干扰，而自注意力机制则可能导致关键区域的关注分散，从而产生特征稀疏。

为了解决这些问题，当前的最新技术（SOTA）方法通常采用基于选择的范式。例如TransFG [14]和MASK-ViT [15]采用硬选择策略，仅保留注意力分数最高的特征。尽管这种方法可以过滤掉部分背景噪声，但往往会破坏对象的结构完整性，导致特征片段化且缺乏语义上下文。此外，一些先前的工作（如Zhang等人[16]）依赖于替换背景块，可能无法完全消除特征中的噪声；而Huang等人[17]则专注于优化特征表示，而没有充分挖掘实体本身的内在结构信息。因此，这些方法往往难以平衡抑制背景干扰和保持关键前景完整性的目标。

为了解决这一限制，我们认为有效的特征选择不应基于分数的盲目截断，而应是一个由结构先验引导的主动优化过程。如图1(a)所示，理想的感知应该集中在完整的关键区域。然而，如图1(b)中的黄色框所示，传统的ViT由于过度激活而存在背景噪声泛化问题。同时，红色框所示的关键部分特征由于背景干扰而变得稀疏，导致结构连通性丧失。虽然传统的掩码方法[14]、[15]试图解决这个问题，但它们往往会破坏对象结构，如图1(c)所示。

为了解决这些挑战，我们提出了一种新的基于前景结构先验的动态掩码优化网络SPG-Mask。与以往的工作不同，SPG-Mask利用多层注意力权重[10]构建一个全局多粒度图。通过结合环境感知阈值和形态学操作，提取最大连通区域以生成自监督的前景图，如图1(d)所示。该图作为自适应前景结构先验（AFSP），无需像素级注释即可提供对象形状和位置的完整视图[18]、[19]。在此基础上，引入了一个由差异化奖励和惩罚机制控制的个性化掩码提取（PME）模块。该模块不是采用固定的选择策略，而是通过在前景先验中动态奖励关键特征并惩罚背景特征来明确嵌入位置结构信息[20]、[21]、[22]，如图1(e)所示。这种机制确保模型在抑制全局噪声的同时最大化关键区域的完整性。因此，图1(f)中生成的个性化掩码能够有效过滤冗余信息，同时保持语义连续性[15]、[23]、[24]。为了确保不同数量保留的特征之间的批量一致性，在将特征输入自注意力层之前使用了动态填充。最终，这种选择性处理策略有效解决了背景干扰和局部特征稀疏之间的矛盾。此外，考虑到关键特征具有层次分布特性，还设计了一个多层次特征协同（MLTS）模块。如图6中的实验所示，不同ViT层的特征表现出强烈的互补性。MLTS模块通过集成学习融合了这些跨层语义，进一步增强了识别能力。总之，本研究的主要贡献如下：•

我们分析了将ViT应用于FGVC任务的局限性，并提出了一种新的端到端的前景结构先验引导的动态掩码优化网络（SPG-Mask）。

•

我们提出了AFSP模块，通过参数共享将生成的前景图像聚焦于目标区域，并指导掩码优化过程。为了进一步增强先验知识的表示能力，我们引入了前景-背景对比学习策略。

•

我们提出了PME模块。通过引入前景结构先验，它对实体内部和外部的特征应用差异化的奖励和惩罚规则，有效过滤冗余特征，同时保留最小但完整的特征。

•

我们提出了MLTS模块，利用ViT不同层的特征语义互补性，并通过集成学习融合跨层特征。

•

在三个广泛使用的FGVC数据集上的广泛实验表明，SPG-Mask在FGVC任务中取得了最佳性能（SOTA）。

本文的结构如下：第2节介绍当前研究背景；第3节详细阐述所提出的方法；第4节展示实验结果及相应分析；第5节总结我们的工作。

章节摘录

特征表示方法

早期的FGVC方法主要依赖部分注释或边界框[25]、[26]、[27]来定位关键区域。然而，获取这些详细注释需要高昂的人工成本和计算复杂性，限制了其在实际应用中的可行性。因此，研究人员转向了仅使用图像级标签的弱监督范式[28]、[29]、[30]。CP-CNN [26]提出了一种基于弱监督的方法

方法

在本节中，我们介绍了SPG-Mask的总体框架和详细的工作流程，并对所提出的模块和方法进行了全面阐述。

实验

在本节中，我们首先介绍实验设置，包括数据集和实现细节。然后，我们通过消融研究分析模型的鲁棒性，并通过定性分析和可视化结果验证SPG-Mask的可解释性。

结论

在本文中，我们提出了SPG-Mask，这是一种新的端到端网络框架，旨在缓解基于ViT的FGVC方法中固有的背景噪声干扰和局部特征稀疏问题。具体来说，我们引入了AFSP模块，该模块通过自监督学习生成前景图作为结构先验，从而指导模型的关注焦点。利用这一先验，PME模块动态过滤冗余特征，同时保留最小但完整的特征。

CRediT作者贡献声明

何慧明：撰写原始草稿、可视化、验证、项目管理、方法论研究、数据分析、概念化。李瑶：验证、项目管理、数据分析、形式化分析。曹福远：软件开发、资源协调、研究支持、资金筹集。杨洪菊：验证、项目管理、软件开发、资源协调、研究支持、资金筹集。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

报告与某方存在关系；持有待审批的专利。如果有其他作者，他们声明没有已知的可能影响本文研究的财务利益或个人关系。

致谢

本研究得到了中国国家自然科学基金（项目编号62376145）、山西省自然科学基金（项目编号202303021211024）以及中国国家自然科学基金重点项目的支持（项目编号U24A20323）。

联系信箱：

粤ICP备09063491号

摘要

引言

章节摘录

特征表示方法

方法

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行