在双曲空间中对细粒度图像进行分类

《Pattern Recognition》:Classify Fine-Grained Images in Hyperbolic Space

【字体: 时间:2026年02月23日 来源:Pattern Recognition 7.6

编辑推荐:

  细粒度视觉分类通过双曲几何模型H-FGVC和MTH-FGVC实现性能提升,利用指数映射将欧氏特征转换至Poincaré球,基于测地距离优化分类决策,并引入多任务学习实现轻量级双曲监督,在CUB-200-2011、Stanford Dogs等数据集上验证有效性。

  
余子禾|赖浩宇|刘彦霞
华南理工大学软件学院,中国广东省广州市番禺区,510000

摘要

细粒度视觉分类(FGVC)面临着重大挑战,因为类间距离很小而类内变化很大。传统方法通常侧重于识别最具区分性的区域或增强特征提取;然而,它们通常在欧几里得空间中操作,类间特征的接近性限制了可分性。最近的研究表明,双曲几何(例如庞加莱球)可以提供更大的表示能力,并为细粒度区分产生更大的有效边界。受此启发,我们提出了双曲细粒度视觉分类(H-FGVC),它通过指数映射将欧几里得空间中的主干特征映射到双曲空间,并使用基于测地距离的logits进行分类;我们的重点在于实用性而非架构新颖性。为了提高实用性,我们进一步提出了多任务学习双曲细粒度视觉分类(MTH-FGVC),它通过多任务学习集成一个双曲辅助头来监督和增强欧几里得分支,而无需重新设计主干,产生的开销可以忽略不计,并且推理过程保持不变。在标准细粒度基准测试上的评估显示了一致的准确率提升和有竞争力的性能,证明了双曲空间在细粒度图像识别中的有效性。

引言

细粒度视觉分类(FGVC)旨在区分密切相关的子类别,例如不同品种的鸟类[1]或汽车[2]。与传统图像分类不同,FGVC需要检测对象视觉属性中的细微差异——如颜色、形状和纹理。这项任务由于其广泛的研究需求和在各个领域的实际应用而具有相当大的挑战性。FGVC的主要挑战包括:1)类内变异性高而类间变异性低;2)类别数量通常很多,且难以获得大量高质量的训练数据。因此,能够捕捉细微区分线索的有效算法对于FGVC至关重要。
在应对FGVC的挑战时,现有方法主要分为两类:基于定位的方法和端到端的方法[3]。基于定位的网络专注于识别对分类至关重要的区域。例如,[4]通过采用面向特征的高斯混合模型解决了局部区域扩散问题,提高了定位精度;[5]利用Gabor滤波器隔离出能够指出区分区域的纹理特征。在具有挑战性的检测环境中,相关的工作也强调区分性特征提取和分配,以抑制背景杂乱并突出目标线索[6]、[7]。相反,端到端网络旨在在统一的架构中无缝提取细粒度特征。[8]通过合并不同层次的特征来提高分类效果,[9]利用自注意力来突出最关键的特征,通过比较损失函数增强模型的区分能力。在有限的监督下,也探索了部分感知表示学习来加强局部区分。虽然这些策略有效地利用了欧几里得嵌入进行特征学习,但最近的研究[10]强调了欧几里得空间在捕获复杂数据结构方面的局限性。双曲空间以其有效表示分层和复杂网络架构的能力而闻名[11],对于FGVC任务中常见的数据类型具有显著优势。已经有人尝试在双曲空间中表示和处理图像特征[12]。然而,将双曲空间应用于提高FGVC性能的研究仍然不足,为未来的研究提供了有希望的方向。
在本文中,我们提出了两种实用方法:双曲细粒度视觉分类(H-FGVC)和多任务学习双曲细粒度视觉分类(MTH-FGVC)。我们采用庞加莱球模型作为双曲几何,并通过指数映射将其与欧几里得特征相对应;相似性通过流形上的测地距离来衡量。由于双曲空间的指数体积增长[13],它可以为细粒度区分分配更多的表示能力并提供更大的有效边界,这适用于具有内在分层或树状结构的数据[14]。重要的是,我们的方法不假设明确的标签分类法。在标准FGVC设置中,所有类别都是单个超类的子类型,学习到的特征仍然沿着潜在的粗到细的属性(如部分、纹理和形状)组织,从而产生受益于双曲度量的局部树状邻域。
H-FGVC将最终的主干特征映射到庞加莱球,并通过计算到决策超平面的有符号双曲距离来进行分类。这一动机来源于一个与细粒度识别特别相关的几何属性。在FGVC中,许多类别在外观空间中是近邻的,正确分类所需的分离往往很微妙。当大量视觉相似的类别占据表示空间的有限区域时,欧几里得嵌入倾向于表现出局部拥挤,多个近邻类别争夺小的角度和径向差异,导致区分边界减小。双曲几何通过其非均匀的度量提供了不同的表示能力分配。在庞加莱模型中,距离向边界扩展,从而为由视觉相似类别形成的密集区域提供了更多的表示能力。如图1(a)所示,嵌入可以保持全局紧凑,同时仍然允许视觉相关组内的细粒度类别分散。图1(b)进一步对比了距离度量:欧几里得相似性由‖?·?‖2控制,而双曲相似性由测地距离dH控制,这可以为近邻类别产生更大的有效分离。这种几何偏见在模糊的细粒度情况下促进了更大的边界,并提高了特征的可分性。
虽然端到端的双曲部署可以提高可分性,但在复杂的管道或具有固定主干和下游模块的设置中可能会不方便,因为必须在整个架构中传播流形感知的特征转换和操作。为了保留双曲学习的好处而不重新设计现有组件,我们引入了MTH-FGVC,这是一种多任务训练策略,它在训练期间添加了一个双曲辅助头以提供流形感知的监督,同时保持标准的欧几里得头作为唯一的推理路径。这种训练-推理解耦保留了主干和优化方案,产生的部署开销可以忽略不计,并使得双曲学习能够在不同的主干上即插即用。实证表明,MTH-FGVC提高了特征的可分性,并在细粒度基准测试上一致地提高了准确率,而无需修改推理管道。这项工作的贡献可以总结如下:
  • 我们提出的H-FGVC方法将双曲空间应用于FGVC。将特征映射到双曲空间解决了欧几里得空间中复杂细粒度数据的分离性差的问题,从而显著提高了识别性能。
  • 我们引入了MTH-FGVC,这是一种多任务设计,在训练期间添加了一个轻量级的双曲辅助头进行测地监督。它利用了双曲几何的边界和层次优势,同时避免了流形的重新实现,可以在不同架构中即插即用,并且不会增加推理开销。
  • 我们在三个常用且具有竞争力的FGVC数据集上验证了我们方法的有效性,为寻求提高细粒度分类效果的研究开辟了新的途径。
  • 章节片段

    细粒度图像识别

    细粒度图像识别的主要目标是详细检查几个视觉分析任务,包括在常规类别中定位、识别和检索对象的子类别图像(例如鸟类、汽车、狗)。关于这个主题的文献通常分为两大类:定位方法和特征编码方法[3]。
    定位方法旨在识别细粒度中的区分性特征的位置

    提出的方法

    在本节中,我们介绍了本研究中使用的双曲空间模型,特别是庞加莱球模型,以及相关定义。然后我们介绍了我们的H-FGVC和MTH-FGVC方法,它们包括三个组成部分:双曲空间中的特征嵌入、双曲细粒度图像分类和双曲空间中的多任务学习。图2提供了整个架构的概述。

    实验设置

    数据集。实验在三个流行的FGVC数据集上进行:CUB-200-2011 [33]、Stanford Dogs [34]和NABirds [1]。如表1所示,训练集和测试集样本按照官方指南进行了划分。
    实现细节。在所有实验中,预训练在ImageNet上的Swin Transformer Base模型被用作提取图像特征的主干。对于所有数据集,初始图像大小为512?×?512,在训练过程中通过随机裁剪减小到384?×?384

    结论

    本文提出了双曲细粒度视觉分类,该方法利用庞加莱球来建模细粒度图像表示。通过将欧几里得主干特征通过指数映射映射到双曲空间,并使用双曲决策几何进行分类,所提出的方法提高了视觉相似类别之间的可分性。为了避免在整个复杂管道中传播流形感知操作,我们进一步提出了MTH-FGVC,这是一种多任务

    CRediT作者贡献声明

    余子禾:撰写——原始草稿,可视化,验证,软件,形式分析,数据策划。赖浩宇:软件,方法论,概念化。刘彦霞:撰写——审阅与编辑,监督。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

    致谢

    这项工作部分得到了广东省基础与应用基础研究基金(项目编号2024A1515012014)的支持,同时也得到了国家自然科学基金(项目编号82272617)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号