用于无监督可见光-红外人重识别的双层次模态偏差消除学习

《Pattern Recognition》:Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification

【字体: 时间:2026年02月11日 来源:Pattern Recognition 7.6

编辑推荐:

  无监督可见-红外行人重识别中提出双层级模态去偏学习框架,通过因果干预模块抑制跨模态学习中的模态特定特征干扰,结合数据增强、标签优化和特征对齐的协作去偏训练策略,有效提升模型模态鲁棒性和泛化能力。

  
Jiaze Li|Yan Lu|Bin Liu|Guojun Yin|Mang Ye
中国科学技术大学,合肥,230026,中国

摘要

两阶段学习流程在无监督的可见光-红外人重识别(USL-VI-ReID)任务中取得了有希望的结果。该流程首先进行单模态学习,然后进行跨模态学习以解决模态差异问题。尽管这种方法很有前景,但它不可避免地引入了模态偏差:在单模态训练中学习到的模态特定线索会自然地传播到后续的跨模态学习中,从而影响身份识别和泛化能力。为了解决这个问题,我们提出了一个双层次模态去偏学习(DMDL)框架,该框架在模型层和优化层都实施了去偏处理。在模型层,我们提出了一个基于因果关系的调整干预(CAI)模块,用因果建模替代了基于似然的建模,防止了由模态引起的虚假模式的产生,从而得到了一个低偏差的模型。在优化层,我们引入了一种协作式无偏训练(CBT)策略,通过整合模态特定的增强、标签精炼和特征对齐来中断模态偏差在数据、标签和特征之间的传播。在基准数据集上的广泛实验表明,DMDL能够实现模态不变的特征学习,并得到一个更具泛化能力的模型。

引言

可见光-红外人重识别(VI-ReID)专注于在不同模态(可见光和红外)之间识别和匹配个体。这一领域已经取得了显著的进展,现有工作的成功证明了这一点[1]、[2]。然而,收集大量的跨模态注释是一个成本高昂且耗时的过程,这限制了其更广泛的应用。作为解决方案,无监督的可见光-红外人重识别(USL-VI-ReID)[3]、[4]、[5]应运而生,它可以在不依赖人类身份标签的情况下实现VI-ReID。
USL-VI-ReID的主要挑战是模态差异,这限制了传统无监督ReID方法的直接应用。因此,USL-VI-ReID的主流方法通常遵循两阶段学习流程[4]、[5]、[6]、[7]:1)在第一阶段,通过分别对每种模态应用无监督学习技术[8]来训练模型,使其具有单模态识别能力。2)在第二阶段的跨模态无监督过程中,模型交替建立跨模态关系并拟合这些关系以实现跨模态识别能力。尽管这种方法很有前景,但它也存在模态偏差问题,这限制了整体效果。第一阶段的单模态学习过程会自然捕获来自可见光/红外数据的模态特定线索,导致模型产生偏差。用这种模型初始化第二阶段会不可避免地将模态偏差引入跨模态学习中,从而导致跨模态关系的偏差,例如,相似的服装颜色线索可能导致跨模态的错误匹配,如图1(a)所示。由于跨模态关系(即伪标签)是第二阶段模型拟合的目标,因此偏差知识(即模态特定线索)会在学习到的模式中逐渐增强,从而导致与模态相关的特征。总之,源自数据的模态偏差会传播到标签和特征中,使得模型依赖于模态特定线索进行识别,从而显著限制了其泛化能力。
为了解决上述模态偏差问题,我们提出了一个双层次模态去偏学习(DMDL)框架。DMDL在模型层和优化层都进行了模态去偏处理,前者防止模型在错误的跨模态关系中学习到模态偏差,后者旨在直接中断偏差知识从数据到标签和特征的传播。为此,我们提出了一个基于因果关系的调整干预(CAI)模块和一种协作式无偏训练(CBT)策略。具体来说,CAI在跨模态无监督学习中通过后门调整促进了因果干预,使模型仅捕获因果模式。与传统的基于似然的方法相比,CAI中的因果建模理论上不受模态偏差的影响,从而得到了一个低偏差的模型。为了进一步防止优化过程中偏差知识的加深,我们提出了CBT策略,整合了数据增强、标签精炼和特征对齐。CBT首先引入了一种伪模态增强方案来修改图像中的模态特定线索。基于增强后的图像,我们提出了一个跨模态标签平滑方案和一个特征对齐损失,分别用于精炼偏差关系和学习跨伪模态的共享知识。通过联合利用这些组件,CBT明确中断了模态偏差在数据、标签和特征之间的传播。最终,整个DMDL实现了有效的模态去偏,如图1(b)所示。
我们的主要贡献总结如下:
  • (1)
    我们研究了现有USL-VI-ReID方法的模态偏差问题,并提出了一个在模型层和优化层都进行操作的双层次模态去偏学习(DMDL)框架,以学习模态不变的特征表示。
  • (2)
    我们在模型层提出了一个基于因果关系的调整干预(CAI)模块,有效地建模了因果模式,构建了一个低偏差的模型。
  • (3)
    我们在优化层提出了一个协作式无偏训练(CBT)策略,结合了标签精炼和特征对齐以及模态特定的数据增强,以防止拟合出偏差知识。
  • (4)
    在标准的可见光-红外ReID基准数据集上进行的广泛实验证明了我们方法的有效性和优越性。
  • 部分摘录

    无监督可见光-红外人重识别

    传统上,可见光-红外ReID和无监督ReID被视为两个相对独立的任务。无论是图像级别[9]还是视频级别[10]、[11]的VI-ReID,其核心目标都是构建一个在可见光和红外领域一致的可跨模态身份识别空间。相比之下,无监督ReID[12]、[13]通常侧重于利用多视图信息或局部特征交互来生成可靠的伪标签,从而实现学习

    概述

    双层次模态去偏学习(DMDL)的框架如图2所示,它包含了基于因果关系的调整干预(CAI)模块和协作式无偏训练(CBT)策略。在跨模态学习中,DMDL首先迭代匹配不同模态的簇,以获得一种伪标签形式的跨模态关系。然后,CAI使用后门调整算法进行因果干预,引导模型捕获

    数据集和评估协议

    数据集。在本节中,我们在两个广泛使用的数据集SYSU-MM01 [36]和RegDB [37]以及一个较新的数据集LLCM [38]上进行了全面实验,以评估所提出的方法。
    SYSU-MM01数据集包含4个可见光摄像头和2个红外摄像头,训练集包含395个身份样本,测试集包含96个身份样本。测试查询集包含3,803张红外图像,图库集包含301张可见光图像。评估协议提供了全搜索和室内搜索模式。

    结论

    在本文中,我们研究了无监督VI-ReID中的模态偏差问题,并提出了一种新颖的双层次模态去偏学习(DMDL)框架,从模型和优化的角度来解决这个问题,该框架结合了基于因果关系的调整干预(CAI)模块和协作式无偏训练(CBT)策略。CAI模拟了图像和伪标签之间的因果关系,以捕获稳定、与模态无关的模式,从而构建了一个低偏差的模型

    CRediT作者贡献声明

    Jiaze Li:撰写——原始草稿、可视化、软件、方法论、形式分析。Yan Lu:撰写——审稿与编辑、撰写——原始草稿、方法论、形式分析。Bin Liu:撰写——审稿与编辑、监督、资金获取。Guojun Yin:撰写——审稿与编辑、方法论。Mang Ye:撰写——审稿与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号