Learning Boost–Inhibition:用于弱监督可见光-红外图像组重识别的方法

【字体: 时间:2026年03月13日 来源:Pattern Recognition 7.6

编辑推荐:

  面向可见-红外模态的群体重识别弱监督方法与数据集构建

  
梅玲|冯占祥|赖建光|程一伟|张培英|王健
中国武汉科技大学电子与信息工程学院

摘要

群体重识别(GReID)旨在将不同视角下的行人进行匹配。现有方法主要针对白天可见光场景设计,在夜间可见光-红外(VI)场景中缺乏鲁棒性,因为动态的群体成员变化和跨模态差异会共同降低群体一致性。因此,群体标签本质上存在噪声,严重限制了GReID方法在现实世界监控中的应用。为了解决这些问题,我们提出了一个名为“Boost-Inhibition Fusion(BIF)”的两阶段框架。在第一阶段,基于互信息的提升模块利用弱监督来提取跨模态的一致性线索,将群体身份与轨迹关联起来。在第二阶段,无监督的层次相关性学习模块增强群体内部相关性并抑制群体差异,有效减轻噪声标签的不利影响。此外,我们还提供了一个新的合成VI-GReID数据集,填补了生成式基准测试的空白。所提出的方法在VI-GReID基准测试中始终优于现有方法,在具有挑战性的CM-Group数据集上,Rank-1/mAP分别提高了18.46%和17.78%,同时在可见光GReID基准测试中保持了强大的鲁棒性。

引言

群体重识别(GReID)旨在通过非重叠摄像头关联行人群体,利用群体布局和群体内部关系提供比个人重识别(ReID)更稳定的线索。它支持多种智能监控应用,包括群体活动分析[1]、多行人跟踪[2]和公共安全预防[3]。然而,在实际应用中,特别是在低光照或夜间场景中,可见光(RGB)图像经常受到严重的光照退化[4],使得外观线索不可靠。红外(IR)成像提供了一种互补的模态,在这种条件下仍然有效。这激发了可见光-红外群体重识别(VI-GReID)的任务,该任务利用跨模态的互补线索和群体内部上下文来实现更长时间的群体检索,例如全天候应用[5]。
对于可见光-红外(VI)场景,RGB和IR领域之间的显著模态差异(即颜色与灰度特征)以及群体级注释数据的稀缺性带来了重大挑战。然而,大多数现有VI方法主要集中在个人重识别[6]上,而群体重识别则尚未得到充分探索。由于人们通常以群体形式行走,因此研究VI-GReID场景至关重要,因为它们在长期轨迹预测和群体跟踪中起着关键作用。如图1所示,VI-GReID必须应对群体动态的变化(例如布局和成员变化[5])以及跨模态差异,包括光照变化(如反光)。总体而言,VI-GReID面临两个主要挑战:(1)缺乏对细粒度群体内部成员关系的探索,这对于理解跨模态的稳定群体动态至关重要;(2)过度依赖监督注释,这些注释获取成本高昂,并且由于多样化的VI环境中的动态群体变化而常常不可靠。
然而,现有方法通常依赖于完全监督的学习和静态视觉特征,同时忽略了来自群体级时间动态和潜在群体内部交互的噪声标签的不利影响。在VI-GReID中,标签噪声表示分配的群体身份标签与不同视角和模态下的真实群体对应关系之间的任何不一致。如果样本的身份或VI对应关系被错误标记,或者由于成员变化或注释错误导致群体实例构建错误,则该样本被视为噪声样本。这会破坏正常的训练信号,特别是在弱监督或无监督学习中,放大虚假线索并导致过拟合和泛化能力差。(1)模态内群体身份噪声:同一模态中视觉上相似或部分重叠的群体被分配了错误的ID(例如,IR的低纹理使得两个轮廓/形状相似的群体容易混淆)。(2)跨模态群体对应关系噪声:VI外观差异导致跨模态匹配错误,破坏了真实的对应关系(例如,颜色/配饰在IR中消失,导致RGB群体与另一个具有相似布局的IR群体不匹配)。(3)注释噪声:群体成员变化、边界模糊、遮挡和人为错误导致群体实例标记错误或不完整(例如,成员在摄像头之间加入/离开,或者旁观者被意外包括/排除,同时保持相同的ID)。
为了解决这些问题,我们提出了一个名为“Boost-Inhibition Fusion(BIF)”的两阶段框架,该框架通过联合处理身份多样性和在弱监督下的群体内部一致性,为VI-GReID问题提供了新的视角。在第一阶段,我们设计了一个基于互信息的目标函数,以增强群体身份与其跨模态时空轨迹之间的相关性,促进身份感知的行为多样性,同时减轻模态差异。在第二阶段,开发了一个无监督的层次相关性学习模块来抑制群体内部不一致性,并加强成员间的连贯性,从而抑制噪声或不确定标签的不利影响。
据我们所知,这是首次将互信息建模和无监督标签噪声抑制明确整合到群体级重识别中的工作,为处理具有挑战性的群体场景中的身份歧义和跨模态表示学习提供了一个原理性和可泛化的框架。
总结如下:
  • 我们提出了一个弱监督提升(WSB)模块,该模块最大化群体成员身份与其轨迹之间的互信息,以学习具有区分性的群体级表示。这种设计能够在弱监督下有效地进行可见光和红外模态的特征学习,并且对噪声或模糊的群体注释具有鲁棒性。
  • 为了解决异构的群体级标签噪声,我们引入了一个无监督抑制过程(UIP),通过解耦模态不变因素并抑制对噪声标签的依赖来减少模态差异。这一过程增强了模态内部的一致性,并在不需要额外监督的情况下提高了跨模态的身份区分能力。
  • 我们引入了一个新的VI-GReID数据集VI-OWGA,以及一个统一的两阶段Boost-Inhibition Fusion(BIF)框架,该框架结合了WSB和UIP,实现了鲁棒的跨模态群体重识别。在多个GReID基准测试中的广泛评估表明,我们的方法始终优于现有方法。
  • 部分摘录

    可见光-红外人员重识别(VI-ReID)

    在VI场景中,以人为中心的检索最初是通过个体行人匹配来探索的,主要挑战在于可见光和红外模态之间的巨大差异。现有研究主要集中在学习跨模态共享的知识,以对齐可见光和红外特征表示。例如,Park等人提出了[7]跨模态特征之间的像素级对应关系,以抑制与模态相关的人员表示。

    提出的方法

    在本节中,我们提出了一个用于VI-GReID任务的弱监督BIF框架。标签噪声通常由动态的群体成员变化和跨模态不一致性引起,这使得群体身份的注释变得复杂。具体来说,与涉及单个行人且无歧义的传统ReID任务不同,或者在单一可见光模式下可以可靠匹配群体身份的不同,VI-GReID下的群体级标签可以被视为一种弱监督形式

    实验

    为了验证我们方法的有效性和泛化能力,我们在四个现有的GReID数据集上评估了我们的方法:CM-Group [19]、我们构建的VI-OWGA数据集、RoadGroup [15]和CSG数据集 [14]。前两个是跨模态的可见光-红外场景,而后两个仅在可见光模态下运行。

    结论

    在这项工作中,我们提出了一个用于VI-GReID的弱监督BIF框架,有效解决了模态差异和特定于群体的标签噪声问题。在多样化的基准测试中的广泛实验一致证明了我们方法的优越性和鲁棒性。在具有挑战性的可见光-红外场景中,BIF实现了76.14%的R1准确率,并在新引入的VI-OWGA数据集上保持了95.7%的R1准确率,该数据集作为补充的VI-GReID

    CRediT作者贡献声明

    梅玲:撰写——原始草稿、验证、软件、资源、方法论、调查、资金获取、数据管理、概念化。冯占祥:撰写——审阅与编辑、监督、方法论、调查、形式分析。赖建光:撰写——审阅与编辑、监督、资源、项目管理、形式分析、概念化。程一伟:可视化、软件。张培英:撰写——审阅与编辑、资源、调查。王健:

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了中国国家自然科学基金(项目编号62306218)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号