一种细粒度、基于语义的行人识别方法,适用于可见光和红外图像融合

《TRENDS IN FOOD SCIENCE & TECHNOLOGY》:A Fine-Grained Semantic-Driven Pedestrian Identity-Aware Method for Visible and Infrared Image Fusion

【字体: 时间:2026年05月10日 来源:TRENDS IN FOOD SCIENCE & TECHNOLOGY 15.4

编辑推荐:

  刘晓文|霍洪涛|曹浩哲|王仁华|董旭|庞山|李静 中国人民公安大学信息技术与网络安全学院,北京,100038,中国 **摘要** 可见光和红外图像融合(VIF)旨在整合多模态互补信息以实现场景的全面表示,但现有的基于视觉指导和语义驱动的VIF方法依赖于粗粒度的一致性

  刘晓文|霍洪涛|曹浩哲|王仁华|董旭|庞山|李静
中国人民公安大学信息技术与网络安全学院,北京,100038,中国

**摘要**
可见光和红外图像融合(VIF)旨在整合多模态互补信息以实现场景的全面表示,但现有的基于视觉指导和语义驱动的VIF方法依赖于粗粒度的一致性约束。这导致了模态偏移和细粒度的语义损失,严重降低了融合图像在高精度下游任务(如人物重识别(ReID)中的性能,而这些任务需要准确的行人身份特征。为了解决这个问题,我们提出了一个统一的优化框架,该框架整合了行人身份感知和VIF,并通过细粒度的语义约束来学习更具区分性的跨模态融合空间。首先,我们设计了一种模拟的行人-场景合成方法,通过融合主流的ReID和VIF数据集生成具有丰富背景和标注身份的前景图像的训练数据。其次,我们提出了DPSFusion方法,该方法基于双阶段渐进式语义细化机制,包括用于初始跨模态语义对齐的特征级粗优化(FCO)和通过跨任务监督进行精确语义细化的语义级微调(SFT)。此外,我们构建了第一个带有身份标注的VIF验证数据集,以直接量化融合结果中与身份相关的细粒度信息的保留情况。定性和定量实验表明,我们的方法在视觉表现上优于现有的最佳技术(SOTA),并且在对象检测和ReID任务上的验证也证实了其在保留粗粒度和细粒度语义方面的优越性。代码和数据将在论文发表后公开提供。

**引言**
单模态图像在提供场景的全面表示方面存在固有的局限性。例如,可见光图像能够捕捉丰富的纹理细节,但对成像环境非常敏感。在低光照、烟雾遮挡或极端天气等不利条件下,可见光图像经常受到严重降质,导致后续分析所需的关键视觉信息丢失。相比之下,红外图像能够检测到物体发出的热辐射,因此对复杂的环境干扰具有较高的鲁棒性。然而,它们通常缺乏细粒度的纹理和空间细节,导致语义区分度不足和物体表示模糊。可见光-红外图像融合(VIF)旨在整合这两种模态的信息,生成包含全面信息的融合图像。VIF已广泛应用于各种视觉增强和下游任务中,包括低光增强[1]、对象检测[2]、语义分割[3]和智能交通[4][5]。

现有的VIF方法大致可以分为基于视觉指导和语义驱动的两种范式。基于视觉指导的方法(例如CNN[6][7]、GAN[8][9]或Transformer[10][11])主要优化融合图像与源图像之间的像素或特征级一致性。尽管这些方法在视觉保真度方面取得了令人印象深刻的成果,但它们常常忽略了语义完整性,特别是在存在显著模态差异的复杂环境中。为了解决这个问题,研究人员提出了基于高级视觉任务来指导融合过程的语义驱动融合方法。值得注意的是,Tang等人系统地验证了语义驱动方法在提升融合图像下游任务性能方面的有效性,为后续研究奠定了坚实的基础[12]。语义驱动方法可以分为语义先验引导方法、语义监督方法和跨任务协同优化方法,这些方法都能确保语义一致性(例如,保留行人区域)并提高高级任务的性能。三种语义驱动机制之间的差异如图1所示。

上述方法主要集中在粗粒度的语义提取上,缺乏针对需要细粒度语义的下游任务(如行人身份识别)的有效约束。如图2所示,在现实世界的监控场景中,监控设备是信息获取的重要工具。它们能够在不同环境中捕捉行人轨迹,从而实现关键人员的精确跟踪和管理。现代监控系统主要使用单模态红外或可见光摄像机,或双光谱摄像机。单模态设备具有固有的局限性,而可见光-红外图像融合技术则整合了两种模态的互补信息,以减轻复杂场景中的信息损失。然而,现有的融合方法更重视视觉或粗粒度的语义一致性,忽略了由模态差异引起的身份信息扭曲。这导致在融合过程中丢失了关键的身份特征,无法满足实际监控的精确跟踪要求。

**人物重识别(ReID)任务**旨在在不同视角或场景下匹配行人身份。在复杂环境中,单模态可见光图像不够充分,因此发展出了可见光-红外跨模态ReID(VI-ReID)[15]。VI-ReID面临两个核心挑战:红外图像简化了行人细节和纹理,阻碍了与可见光图像的有效特征对齐;同时,可见光图像中的行人特征在不利条件下容易退化,导致身份匹配错误。这揭示了VIF和VI-ReID任务之间的互补性:VIF能够实现稳健的场景表示和跨模态信息整合,但缺乏建模细粒度语义的能力;VI-ReID在提取细粒度语义细节方面表现出色,但在复杂场景中容易受到环境干扰。

基于上述分析,我们提出整合VI-ReID和VIF的优化目标,利用细粒度语义表示来提升融合性能。然而,这两种任务的训练范式之间存在差异,这构成了主要挑战。首先,缺乏合适的数据集:VIF数据集侧重于融合质量评估,缺乏行人身份标注,而主流的VI-ReID数据集只包含带有身份标签的裁剪行人区域,省略了原始场景的完整背景环境。其次,当前的VIF训练目标与VI-ReID的目标不一致:基于视觉指导的VIF方法无法有效对齐跨模态语义信息,导致融合过程中出现语义扭曲和模态表示不平衡;基于语义驱动的VIF方法仅约束粗粒度语义一致性(例如区分行人与背景),忽略了与行人身份相关的细粒度语义内容。

为了解决上述问题,我们设计了如图3所示的VIF新训练和测试框架。首先,为了解决训练数据的稀缺问题,我们提出了一种模拟的行人-场景合成方法(见图3(a))。通过姿态细化、深度定位和亮度匹配,我们合成了广泛使用的VI-ReID数据集(RegDB[16])和VIF数据集(M3FD[17]),生成具有丰富背景信息和标注行人身份的训练数据。此外,我们提出了一个双阶段渐进式语义细化范式,引导融合模型关注细粒度语义信息(见图3(b))。该范式包括两个训练组件:特征级粗优化(FCO)和语义级微调(SFT)。在FCO阶段,骨干网络同时提取深度身份特征和浅层像素级特征。随后,采用双任务联合优化机制,强制骨干网络同时关注背景纹理和前景身份相关语义。在SFT阶段,构建了一个跨任务监督框架。具体来说,引入了身份监督约束,以减少具有相同身份的融合图像与全部图像(可见光、红外和融合图像)之间的特征距离,而对于不同身份的行人则增加这一特征距离。该机制有效地引导融合过程,稳健地保留了行人身份信息。此外,如图3(c)所示,我们使用传统的双光监控设备构建了一个VIF验证数据集,用于评估融合图像在人物重识别任务中的识别准确性。该数据集涵盖了具有多种行人身份、复杂环境和各种运动状态的多样化场景。图3(d)表明,所提出的方法在视觉质量和语义性能上均优于现有方法。从视觉上看,我们的方法同时保留了前景显著性和背景细节。使用互信息(MI)[18]进行的定量比较进一步证实了我们的方法有效保留了来自可见光和红外模态的互补信息。此外,基于对象检测平均精度(mAP)的比较也验证了该方法在保持粗粒度语义方面的优势。对于细粒度语义,基于ReID mAP的比较(其中融合结果作为查询集,可见光/红外行人数据作为图像集)也验证了该方法的优势。

**本文的主要贡献总结如下:**
1. 我们提出了一种新的可见光-红外图像融合(VIF)训练-测试框架。据我们所知,这是首次将VI-ReID和VIF的优化目标统一起来,解决了现有VIF方法中的模态差异和细粒度语义损失问题。此外,我们引入了一种模拟的行人-场景合成方法来补充训练数据,缓解任务特定数据的稀缺问题。
2. 为了解决细粒度语义信息保留不足的问题,我们设计了一种基于双阶段渐进式语义细化的融合方法(DPSFusion)。在FCO阶段,双任务联合优化机制引导融合特征关注背景视觉纹理和前景身份语义;在SFT阶段,跨任务监督框架进一步完善了融合结果的细粒度语义表示。
3. 为了全面验证融合结果的细粒度语义保留能力,我们构建了一个带有行人身份标注的VIF验证数据集。该数据集包含了多种场景下多个行人的红外和可见光图像对。通过对该数据集进行像素级融合和行人重识别,所提出的融合方法能够直接量化与身份相关的细粒度信息的保留准确性。
4. 我们从三个关键方面评估了我们提出方法的性能,包括视觉表现、粗粒度语义保留和细粒度语义保留。广泛的实验结果证明,我们的方法优于现有最佳技术,并在下游任务中表现出更强的鲁棒性。

**相关工作**
本节简要回顾了现有的可见光和红外图像融合方法以及可见光-红外人物重识别方法。

**提出的方法**
在本节中,我们首先详细阐述了细粒度语义驱动融合机制的理论框架,然后介绍了基于双阶段渐进式语义细化的可见光和红外图像融合方法的详细设计。最后,我们介绍了专门用于评估融合方法细粒度语义保留性能的VIF验证数据集。

**实验验证**
在本节中,我们首先介绍了实验配置和实施细节。随后,我们进行了视觉比较实验,证明了DPSFusion在保留关键视觉细节方面的优势。此外,我们通过三项语义评估任务(对象检测、语义分割和人物重识别(ReID)验证了DPSFusion在保持粗粒度和细粒度语义方面的优势。最后,我们对其有效性进行了评估。

**结论**
本研究提出了一个创新的细粒度语义驱动框架,该框架结合了可见光-红外图像融合(VIF)和人物重识别(ReID)的优化目标,共同解决了跨模态信息对齐和行人身份保留问题。为了解决由于ReID和VIF任务的数据特征和标注要求不匹配导致的训练数据稀缺问题,我们提出了一种模拟的行人-场景合成方法CRediT。

**作者贡献声明**
刘晓文:概念化、方法论、软件开发、原始稿撰写、形式分析。
霍洪涛:概念化、方法论、资金获取、撰写审核与编辑、监督。
曹浩哲:方法论、验证。
王仁华:方法论、监督。
董旭:资源研究。
庞山:可视化、验证。
李静:监督、资金获取。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号