《Neural Networks》:SD2-ReID: A Semantic-Stylistic Decoupled Distillation Framework for Robust Multi-Modal Object Re-Identification
编辑推荐:
多模态目标重识别中,提出基于语义-风格解耦蒸馏的框架SD2-ReID,通过混合多模态特征提取器分离共享与专用特征,设计解耦蒸馏模块分离语义与风格信息,并引入层次化自监督模块增强跨模态一致性,实验验证其有效性和高效性。
严永浩|高美静|白阳|陈旭|孙冰洲|孙环宇|陈思博
北京工业大学集成电路与电子学院,北京,100081,中国
摘要
多模态对象重新识别(ReID)的核心挑战在于协调不同模态之间的风格差异与身份的语义一致性。然而,现有方法难以有效分离语义特征和模态特定的风格,导致语义表示受到噪声污染,从而影响识别性能。为了解决上述问题,我们提出了一种基于语义-风格解耦蒸馏的多模态重新识别框架,称为SD2-ReID(用于ReID的语义-风格解耦蒸馏),旨在提高模态一致性和跨模态语义区分能力。首先,我们设计了一种混合多模态特征提取器(HMFE),它采用共享的浅层结构和模态特定的深层分支来实现细粒度特征提取,从而在保留模态特定特性的同时提高学习效率;其次,我们设计了一种解耦蒸馏模块(DDM),通过语义蒸馏和风格蒸馏的双重约束明确分离语义特征和风格特征,提高跨模态语义一致性和区分能力;最后,我们提出了一种注意力引导的掩蔽策略,并整合了模内和模间对比学习,构建了层次化自监督学习模块(HSLM),从而增强模型对局部遮挡和风格变化的鲁棒性。最终实现了语义一致性、模态不变性和特征鲁棒性的协同增强。与现有方法不同,SD2-ReID不需要设计多模态融合模块,也不会在推理阶段引入额外的开销,同时平衡了识别性能和推理效率。在三个多模态对象ReID基准测试集上的实验充分验证了该方法的有效性。
引言
对象重新识别(ReID)是在多个相机视图之间识别和匹配同一对象的过程,旨在准确跟踪不同视图中的目标。在过去的几年中,基于RGB图像的单模态ReID(He等人,2021年;Xuan和Zhang,2024年;Zheng等人,2021b年)在判别特征学习和模型优化方面取得了显著进展。然而,在光照变化(Huang等人,2019年)、背景杂乱(Song等人,2021年)和低分辨率(Wang等人,2018b年)等复杂场景中,RGB成像的表现不稳定,导致识别性能严重下降。
为了提高在变化环境中的识别鲁棒性,多模态ReID已成为一个研究热点。这种范式通过整合可见光(RGB)、近红外(NIR)和热红外(TIR)模态的互补光谱信息,有效解决了光照变化和外观模糊的问题(Zheng, Wang, Chen, Li, Tang, 2021a; Zheng, Zhu, Ma, Li, Tang, Ma, 2023b)。一般的多模态ReID框架如图1(a)所示,包括基于CNN的特征提取方法(Cui等人,2024年;Wu等人,2025年)和基于Transformer的特征提取方法(Wang等人,2024年;Zhang等人,2024年;Zheng等人,2024年),这些方法的共同特点是首先提取单模态特征,然后通过复杂的融合模块整合特征。尽管这些方法取得了良好的结果,但它们仍然面临严峻的挑战:由于不同模态之间的成像机制存在本质差异以及风格分布(例如纹理、光谱响应)的显著差异,直接融合容易引入风格噪声,污染语义特征空间,并降低跨模态一致性。如图1(b)左侧所示,RGB、NIR和TIR三种模态的特征可以分为语义特征和它们独立的风格特征。其中,语义特征用于表征目标的身份信息,这是实现ReID的关键;而风格特征反映了由于成像设备和光谱响应差异导致的每种模态的外观差异,这些差异与目标身份无直接关系。图1(b)右侧显示了三种模态特征的t-SNE(van der Maaten和Hinton,2008)降维可视化结果,可以看出由于风格差异,不同模态的特征分布有明显的边界。然而,现有的特征提取过程倾向于将风格与语义信息一起编码,导致最终表示中语义和风格之间的高度耦合。如果直接使用这种混合表示进行身份分类,将使网络难以专注于判别性语义信息,从而影响跨模态识别的准确性和一致性。现有方法如LRMM(Wu等人,2025年)和EDITOR(Zhang等人,2024年)没有明确建模风格干扰,而是平等对待所有特征;MDANet(Cheng等人,2025年)和SNR(Jin等人,2020年)通过过于强烈的风格抑制策略牺牲了判别性语义信息,导致难以协调跨模态一致性和类别判别能力。为了解决上述问题,近年来的一些方法尝试引入知识蒸馏(KD)机制(Hinton等人,2015年),利用教师网络帮助学生网络学习更稳定的表示来提高跨模态性能。知识蒸馏在跨模态任务中展示了良好的对齐和监督效果,但在多模态ReID领域尚未得到系统探索。为此,本文尝试将知识蒸馏机制应用于多模态ReID,并提出了一种基于语义-风格解耦蒸馏的多模态重新识别方法SD2-ReID。该方法旨在从融合特征中明确分离语义和风格信息,并加强模态不变的身份表示,从而提高跨模态识别性能。
本文提出的SD2-ReID框架如图1(c)所示,包含一个教师分支和一个学生分支,两者都使用了我们设计的混合多模态特征提取器(HMFE)。该特征提取器基于Transformer架构,通过浅层共享结构和深层独立结构实现混合特征提取,从而在有效保留每种模态的风格差异的同时提高建模效率。随后,我们设计了解耦蒸馏模块(DDM),通过语义蒸馏和风格蒸馏的双重监督机制指导学生网络分别建模模态不变的语义信息和模态特定的风格信息,从而实现特征空间的有效解耦。最后,为了提高模型面对局部扰动和风格干扰时的鲁棒性,我们设计了层次化自监督学习模块(HSLM),通过模内和模间对比学习增强复杂环境中特征表示的稳定性和一致性。
如图1(d)所示,SD2-ReID中三种模态图像的特征分布在可视化空间中表现出高度一致性。这表明模型不仅保持了语义一致性,还成功减弱了模态之间的风格差异,并实现了跨模态特征的有效对齐。与依赖复杂融合结构的现有多模态方法不同,SD2-ReID不需要引入显式的模态对齐或融合模块,能够通过解耦蒸馏和自监督学习的联合作用实现统一的跨模态表示。
本文的其余部分组织如下。第2节介绍了多模态对象重新识别和跨模态知识蒸馏的代表性工作。第3节介绍了本文提出的SD2-ReID算法的详细信息。第4节介绍了实验细节、比较实验和消融实验。第5节对本文的研究工作进行了全面总结。
章节片段
多模态对象重新识别
现有的多模态对象重新识别研究主要集中在融合不同模态的互补信息,以增强特征的判别性和泛化能力。2021年,Zheng等人提出了PFNet(Zheng等人,2021a),通过渐进式融合增强了多模态特征的鲁棒性。2022年,Wang等人提出了IEEE框架(Wang等人,2022年),增强了多模态人物的模态特定表示
方法论
在本文中,我们提出了一种基于语义-风格解耦蒸馏的多模态重新识别框架,如图2所示。该方法包含三个核心模块:(1)混合多模态特征提取器(HMFE);(2)解耦蒸馏模块(DDM);以及(3)层次化自监督学习模块(HSLM)。
实验结果
在本节中,首先介绍了实验细节,包括训练部分和测试部分。然后,从定性和定量方面将SD2-ReID与当前最先进的算法进行了比较。最后,进行了消融实验以证明本文方法的有效性。
结论与未来工作
在本文中,我们提出了一种基于语义-风格解耦蒸馏(SD2-ReID)的多模态重新识别框架,通过构建一种特征解耦机制,实现了身份信息的准确对齐,同时保持了模态特定的语义,显著提高了跨模态识别的准确性和鲁棒性。首先,设计了一种混合多模态特征提取器(HMFE),在保持模态特定信息的同时
CRediT作者贡献声明
严永浩:撰写——原始草稿、软件、方法论、概念化。高美静:监督、资源。白阳:可视化。陈旭:数据整理。孙冰洲:验证。孙环宇:撰写——审阅与编辑。陈思博:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(62471034)、河北省自然科学基金(F2023105001)和四川省科技教育联合基金(25LHJJ0222)的支持。