《Neurocomputing》:Cross-modal sample steered visible-infrared person re-identification
编辑推荐:
多模态样本引导的对比评估方法用于解决可见-红外图像配对中的模态差异问题,通过动态生成和搜索不同维度的特征嵌入,优化跨模态特征匹配,实验表明在SYSU-MM01和RegDB数据集上性能优于现有算法。
曹凌静|黄志斌|黄志林|兰子旭|邓芳|姜思成
北京邮电大学,中国北京市海淀区西土城路10号,邮编100876
摘要
可见光-红外人体重识别(VIReID)得到了广泛研究,因为它有效解决了夜间可见光无法正常拍摄的问题。当前VIReID方法的主要思路是减少两种模态之间的直接特征差异。然而,现有的特征嵌入生成和筛选方法难以突出多模态数据的共同特征,从而导致多模态数据之间的匹配难度较大。为了解决这些问题,我们提出了一种基于跨模态样本引导的对比评估方法。通过自动生成和搜索不同维度的特征嵌入,我们能够动态地使相似特征更加接近,同时区分不同特征,从而更好地实现跨模态协作。在SYSU-MM01和RegDB数据集上的实验表明,我们的方法在多模态人体重识别任务中表现更优。在SYSU-MM01数据集的全搜索模式下,我们的方法排名第一的概率比现有算法高出1.18%;在室内搜索模式下,这一概率高出2.15%。
引言
结合可见光和红外相机进行人体重识别已得到广泛研究,因为这可以显著弥补可见光相机在夜间无法正常拍摄的缺陷[29]。可见光-红外人体重识别技术能够在给定可见光或红外图像时,从另一种模态的图像集中找到匹配的人体。
目前的可见光-红外人体重识别算法在识别精度上仍与单模态人体重识别算法存在较大差距。主要原因在于可见光和红外图像之间的模态差异以及两者拍摄视角的不同[29]。现有研究主要集中在两个方向:一是将可见光和红外特征投影到共同特征空间,并通过损失函数最小化模态差异;二是利用GAN网络生成另一种模态的图像来减少模态差异。然而,第一种方法面临模态差异较大、难以直接将不同模态的特征投影到共同特征空间的问题;第二种方法则因原始数据集缺乏可见光-红外图像对而生成的低质量跨模态图像。
此外,我们还对一些不进行跨模态推理、仅进行单模态推理的现有VIReID算法进行了实验。实验结果表明,这些算法仍无法达到现有单模态算法的最佳水平。人体重识别的本质是找到有助于特征匹配的良好特征表示。我们认为,当前VIReID算法需要解决的问题不仅是跨模态差异,还包括更有效地挖掘单模态信息和跨模态信息。
自监督模型MoCo[11]由He等人在2020年首次提出,是自监督预训练领域的开创性工作,它采用基于预设任务的正负样本进行对比学习。该模型侧重于学习同一类别实例之间的共同特征,并区分不同类别实例之间的差异。这一思路引发了后续SimCLR[2]和MoCo系列算法的快速发展。2021年,Fu等人[7]首次将自监督预训练技术应用于人体重识别,使得现有的人体重识别算法性能得到了提升。自监督预训练算法引入了对比评估方法,利用相似性探索和差异区分的思路。在VIReID领域,DEEN[34]在2023年首次提出“在尊重差异的同时寻求共同点”的方法,通过多分支卷积生成结构生成更多类型的特征嵌入,使同一类别的特征嵌入距离更近,不同类别的特征嵌入距离更远。然而,这种方法存在局限性:多分支卷积结构的确定性较低,导致重要特征的发现具有随机性。
因此,我们提出了基于跨模态样本引导的可见光-红外人体重识别(CSG)算法,该方法基于跨模态样本引导进行对比评估,重点挖掘单模态本身的特征,并结合单模态的高精度识别能力和跨模态样本之间的差异来实现动态匹配。同时,通过自动生成和搜索不同维度的特征嵌入,动态地使相似特征更接近、不同特征更分离,从而实现更好的跨模态协作。
我们的主要贡献包括:
•提出了一种基于跨模态样本引导的对比评估方法,充分利用了单模态算法的确定性,引导跨模态特征匹配。
•引入了一种动态特征搜索方法,用于挖掘和匹配跨模态特征,以实现更好的跨模态协作。
•基于广泛研究,我们首次将对比学习方法应用于VIReID,并取得了良好效果,为多模态重识别提供了新的思路。
•实验验证表明,我们提出的VIReID算法优于现有算法。
相关研究
相关工作
可见光-红外人体重识别主要分为两大研究方向:图像级方法和特征级方法。图像级方法通过将一种模态的图像转换为另一种模态的图像来减少可见光(VIS)和红外(IR)图像之间的模态差异。一些图像级方法[4][20]利用GAN等技术生成VIS-IR图像对,以缩小模态差距并提升性能。Wang等人[37]提出了基于CycleGAN的VIReID方法基于跨模态样本引导的对比评估
在可见光-红外人体重识别中,一个重要且困难的问题是如何平衡单模态特征挖掘与跨模态特征融合。现有方法大多侧重于减少跨模态样本之间的差异,而未将单模态特征挖掘与跨模态特征融合视为一个有机整体,从而导致在缩小模态差异的同时,人体特征的提取效果不佳。
数据集
我们使用SYSU-MM01[23]和RegDB[30]两个VIReID数据集进行实验。SYSU-MM01是目前最大的可见光-红外人体重识别数据集之一,由四台可见光相机和两台红外相机采集。该数据集包含491个人体身份信息,每个身份在两种以上不同模态的相机中出现过,其中395个用于训练,96个用于测试。训练集包含22,258张可见光图像和11,909张
实验结果与讨论
SYSU-MM01和RegDB数据集的实验结果见表1和表2。我们将分析算法评估指标和数据集特征。
结论与未来工作
我们提出了基于跨模态样本引导的可见光-红外人体重识别(CSG)算法,该方法通过对比评估引导跨模态样本之间的匹配,重点挖掘单模态特征,并结合单模态的高精度识别能力与跨模态样本之间的差异。同时,我们动态地使相似特征更接近、不同特征更分离。
作者贡献声明
曹凌静:数据整理、初稿撰写。黄志斌:资源获取、方法论设计、调查、审稿与编辑。黄志林:软件开发。兰子旭:软件开发。邓芳:资源协调。姜思成:可视化处理、调查、软件实现。
利益冲突声明
作者声明不存在可能影响本文研究的已知财务利益或个人关系。
曹凌静2021年毕业于北京邮电大学,获得电信工程与管理学士学位,目前在北京邮电大学攻读计算机技术硕士学位,研究方向为人体重识别和多模态数据融合。