随着城市监控网络和智能交通系统的快速部署,人员重新识别(ReID)[1], [2], [3], [4]已成为公共安全、智能检索和视频分析中的关键技术。当前的深度学习范式通常将ReID建模为一个细粒度的图像检索问题,利用卷积神经网络(CNNs)[5], [6], [7], [8]或视觉变换器[9], [10]来学习判别性特征表示。这些方法通常通过度量学习、对比学习和相关策略进行优化,以构建端到端的身份匹配系统。然而,在现实世界的场景中,ReID面临着严峻的挑战:由于衣物变化、季节性差异和不同的相机视角,会出现显著的外观差异。这些问题严重阻碍了传统方法的性能,特别是在跨服装匹配任务中,并对ReID系统在实际应用中的有效性和可靠性构成了实质性限制。
为了解决更换衣物后的人员重新识别(CC-ReID)[11], [12], [13]问题,学术界和工业界都进行了大量研究。现有的方法大致可以分为两类。第一类方法试图利用相对稳定的生物特征——如步态[14]、身体轮廓[15]和骨骼关键点[16]——来进行辅助身份识别,如图1所示。虽然这些方法在捕捉不变的身份特征方面显示出了优势,但它们通常需要额外的特征提取模块,导致系统复杂且计算开销较高。此外,它们在现实世界场景中的鲁棒性尚未得到充分探索和验证。第二类研究专注于特征分离,旨在使用生成对抗网络(GANs)等技术在特征层面将身份信息与服装变化解耦。然而,这些方法往往涉及复杂的训练过程,并且严重依赖于生成数据的质量。这些现有方法的局限性激发了人们对更高效、更鲁棒解决方案的追求。
近年来,视觉-语言预训练(VLP)模型(如CLIP)在图像分类、检索和跨模态学习方面的显著成功激励研究人员将它们引入ReID领域,从而产生了Prompt-ReID方法。例如,像CLIP-ReID这样的方法利用固定或手工制作的文本提示模板,利用CLIP的图像和文本编码器将语言知识转换为视觉表示,从而在标准条件下提高检索性能。然而,这些方法通常依赖于静态的、与任务无关的提示,使得它们在捕捉服装变化下的身份语义时表现不足。它们也缺乏规范服装引入的噪声的机制。
为了解决这些缺点,我们提出了一种针对CC-ReID挑战的上下文规范化提示学习策略,该策略建立在CLIP-ReID框架的基础上。在文本提示方面,我们设计了两种可学习的槽:身份专属的和全局共享的。身份专属的槽为每个身份类别学习独立的向量,以捕获纯粹的身份语义,而全局共享的槽作为强化的规则器。通过共享约束,它们强制身份专属的槽分离服装因素,从而产生更鲁棒的提示表示。与通用或手工制作的模板不同,我们的策略能够从数据中自适应地学习提示参数,为更换衣物的场景提供细粒度的建模。
在视觉特征提取方面,我们结合了人类语义解析[17]工具来生成二进制生物特征掩码,这些掩码与第一层' role="presentation">1层的Transformer编码器并行处理。全局分支保留了丰富的上下文信息,而生物特征分支侧重于服装不变的的身体部分,如骨骼结构和关键点,从而在更换衣物的条件下提供更一致的身份线索。与仅连接或重新加权掩码特征的先前方法不同,我们的方法强制两种分支严格分离并并行计算,它们在一个统一的框架内共同优化。
为了进一步提高CC-ReID中全局分支的判别能力,我们将生物特征分支视为教师,全局分支视为学生,并在第二个训练阶段引入了基于蒸馏的师生学习机制。我们采用温度缩放的Kullback–Leibler(KL)散度,使用生物特征分支的软标签分布作为教师信号,引导全局分支学习不受服装噪声影响的判别性身份表示。通过对比实验,我们证明了这种蒸馏策略显著提高了跨服装匹配的准确性,并增强了模型的泛化能力。本文的主要贡献总结如下:
- •
我们提出了一种上下文规范化提示学习策略。通过引入一种新的双槽设计——包括身份专属和全局共享组件——我们在语言提示层面有效地分离了身份和服装因素,从而在更换衣物的场景中产生了更鲁棒和可泛化的提示表示。
- •
我们设计了一种基于语义解析的双分支协作架构,该架构并行处理全局和生物特征。通过严格的功能解耦和统一优化,该框架有效地融合了上下文和服装不变的线索,实现了更耐用的视觉表示。
- •
我们开发了一种基于蒸馏的知识转移机制,其中稳定的生物特征分支作为教师指导全局分支学习服装不变的身份知识。这种方法显著增强了模型对抗服装噪声的鲁棒性,并提高了整体性能。
- •
我们在多个公共数据集上实现了最先进(SOTA)的性能,包括PRCC、LTCC和VC-Clothes,证明了所提出的PLKD-ReID方法的有效性和泛化能力。