协同的跨模态提示学习与结构知识提取在衣物更换人物重新识别中的应用

《Knowledge-Based Systems》：Synergistic cross-modal prompt learning and structural knowledge distillation for cloth-changing person re-identification

【字体：大中小】 时间：2026年05月11日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　丁永康|王玉祥|孙一云|田宇|叶梓|建向洲南京航空航天大学计算机科学与技术学院，中国南京，211106摘要在智能监控中，人员更换衣物后的重新识别是一项关键而困难的任务，因为衣物变化导致的显著外观差异经常掩盖了与身份相关的线索。为了解决这个问题，我们提出了一种基于跨模态提示学习和结

丁永康|王玉祥|孙一云|田宇|叶梓|建向洲

南京航空航天大学计算机科学与技术学院，中国南京，211106

摘要

在智能监控中，人员更换衣物后的重新识别是一项关键而困难的任务，因为衣物变化导致的显著外观差异经常掩盖了与身份相关的线索。为了解决这个问题，我们提出了一种基于跨模态提示学习和结构知识蒸馏（PLKD-ReID）的新型知识驱动框架。具体来说，我们首先引入了一种上下文规范化的提示学习策略。通过设计一个由身份专属提示和全局共享提示组成的双槽机制，该框架在语言层面明确地将稳定的身份语义与易变的服装属性区分开来。随后，我们构建了一个语义引导的双分支架构，以并行捕获全局上下文信息和服装不变的生物特征。为了弥合这两个视觉领域之间的差距，我们开发了一种师生蒸馏机制，有效地将来自生物特征分支的鲁棒、不变的知识转移到全局分支，从而净化身份表示，去除外观噪声。在多个公共基准测试上的广泛实验表明，PLKD-ReID的性能优于各种现有的方法。代码将提供在：https://github.com/ykding666/PLKD。

引言

随着城市监控网络和智能交通系统的快速部署，人员重新识别（ReID）[1], [2], [3], [4]已成为公共安全、智能检索和视频分析中的关键技术。当前的深度学习范式通常将ReID建模为一个细粒度的图像检索问题，利用卷积神经网络（CNNs）[5], [6], [7], [8]或视觉变换器[9], [10]来学习判别性特征表示。这些方法通常通过度量学习、对比学习和相关策略进行优化，以构建端到端的身份匹配系统。然而，在现实世界的场景中，ReID面临着严峻的挑战：由于衣物变化、季节性差异和不同的相机视角，会出现显著的外观差异。这些问题严重阻碍了传统方法的性能，特别是在跨服装匹配任务中，并对ReID系统在实际应用中的有效性和可靠性构成了实质性限制。

为了解决更换衣物后的人员重新识别（CC-ReID）[11], [12], [13]问题，学术界和工业界都进行了大量研究。现有的方法大致可以分为两类。第一类方法试图利用相对稳定的生物特征——如步态[14]、身体轮廓[15]和骨骼关键点[16]——来进行辅助身份识别，如图1所示。虽然这些方法在捕捉不变的身份特征方面显示出了优势，但它们通常需要额外的特征提取模块，导致系统复杂且计算开销较高。此外，它们在现实世界场景中的鲁棒性尚未得到充分探索和验证。第二类研究专注于特征分离，旨在使用生成对抗网络（GANs）等技术在特征层面将身份信息与服装变化解耦。然而，这些方法往往涉及复杂的训练过程，并且严重依赖于生成数据的质量。这些现有方法的局限性激发了人们对更高效、更鲁棒解决方案的追求。

近年来，视觉-语言预训练（VLP）模型（如CLIP）在图像分类、检索和跨模态学习方面的显著成功激励研究人员将它们引入ReID领域，从而产生了Prompt-ReID方法。例如，像CLIP-ReID这样的方法利用固定或手工制作的文本提示模板，利用CLIP的图像和文本编码器将语言知识转换为视觉表示，从而在标准条件下提高检索性能。然而，这些方法通常依赖于静态的、与任务无关的提示，使得它们在捕捉服装变化下的身份语义时表现不足。它们也缺乏规范服装引入的噪声的机制。

为了解决这些缺点，我们提出了一种针对CC-ReID挑战的上下文规范化提示学习策略，该策略建立在CLIP-ReID框架的基础上。在文本提示方面，我们设计了两种可学习的槽：身份专属的和全局共享的。身份专属的槽为每个身份类别学习独立的向量，以捕获纯粹的身份语义，而全局共享的槽作为强化的规则器。通过共享约束，它们强制身份专属的槽分离服装因素，从而产生更鲁棒的提示表示。与通用或手工制作的模板不同，我们的策略能够从数据中自适应地学习提示参数，为更换衣物的场景提供细粒度的建模。

在视觉特征提取方面，我们结合了人类语义解析[17]工具来生成二进制生物特征掩码，这些掩码与第一层

-

' role="presentation">

?

1层的Transformer编码器并行处理。全局分支保留了丰富的上下文信息，而生物特征分支侧重于服装不变的的身体部分，如骨骼结构和关键点，从而在更换衣物的条件下提供更一致的身份线索。与仅连接或重新加权掩码特征的先前方法不同，我们的方法强制两种分支严格分离并并行计算，它们在一个统一的框架内共同优化。

为了进一步提高CC-ReID中全局分支的判别能力，我们将生物特征分支视为教师，全局分支视为学生，并在第二个训练阶段引入了基于蒸馏的师生学习机制。我们采用温度缩放的Kullback–Leibler（KL）散度，使用生物特征分支的软标签分布作为教师信号，引导全局分支学习不受服装噪声影响的判别性身份表示。通过对比实验，我们证明了这种蒸馏策略显著提高了跨服装匹配的准确性，并增强了模型的泛化能力。本文的主要贡献总结如下：

•
我们提出了一种上下文规范化提示学习策略。通过引入一种新的双槽设计——包括身份专属和全局共享组件——我们在语言提示层面有效地分离了身份和服装因素，从而在更换衣物的场景中产生了更鲁棒和可泛化的提示表示。
•
我们设计了一种基于语义解析的双分支协作架构，该架构并行处理全局和生物特征。通过严格的功能解耦和统一优化，该框架有效地融合了上下文和服装不变的线索，实现了更耐用的视觉表示。
•
我们开发了一种基于蒸馏的知识转移机制，其中稳定的生物特征分支作为教师指导全局分支学习服装不变的身份知识。这种方法显著增强了模型对抗服装噪声的鲁棒性，并提高了整体性能。
•
我们在多个公共数据集上实现了最先进（SOTA）的性能，包括PRCC、LTCC和VC-Clothes，证明了所提出的PLKD-ReID方法的有效性和泛化能力。

章节片段

更换衣物后的人员重新识别

更换衣物后的人员重新识别专注于解决由于衣物变化引起的显著外观差异问题，这仍然是将ReID技术推广到实际应用的一个核心瓶颈。目前在这个领域的研究工作通常遵循两种主要范式。

第一类方法利用稳定的非外观基础的生物特征进行辅助识别。这些方法旨在利用相对不变的线索——如身体形状、骨骼结构或步态——

方法

为了解决人员重新识别（ReID）中由于衣物变化造成的显著外观差异问题，我们提出了一种基于上下文规范化提示学习和双分支协作优化的新型框架，如图2所示。该框架采用了一种精心设计的兩阶段训练策略，首先学习能够分离身份和服装信息的自适应文本提示，然后使用这些提示作为监督来深度优化

数据集和评估协议

我们在三个广泛使用的CC-ReID数据集上对我们的PLKD-ReID方法进行了全面评估：PRCC [38]、LTCC [16] 和 VC-Clothes [39]。PRCC是一个专门为CC-ReID任务设计的早期基准测试集，包含33,698张图片，涉及221个身份，反映了真实的衣物变化。LTCC是一个更具挑战性的长期CC数据集，包含17,138张图片，涉及152个身份，来自12个摄像头。它展示了更大的外观变化

结论

在本文中，我们通过提出一种新型框架PLKD-ReID来应对更换衣物后的人员重新识别这一关键挑战，该框架整合了跨模态提示学习、双分支视觉架构和知识蒸馏。该框架首先使用我们提出的上下文规范化提示学习策略在语言层面分离身份和服装信息。然后，利用基于语义解析的双分支架构，提取全局上下文

CRediT作者贡献声明

丁永康：撰写——原始草稿、方法论、概念化。王玉祥：方法论。孙一云：可视化、验证。田宇：验证、数据管理。叶梓：可视化、验证。建向洲：监督。

利益冲突声明

作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。

摘要

引言

章节片段

更换衣物后的人员重新识别

方法

数据集和评估协议

结论

CRediT作者贡献声明

利益冲突声明

热点排行