一种适用于恶劣天气的场景感知退化图像通用重新识别框架魏思伟（Siwei Wei）、王宇鑫（Yuxin Wang）、杨明轩（Mingxuan Yang）以及王春哲（Chunzhi Wang）

《Sensors》：A Scene-Aware Degradation Universal Re-Identification Framework for Adverse Weather Siwei Wei, Yuxin Wang, Mingxuan Yang and Chunzhi Wang

【字体：大中小】 时间：2026年05月10日 来源：Sensors 3.5

编辑推荐：

　　**摘要** 主要研究结果是什么？基于CLIP提出的ScA-UniReID框架通过使用双重文本提示和自适应控制模块，有效地解决了在协同不良天气（如雨和雾）条件下重新识别（ReID）的挑战，该框架能够动态地将身份语义与退化伪影分离。这些主要发现的意义何在？这项工作提供了

　　**摘要**
主要研究结果是什么？基于CLIP提出的ScA-UniReID框架通过使用双重文本提示和自适应控制模块，有效地解决了在协同不良天气（如雨和雾）条件下重新识别（ReID）的挑战，该框架能够动态地将身份语义与退化伪影分离。

这些主要发现的意义何在？这项工作提供了一种新颖的跨模态范式，超越了传统的图像增强或鲁棒特征方法，为在多种退化同时发生的复杂现实世界环境中进行ReID提供了新的解决方案。

**引言**
基于视觉的重新识别（ReID）对于智能监控至关重要，但仍然容易受到雨、雾等不良天气条件的影响，这些因素会同时破坏视觉清晰度和身份特定线索。现有的图像增强和鲁棒特征方法在多种退化同时发生时表现出困难，而最近基于CLIP的ReID模型很少研究在天气扭曲下的跨模态对齐问题。为了解决这一差距，我们提出了ScA-UniReID，这是一个基于CLIP的双编码器架构的场景感知退化通用ReID框架。ScA-UniReID引入了双重文本提示——一种针对身份特征的目标导向提示和一种针对天气噪声的退化导向提示——以及一个自适应控制模块，动态地重新权衡它们以区分身份语义和退化伪影。在各种不良天气条件下对行人和海上ReID基准进行的广泛实验表明，ScA-UniReID优于现有最先进方法，并能够稳健地泛化到未见过的条件，验证了其有效性和普适性。

**2. 相关工作**
2.1. 重新识别中的图像预处理方法
复杂环境可能导致图像退化，使得ReID模型难以提取稳定的身份特征。图像增强方法旨在通过预处理来提高图像质量，从而在复杂环境中提高特征提取性能。Jiao等人[18]结合了超分辨率卷积网络和ReID网络来提升低分辨率图像的重新识别性能。为了进一步提高超分辨率方法的尺度适应性，Wang等人[19]采用了级联SRGAN结构，逐步重建缺失的细节，以提高超分辨率技术适应不同尺度的能力。Zhang等人[20]提出了基于小波分解的频域建模框架，通过多尺度特征分解增强细节恢复能力，并使特征分布符合大气散射模型。此外，Liu等人[21]提出了基于逆雾密度校正的先验模型，通过像素级伽马校正来建模透射率，提高了该方法在各种退化场景中的泛化性能。Mao等人[22]提出了FFSR模块并设计了双分支模块来提取分辨率不变的特征，进一步优化了目标重新识别的详细表示。Huang等人[23]提出了一个解决光照变化的行人重新识别框架，他们利用Retinex理论进行光照分解，并设计了自下而上的注意力网络以消除低光环境中的干扰。在现实世界的监控场景中，雨、雾等不良天气条件会显著降低图像质量，从而影响人物重新识别（ReID）的判别特征提取。为了解决这些问题，现有研究通常采用了两种互补的技术途径[5,6]。第一种在输入层面操作：在图像到达识别网络之前进行去噪、去雾或超分辨率处理[7,8]。第二种方法关注模型层面：设计更鲁棒的特征提取器[9,10]，以学习对各种图像退化具有抵抗力的身份表示。尽管取得了显著的成功，但实证研究表明，当多种退化因素同时发生时（例如夜间大雨），这两种策略的泛化能力有限，因为它们难以同时恢复视觉清晰度和保持身份特定线索。

近年来，视觉-语言预训练（VLP）的兴起为重新识别研究提供了新的解决方案。如CLIP（对比语言-图像预训练）[11]这样的跨模态模型利用大规模图像-文本对比学习，共同优化视觉和文本编码器，将多模态数据映射到统一的语义嵌入空间中。这使得语义相关的样本能够对齐，无关样本能够被分离，从而在跨模态之间建立高级语义对应关系，并实现了强大的语义对齐能力和出色的零样本迁移性能[12]。在ReID领域，研究人员开始利用可学习的文本提示来引导视觉编码器关注与身份相关的区域，从而增强细粒度的判别能力[13,14]。然而，大多数基于CLIP的ReID研究集中在标准、受控的场景中，尚未系统地研究雨、雾或其他退化因素如何扭曲跨模态对齐，使得模型在复杂的现实世界环境中变得脆弱[15,16]。

为了解决上述问题，本文提出了一个场景感知退化通用ReID框架（SCA-UniReID）。该框架基于CLIP的双编码器架构[17]，引入了场景感知的退化建模机制，明确描述了雨、雾和低光照等环境因素。具体来说，我们开发了场景感知退化CLIP（SCA-CLIP），它包含一个场景感知器，用于学习退化感知的表示，并指导视觉编码器在不良条件下关注与身份相关的特征。此外，我们设计了一种双重文本语义引导机制，包括一个目标导向的提示和一个场景感知的提示。前者增强身份判别信息，后者适应性地捕获特定于场景的退化特征。自适应控制模块动态平衡这两种提示的贡献，有效区分身份语义和退化噪声（即将潜在表示分解为可解释且相关性最小的子空间）。这种设计使模型能够在考虑环境干扰的情况下实现强大的跨模态对齐，从而在复杂的现实世界条件下显著提高ReID性能。我们系统地分析了雨和雾结合退化对现有ReID系统造成的挑战，并揭示了图像增强和鲁棒特征方法在极端天气条件下的局限性。我们提出了SCA-UniReID，这是一个场景感知的通用ReID框架，它将目标导向和退化导向的双重文本提示整合到CLIP风格的双编码器架构中，能够在保持判别性的同时，从天气噪声中细粒度地分离身份语义。我们在多种不良天气条件下对船舶和行人基准进行了全面实验；结果表明，SCA-UniReID超越了现有最先进方法，并在未见过的条件下保持了强大的泛化能力。具体的目标函数如下：(1) (2) 在这个背景下，和是线性层，它们将嵌入投影到跨模态嵌入空间中。表示图像到文本的对比损失，而表示文本到图像的对比损失。3.2. 场景感知退化模块场景感知退化（SCA）模块是CLIP图像编码器的副本，它引入了少量零初始化的连接模块来动态控制图像编码器，优化其在退化环境中的特征提取能力。SCA的核心功能是调整图像编码器的输出，引导模型关注目标特征，并抑制与天气相关的退化（如雨或雾）对识别性能的影响。本研究为两种不同的主干网络设计了相应的控制模块：ResNet-50和ViT-16。在ResNet-50结构中，场景感知模块使用每一层的输出作为隐藏的控制信号。通过零初始化的连接模块后，控制信号被添加到目标编码器中。初始化模块包括卷积层、归一化层和ReLU函数，所有参数最初都设置为零，以确保训练的早期阶段不会干扰目标特征的提取。随着训练的进行，控制信号逐渐调整编码器的行为，更加关注目标区域并忽略退化因素的干扰。在ViT-16结构中，控制信号来自Transformer块的输出。然后将这些输出与目标编码器的相关层结合。通过添加控制信号，调整预测结果。Transformer块通过一个简单的全连接神经网络相连，这些连接也使用零初始化策略，以便在训练过程中逐步调整权重，以适应不同的环境条件。3.3. 场景感知提示在CLIP模型中，传统的固定提示难以准确描述复杂的退化模式，如雨、雾和低光条件，并且无法适应退化特征的区域变异性。为了解决这个问题，我们提出了ScA-CLIP场景感知提示学习机制：如图1b所示，我们将清洁、雨和雾等退化类型作为可学习的提示来构建动态场景提示模板；如图1a所示，我们使用对比学习将退化场景提示与退化图像特征对齐，并将清洁场景提示与CLIP嵌入空间中的清洁图像特征对齐。这不仅增强了模型感知退化区域的能力，还使模型能够在没有额外注释的情况下适应各种恶劣天气场景，有效解决了由于数据集限制导致的适应性不足的问题，同时减少了高级语义信息对场景感知模块的干扰。图1. ScA-CLIP：(a) SAD-CLIP中的场景感知退化学习；(b) 场景感知提示生成。场景感知提示的设计如下：(3) 在这个背景下，表示随机初始化的可学习标签，它们学习图像的不同退化因素。这种形式的提示能够学习各种场景特征并适应多种耦合的退化因素，如雨、雾、低光等。因此，模型在执行跨模态特征对齐时充分考虑了环境因素对目标特征的影响。4. 实现方法在本节中，我们介绍了我们的场景语义感知特征解耦网络的核心思想，该网络旨在将目标船只语义与复杂的、退化的场景干扰分离，以增强在恶劣天气下的视觉感知鲁棒性。该网络包括两个核心阶段：首先，语义提示构建和特征引导，如图2所示，我们构建可学习的场景感知提示（例如清洁、雨、雾），以在CLIP嵌入空间中实现文本和退化/清洁图像特征之间的对比对齐，引导模型精确关注退化区域；图2. ScA-UniReID的概述。我们的框架包括：(a) 在ResNet-50和ViT-16上构建自适应场景感知感知器和控制器；(b) 基于场景感知提示的文本编码器。其次，目标场景编码和特征解耦，如图所示，图像编码器被分割为目标编码器和场景感知退化模块，结合了基于ResNet-50和ViT-16的两种控制器设计，以动态调节特征流，有效地将目标特征与场景退化特征分离，同时减轻高级语义噪声的干扰。4.1. 场景语义感知特征解耦网络框架的概述在之前提出的场景感知CLIP的基础上，本节进一步发展了场景语义感知特征解耦方法ScA-UniReID，旨在增强模型对不同目标类别和雨/雾环境的适应性。该框架将跨模态语义引导与目标场景解耦策略相结合，以优化特征建模能力。这使得模型即使在不同的退化条件下也能精确提取身份特征，有效抑制退化干扰并提高模型在雨天或雾天环境中的泛化能力。具体来说，ScA-UniReID采用两阶段训练策略。在第一阶段，文本编码器通过可调提示进行训练，以优化文本-图像对齐能力，使模型适应不同的退化环境并提高其对身份特征的语义理解。这为后续的目标特征学习提供了更准确的指导。在第二阶段，目标编码器和场景感知模块共同进行训练。场景感知模块作为一个辅助分支，使用控制机制引导目标编码器关注身份信息，从而在各种退化条件下增强模型的特征提取稳定性。训练过程如算法1所示。算法1 场景语义感知特征解耦网络框架的训练过程阶段1：加载预训练模型，初始化可学习参数输出：可学习的文本提示1. 目标编码器和场景感知模块分别提取图像特征2. 定义如方程（3）所示的双重文本可学习提示3. 如方程（4）所示，文本编码器对双重文本进行编码4. 通过反向传播如方程（7）所示更新提示5. 结束阶段2：加载预训练模型，双重文本提示输出：训练后的目标编码器和场景感知模块7. 文本编码器T(?)从双重文本提示中提取文本特征8. 目标编码器和场景感知模块分别提取图像特征9. 通过反向传播（9）更新参数10. 通过反向传播（10）固定参数并更新11. 结束4.2. 语义提示构建和特征引导在复杂场景中，目标身份特征与混合的雨和雾噪声高度耦合，使得传统的固定文本提示无法精确建模目标语义和退化模式。为了解决这个问题，ScA-UniReID的第一阶段（其整体框架如图3所示）采用了双重文本提示机制和专用的场景感知退化流程：图3. ScA-UniReID文本编码器第一阶段训练的框架：双重提示和场景感知特征对齐。如图3所示，我们通过将可学习的退化标记（例如雨、雾）插入CLIP兼容的提示模板来构建目标场景双重文本提示。这种设计明确解耦了语义建模：目标提示引导冻结的目标编码器提取清洁的船只身份特征，而场景感知提示驱动场景感知退化模块——一个并行分支编码器，提取低级退化特征（例如雨滴纹理、雾散射）并将它们与CLIP嵌入空间中的退化语义对齐。为了进一步调节特征流并避免语义干扰，我们引入了一个轻量级的控制器模块，动态控制主干中目标和场景特征的传播，确保身份和退化信号的有效解耦。通过对比损失，我们将目标编码器特征与清洁文本提示对齐，将场景模块特征与退化文本提示对齐在CLIP嵌入空间中。实验结果验证了这些组件的有效性：在VesselReID_Adverse和Market_Adverse数据集上，ScA-UniReID的性能超过了基线CLIP-ReID和其他最先进方法，在VesselReID_Adverse上实现了63.2%的mAP和75.9%的Rank-1准确率，且在ResNet-50和ViT-16两个主干网络上都有了一致的改进。这证实了双重提示、场景感知退化模块和控制器的协同设计使模型能够动态适应多样化的退化条件，同时有效分离目标身份和噪声，从而显著提高了识别性能。在第一阶段，为了有效利用CLIP文本编码器，本文设计了目标场景双重文本提示，用于建模目标身份信息和雨雾退化信息，以提高文本-图像对齐能力。目标文本提示和场景感知提示定义如下：(4) (5) 使用预训练的身份编码器和文本编码器，我们提取目标身份特征和双语语义文本特征。在训练阶段，通过冻结和的参数，我们专注于优化文本标记以学习上下文表示，从而为每个身份（ID）及其对应的场景获得独特的文本表示。公式如下：(6) (7) 最后，根据方程（1）的原则，图像-文本对比目标函数定义如下：(8) 在这个原则中，表示图像到文本的对比损失，表示文本到图像的对比损失，表示相似性函数。是批量大小。由于单个批次中的多张图像可能属于同一身份，这意味着可能存在多个正样本。因此，文本到图像对比目标函数的计算如下：(9) 因此，第一阶段训练的最终目标函数如下：(10) 4.3. 目标场景编码和特征解耦在第二阶段，我们使用身份编码器和场景编码器进行对比学习，以有效分离目标身份特征和雨/雾噪声（其整体框架如图4所示）。场景编码器通过复制身份编码器进行初始化，然后在中间层添加零初始化层，以实现与身份编码器的条件交互学习。场景编码器持续从图像中学习雨/雾退化特征，生成噪声的隐式表示向量，然后将其作为条件信号输入到身份编码器中。在两个编码器之间进行对比学习，以引导身份编码器减少对噪声区域的关注，并增强其对目标身份特征的关注。图4. 第二阶段目标场景编码和特征解耦的框架示意图。在我们的研究中，采用对比学习目标函数来确保嵌入空间中图像特征和文本描述的有效对齐。目标函数定义如下：(11) N表示训练批次中配对嵌入的数量，表示标签平滑。该函数的优化目标是在正确配对的文本-图像嵌入之间最大化余弦相似度，同时增加错误配对样本之间的距离，使退化图像在嵌入空间中找到最匹配的文本描述。为了共同优化目标身份特征和噪声特征，本节进一步定义了一个组合目标函数。通过使用场景编码器条件控制身份编码器，后者将噪声区域视为负样本，将目标特征区域视为正样本，从而增强其对所需目标区域的关注。目标函数公式如下：(12) 和分别表示从原始图像中提取的目标身份特征和噪声特征。同时，和是通过在第一阶段训练的文本编码器从目标文本和场景感知提示词中获得的文本表示向量。此外，为了增强目标编码器对目标重新识别任务的适应性，进一步使用交叉熵损失和三元组损失来优化身份编码器：(13) (14) 表示第i个样本的真实标签，表示真实标签的预测概率。和分别表示正样本对和负样本对的特征距离，表示三元组损失的边际参数。第二阶段的最终目标函数如下：(15) 5. 实验为了评估所提出的ScA-UniReID方法在目标重新识别任务中的性能，我们在船舶和行人数据集上进行了实验，并将我们的方法与该领域中的最先进方法进行了比较。此外，为了深入分析每个模块对整体模型性能的贡献，本节进行了消融研究，以调查不同模块和参数对模型效果的影响。最后，提供了可视化分析，以展示在不同退化条件下不同方法的识别性能，使实验结论更加直观和可解释。5.1 实验设置在训练阶段，我们采用了在CLIP上预训练的ResNet-50和ViT-16的修改版本作为特征提取的骨干网络。训练过程中使用了Adam优化器，以及数据增强技术，如随机水平翻转、裁剪和擦除。全局注意力池化层将特征维度从2048减少到1024；相应地，文本特征维度从512缩放到1024以便对齐。对于ViT-16骨干网络，批量大小设置为32，图像大小设置为384×256，特征维度从768减少到512，而文本特征维度保持为512。此外，在VesselReID_Adverse数据集上，批量大小设置为64，图像大小设置为384×192。由于行人图像通常较小，遵循AGW [37]协议，在Market_Adverse数据集上，批量大小设置为64，图像大小设置为256×128。在第一个训练阶段，每个数据集上训练两个文本提示令牌60个周期，初始学习率为3.5×10^-4，使用余弦退火调度器进行调整。在第二个训练阶段，身份编码器和场景编码器使用ResNet-50骨干网络，并在数据集上训练120个周期，初始学习率为3.5×10^-4。在第40个和第70个周期时，学习率降至当前值的十分之一。当使用ViT-16骨干网络时，模型训练60个周期，初始学习率为5×10^-6，并在第30个和第50个周期时类似地降低学习率。此外，为了更好地使网络适应目标重新识别任务，当使用ResNet-50骨干网络时，前60个周期两个编码器同步训练。然后，在接下来的60个周期中，冻结场景编码器，并使用方程（10）和（11）优化身份编码器。5.2 综合实验比较与分析为了全面评估提出的ScA-UniReID方法在雨天和雾天条件下进行人员重新识别任务中的性能，我们在VesselReID_Adverse和Market_Adverse数据集上进行了广泛的实验，将其与基线模型CLIP-ReID [14]以及几种最先进的重新识别方法（包括AGW、TransReID [38]和HRCN [39]）进行了比较。实验结果表明，在VesselReID_Adverse数据集上，使用ResNet-50作为骨干网络的ScA-UniReID的平均精度（mAP）为63.2%，排名第一的准确率为75.9%，显著优于基线CLIP-ReID的mAP 58.1%和排名第一的准确率70.2%。这证明了提出方法在雨天和雾天环境中的卓越特征提取能力。然而，当使用ViT-16作为骨干网络时，尽管ScA-UniReID的表现仍然很好，但其mAP为61.5%，略低于ResNet-50版本，表明在此类场景中局部特征建模对于重新识别任务至关重要。此外，如表1所示，在Market_Adverse数据集上，使用ResNet-50的ScA-UniReID的mAP为80.8%，排名第一的准确率为92.0%，明显优于基线CLIP-ReID的mAP 79.7%和排名第一的准确率91.4%。有趣的是，在排名第一的准确率方面，ScA-UniReID的表现略优于ISM [40]，这可能是因为Market_Adverse数据集中的行人特征更为明显，其中身份区分严重依赖于局部详细信息，ISM在这种情况下可能具有优势。然而，通过场景感知的文本提示学习优化跨模态对齐，ScA-UniReID在mAP上超过了ISM，突显了其在处理动态退化因素和有效分离目标特征与噪声方面的优越能力。表1. 最先进方法在VesselReID_Adverse和Market_Adverse数据集上的结果（粗体表示最佳性能）。总之，实验结果表明，无论是使用ResNet-50还是ViT-16作为骨干网络，ScA-UniReID在复杂环境下的人员重新识别任务中都表现出显著优势，特别是在特征提取的稳定性方面。5.3 消融研究5.3.1 场景编码器架构的消融研究为了系统验证所提出的场景编码器架构的有效性，本研究进行了消融实验，比较了三种代表性的结构设计方案：（1）没有控制的基线方案，其中编码器结构与图像编码器相同。编码器仅使用预训练的权重进行微调，不控制身份编码器。（2）具有场景编码器但没有零初始化的方案，以研究参数初始化对模型性能的影响。（3）本研究中提出的完整架构，结合了场景编码器和零初始化策略，旨在最大化对身份编码器的控制。这个实验在ResNet-50和ViT-16骨干网络上进行跨架构验证。如表2所示，当使用ResNet-50作为骨干网络时，CLIP+finetune方法的mAP为60.6%，而ScA-UniReID（无零初始化）仅为52.5%。这表明没有零初始化时，场景编码器可能在早期训练中导致不稳定，从而降低模型性能。相比之下，提出的ScA-UniReID（带零初始化）将mAP提高到63.2%，比CLIP+finetune提高了2.6%，比无零初始化版本提高了10.7%。这验证了零初始化策略在提高模型性能中的关键作用。表2. 不同场景编码器架构在VesselReID_Adverse数据集上的比较结果。当使用ViT-16作为骨干网络时，CLIP+finetune的mAP为58.1%，而ScA-UniReID（无零初始化）为57.3%，再次表明缺乏零初始化可能对模型稳定性产生负面影响。基于ViT-16的ScA-UniReID将mAP提高了1.7%，比CLIP+finetune提高了2.5%。尽管与ResNet-50相比改进相对较小，但它仍然证实了所提方法的有效性。总之，提出的ScA-UniReID框架在不同的骨干网络上均取得了最佳性能，证明了场景编码器可以有效指导身份编码器专注于目标区域并提高特征提取能力，从而在复杂环境条件下提高重新识别任务的准确性。5.3.2 目标函数的消融研究为了研究所提出的目标函数在模型训练中的作用，我们基于ViT-16骨干网络进行了消融实验。比较了两种模型的性能——一种使用目标函数（标记为“w/L”），另一种不使用目标函数（标记为“”）。如图5所示，蓝色曲线（“”）在mAP和排名第一的指标上都优于橙色曲线（“”），表明目标函数有效地增强了模型在雨天和雾天条件下的识别能力。具体来说，该目标函数使场景编码器能够通过对比学习动态感知混合退化图像中的退化特征。然后，它利用这些信息作为条件信号来调节身份编码器的注意力分布，引导其关注与身份相关的区域。在训练过程中，这有助于将目标身份特征与噪声特征分离出来，准确分离目标的身份信息，并显著提高模型对退化图像的识别能力。图5. 目标函数消融研究的比较图表。5.3.3 参数的消融研究为了研究不同参数值对第二训练阶段整体目标函数的影响，本研究基于ViT-16骨干网络进行了比较实验，为参数设置不同的权重组合。如表3所示，尽管改变参数权重会导致mAP等性能指标在不同k值下有所波动，但整体模型性能仍然稳健。这表明所提出的框架在参数选择方面具有很强的泛化能力。它可以在不需要精确参数调整的情况下实现令人满意的目标重新识别性能，进一步证明了框架的良好适应性和稳定性。表3. 不同权重设置在VesselReID_Adverse数据集上的比较结果。5.4 可视化结果5.4.1 检索性能比较为了直观展示ScA-UniReID在雨天和雾天条件下的检索能力，本研究对VesselReID_Adverse测试集进行了可视化分析。具体来说，选择了查询图像及其前10个匹配结果进行显示。检索结果如图6所示。图6. 提出的ScA-UniReID方法与基线模型CLIP-ReID之间的检索结果比较。ScA-UniReID在雨天和雾天等复杂天气条件下表现出强大的目标识别能力。相比之下，基线模型在同一条件下表现出明显的局限性。可视化结果表明，在雨、雾和波浪干扰的情况下，基线模型难以有效分离目标特征与噪声，导致船只详细信息的丢失和检索性能下降。例如，在第一种情况下，基线模型受到雨水干扰的显著影响，无法捕获关键的结构特征，导致与颜色相似但身份不同的目标匹配错误。相比之下，ScA-UniReID在相同的挑战性条件下成功识别了正确的目标，验证了其在恶劣天气环境中的强适应能力。这一优势主要归因于引入了场景编码器，该编码器积极学习退化区域的噪声特征并优化了身份编码器的注意力分布。因此，即使在雨天和雾天等复杂干扰下，模型也能保持对目标相关特征的关注。5.4.2 特征可视化为了进一步验证ScA-UniReID在退化条件下的特征学习能力，图6展示了ScA-UniReID与基线方法CLIP-ReID在雨天和雾天场景下的目标特征关注区域对比。从特征可视化结果可以看出，CLIP-ReID主要关注船只的局部高显著性区域，如船头、船尾和桅杆等结构上突出的部分（如图7所示）。然而，这种局部化关注策略在退化条件下具有明显的局限性。当目标的某些部分受到雨水或雾尘噪声的影响时，模型难以形成稳定的全局特征，导致目标表示不完整，从而影响检索准确性。图7. 雨天和雾天条件下ScA-UniReID与CLIP-ReID之间的特征关注度比较。相比之下，在场景编码器的引导下，ScA-UniReID能够更全面地捕获目标的整体结构和关键身份特征。热图显示，ScA-UniReID不仅提取了局部高显著性特征，还在整个轮廓、船体和独特细节上均匀分布了注意力，确保了目标特征的完整性。此外，在退化条件下，场景编码器有效地减少了模型对退化特征的关注，使身份编码器能够更多地关注与身份相关的特征。总体而言，依靠场景感知机制，ScA-UniReID增强了目标特征的全局感知能力，在雨天和雾天环境中保持了稳定的特征表示，有效减少了环境干扰。这进一步验证了其在提高识别鲁棒性方面的优势。5.4.3 在恶劣天气退化下的鲁棒性分析在雨天和雾天等复杂环境中，目标重新识别面临重大挑战，主要是由于视觉信息退化和多个干扰因素的叠加。如图8b所示，降雨引入了随机分布的雨条，遮挡了目标的关键区域，导致细粒度细节的丢失（第一行）。同时，雨雾效应降低了图像对比度，模糊了物体轮廓和纹理，从而削弱了识别能力（第二行）。此外，阴暗的低光照条件导致照明不足和噪声增加，进一步影响了特征提取的稳定性（第三行）。更重要的是，这些退化因素往往相互交织，大大增加了实际场景中识别的难度，对ReID模型的鲁棒性和泛化能力提出了更高的要求。图8. 在恶劣天气条件下退化图像与恢复图像的定性比较。为了解决这些问题，如图8a所示，现有研究通常引入图像恢复技术（如去雾和去雨）作为预处理步骤来提高视觉质量。这些方法有助于抑制退化伪影，增强图像清晰度，并恢复结构细节，从而为后续的特征提取提供更可靠的输入。然而，这些方法主要关注低级别的视觉增强，可能无法完全保留与身份相关的判别特征，而这些特征在复杂退化条件下对于鲁棒的重新识别至关重要。5.4.4 t-SNE可视化为了进一步展示ScA-UniReID的有效性，本节采用了t-SNE可视化方法[18]，如图9所示。该分析比较了基线模型和第二训练阶段所提出方法在潜在空间中的特征分布，使用了数据集中的20个随机选定的类别。图9：(a) 提出的ScA-UniReID方法的t-SNE可视化；(b) 基线模型CLIP-ReID。在图9a中，CLIP-ReID的特征分布显得分散，同一类的样本点分布在一个较大的区域内，表明在同一类别内的聚类效果较差。使用不同的颜色仅是为了可视化目的而区分各个样本，并不对应于特定的语义类别。这表明基线模型在退化条件下难以学习稳定的身份表示，导致特征的可区分性降低。相比之下，如图9b所示，ScA-UniReID生成的特征具有更好的类内紧凑性和类间区分性。同一类别内的特征点更加紧密地聚集在一起，而不同类别之间则清晰地相互区分。尽管颜色是随机分配的，但聚类结构清楚地表明了特征判别能力的提升。这表明所提出的方法能够在雨天和雾天等场景中更准确地提取身份特征，并有效地区分不同的类别。6. 结论本文提出了一种新颖的场景感知型人物重新识别方法，以应对现实世界场景中雨、雾和其他不利因素共同作用导致的图像退化这一根本挑战。在实践中，恶劣天气会大幅降低图像对比度并模糊结构细节，导致特征空间发生剧烈变化，模型泛化能力急剧下降。为了系统地解决这些问题，我们从两个互补的层面进行干预：特征建模和语义指导。首先，引入了一个专门的场景编码器以及场景感知提示令牌，将环境先验信息注入编码阶段，使模型能够动态感知并补偿由雨雾引起的退化。其次，在身份编码器和场景编码器之间采用了对比学习目标，以明确约束特征空间中目标特征和环境噪声的分布，实现有效的解耦。广泛的实验表明，所提出的ScA-UniReID不仅在多种恶劣天气条件下显著提高了准确性，而且还表现出对之前未见过的条件的强大泛化能力。

热点排行