从多视图片段中学习:一种用于遮挡人员重新识别的自适应一致性蒸馏框架
《Neurocomputing》:Learning from multi-view fragments: An adaptive consistency distillation framework for occluded person re-identification
【字体:
大
中
小
】
时间:2026年02月13日
来源:Neurocomputing 6.5
编辑推荐:
本文提出多视角一致性蒸馏(MVCD)框架,基于LUPI范式,利用训练时的多视角信息通过三个机制构建教师模型,再通过一致性蒸馏将其知识蒸馏到标准单视角学生模型,实现遮挡场景下的高精度与低推理开销。
Jianfeng Dong|Shengwei Tian|Long Yu|Hongfeng You|Qimeng Yang|Jinmiao Song|Xinjun Pei|Feng Shi|Kun Wu
新疆大学软件学院,中国乌鲁木齐
摘要
遮挡人重识别(ReID)面临“信息不完整性悖论”:单一遮挡视图会丢失判别线索,导致表示结果模糊;而利用多视图观测通常需要多分支推理,计算成本较高。为了解决这一难题,我们提出了多视图一致性蒸馏(MVCD)框架,该框架基于利用特权信息学习(LUPI)范式。具体来说,我们构建了一个仅用于训练的教师模型,该模型能够访问多视图片段和身份标注(仅在训练期间可用),并通过一致性蒸馏将这些特权知识传递给标准的单视图学生模型。教师模型包含三种仅用于训练的机制:(1)显著性引导的特征净化(SGFP),利用标签引导抑制遮挡引起的噪声;(2)跨视图块对齐(CVPA),利用块对应关系进行跨视图的空间校正;(3)可靠性引导的聚合(RGA),生成低方差、可靠的监督目标。关键在于,所有辅助组件在训练后都会被丢弃,使学生模型能够以零额外推理时间成本从遮挡输入中恢复更完整的表示。在五个基准测试上的广泛实验表明,MVCD相比现有强基线方法有了一致的改进。在Occluded-DukeMTMC任务中,MVCD的Rank-1准确率达到70.4%,每张图像的推理时间为25毫秒,优于之前的最先进方法。
引言
人重识别(ReID)旨在匹配非重叠相机视图中的行人身份,在智能监控和智慧城市应用中发挥着核心作用[1]、[2]、[3]。随着大规模相机网络的快速部署,在无约束环境中实现鲁棒性能变得越来越重要。在众多挑战中,遮挡是最持久且最具破坏性的因素之一:当行人被其他人、物体或场景结构部分遮挡时,判别线索可能会丢失或在不同视图之间不一致。从空间上看,同一身份的可见区域会随视角变化而变化,导致注意力不稳定和特征错位;从语义上看,一个视图中的身份线索在另一个视图中可能完全缺失。这种多层次的信息不完整性严重削弱了仅依赖单视图观测的匹配性能[4]。
早期方法主要从两个方向解决遮挡问题。遮挡感知方法利用辅助估计器(例如姿态或语义分割)来定位可见部分[5]、[6]、[7]、[8]、[9]、[10]、[11]、[12],但这些方法依赖于外部模块,可能会出现错误传播和额外计算。而抗遮挡方法则通过注意力或基于部分的表示进行端到端判别学习[13]、[14]、[15];这些方法更高效,但受到单张图像中可用信息的根本限制——当判别区域完全被遮挡时,模型缺乏可靠的证据来恢复它。
一个自然的解决方案是利用多视图的互补性:同一身份的不同观测通常会揭示不同的可见区域,使互补线索填补缺失的信息。然而,在训练期间利用多视图数据与在测试时部署单视图模型之间存在实际差距。现有的多视图融合方法通常需要多张图像或在推理时使用多分支架构,导致高延迟;简单的全局融合也可能忽略局部错位和视图特定的噪声。因此,多视图观测提供的鲁棒性并未有效转移到标准的单视图框架中。
为了弥合这一差距,我们提出了多视图一致性蒸馏(MVCD),其灵感来自利用特权信息学习(LUPI)范式[16]。在LUPI中,教师模型在训练期间可以访问测试期间不可用的额外信息(特权信息),以促进学生模型的学习。在我们的设置中,多视图批量结构(训练批次中的同一身份的多个视图)以及身份标签作为特权信息。我们没有设计复杂的融合网络用于推理,而是构建了一个仅用于训练的教师模型,该模型合成高质量的监督目标,并将该目标蒸馏到标准的单视图学生模型中。教师模型整合了三种机制:SGFP用于抑制视图特定的噪声,CVPA用于通过跨视图块对应关系校正空间偏差,RGA用于将互补的语义自适应聚合为鲁棒、低方差的原型。
直观地说,遮挡增加了单视图特征估计的不确定性,而特权多视图聚合和对齐可以产生更稳定的目标表示。通过在训练期间强制学生模型与多视图教师模型之间保持一致性,学生模型学会了从遮挡输入中恢复更完整的身份线索(图1)。所有特权组件在测试时都被移除,生成了一个无额外推理开销的单视图模型。
我们的主要贡献包括:
•我们将遮挡ReID问题表述为一个基于LUPI的蒸馏问题,将鲁棒性从推理时的融合转移到训练时的特权监督,从而解决准确性与效率之间的权衡。
•我们设计了三种仅用于训练的教师机制(SGFP、CVPA和RGA),用于(i)在标签引导下净化特征,(ii)通过跨视图块对齐校正空间错位,以及(iii)将可靠的多视图语义自适应聚合为低方差监督目标。
•我们在五个基准测试上对MVCD进行了实证验证,显示出比强基线方法一致的改进。值得注意的是,在Occluded-DukeMTMC任务中,MVCD的Rank-1准确率达到70.4%,而推理时间与vanilla ResNet-50相当(25毫秒/张图像)。
相关工作
相关研究
遮挡人重识别的研究经历了几个阶段的发展,从单视图特征挖掘发展到多源交互和融合架构。在这项工作中,我们从统一的特权学习视角(即LUPI范式)重新审视了这些方向。
方法论
在本节中,我们将详细阐述提出的多视图一致性蒸馏(MVCD)框架。我们的核心动机是弥合信息丰富的多视图训练与信息稀缺的单视图推理之间的差距。为此,MVCD采用了教师-学生范式,其中虚拟教师模型利用特权多视图信息来监督标准的单视图学生模型。重要的是,学生模型从未访问跨视图的信息
实验
为了验证所提出的多视图一致性蒸馏(MVCD)框架的有效性,我们在针对遮挡和整体评估的基准测试上进行了全面实验。我们将MVCD与最先进的方法进行了比较。此外,我们还进行了消融分析和敏感性分析,以量化每个仅用于训练的教师组件的贡献,证明了改进的特权教师构建可以带来更鲁棒的单视图模型
讨论
所提出的多视图一致性蒸馏(MVCD)框架在保持部署效率的同时取得了强大的性能。更重要的是,MVCD可以理解为基于LUPI范式的:多视图观测和标签作为特权信息,用于构建仅用于训练的教师模型,其监督结果被蒸馏到标准的单视图学生模型中。训练完成后,特权教师模型被完全丢弃,部署的模型无需额外推理
结论
我们提出了多视图一致性蒸馏(MVCD),以弥合抗遮挡训练与高效单视图推理之间的差距。MVCD没有部署多分支融合网络或依赖外部辅助模型,而是构建了一个仅用于训练的特权教师模型,并将其监督结果蒸馏到标准的单视图模型中。教师模型配备了三种机制:显著性引导的特征净化(SGFP)用于标签引导的噪声抑制,跨视图块对齐(CVPA)用于校正空间偏差,以及可靠性引导的聚合(RGA)用于将互补的语义自适应聚合为鲁棒、低方差的原型。
CRediT作者贡献声明
Jianfeng Dong:撰写 – 审稿与编辑,撰写 – 原始草案,可视化,软件,方法论,数据整理。Shengwei Tian:撰写 – 审稿与编辑,监督,资源管理,项目协调,研究调查,资金获取,概念化。Long Yu:监督,软件,资源管理,资金获取,形式分析,概念化。Hongfeng You:撰写 – 审稿与编辑,验证,监督,资源管理,资金获取。Qimeng Yang:
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本研究得到了两个主要项目的资助:(1)新疆维吾尔自治区关键研发计划(项目编号2024B03041),该项目支持了核心特征细化框架的开发;(2)天山人才培训计划(项目编号2023TSYCLJ0023),该项目为实验验证和数据收集提供了资源;(3)特定场景下智能分析算法的研发(项目编号Z421A25117),该项目
Jianfeng Dong于2024年获得中国天津南开大学的管理学士学位。他目前正在新疆大学软件学院攻读软件工程硕士学位。他的研究兴趣包括计算机视觉和人重识别(ReID),重点关注跨相机场景中的遮挡处理。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号