步态识别是一种基于个体体型和行走模式的生物识别技术。与传统生物识别方法相比,步态识别具有显著优势,包括远距离识别、非接触式数据采集以及对伪装的高鲁棒性。此外,步态特征可以在环境条件、光照和受试者配合方面的限制较少的情况下获得,这使得该技术非常适合应用于监控、安全威胁检测和法医调查[1]、[2]。
尽管步态识别技术取得了显著进展,但由于协变量因素(如行走速度变化、遮挡[4]、[5]、携带物品情况[6],尤其是视角变化[7]、[8]),其在实际应用中仍面临挑战。步态外观高度依赖于相机视角,现有的步态识别模型通常依赖于三元组损失(triplet loss),这种模型假设训练数据集中的视角覆盖是完整的。当训练或测试时某些视角缺失时,模型的泛化能力会下降,因为它无法适应未见过的测试视角[9]。此外,训练期间视角覆盖不完整会导致样本库数据和测试数据之间的视角不一致,身份特征会被特定视角的偏差污染,从而降低泛化能力。
现有的解决视角变化的方法可以分为三类:(i)基于变换的对齐方法,(ii)不受视角影响的特征提取方法,以及(iii)特征解耦方法。基于变换的对齐方法使用几何或深度学习映射[10]、[11]来对齐跨视角的步态特征,需要成对的训练数据,无法泛化到未见过的测试视角。不受视角影响的特征提取方法利用2D/3D卷积网络[1]、[13]提取空间和全局特征,旨在绕过显式的对齐过程。尽管这些方法有效,但残余的视角偏差仍然存在,在极端角度变化下会导致性能下降。特征解耦方法尝试显式分离身份特征和依赖于视角的成分[6]、[14]、[15],但它们依赖于成对的训练数据或完整的视角覆盖,因此在视角缺失或未见时无效。
在视角覆盖不完整的步态识别任务中,模型只能从部分相机角度获取步态序列,缺乏来自其他视角的补充信息。这种限制导致学习到的身份特征中存在显著的视角风格偏差,使得身份特征和特定视角的特征高度纠缠,难以分离。缺乏完整的多视角数据使得模型无法利用视角融合来减少风格引起的失真。传统方法通常将视角变化视为离散标签或几何变换,在这些条件下无法正常工作,因为它们无法插值缺失视角的分布。因此,我们提出以下问题:我们如何在不依赖成对跨视角数据或离散视角标签的情况下,从理论上分离具有辨识性的身份特征和视角引起的变化?加剧这一表示挑战的是实现“纯”解耦的难度。具体来说,训练和测试期间视角覆盖不完整会导致步态外观和运动模式的不一致,表现为视角引起的风格差异。当风格信息与身份特征不可分割地纠缠时,标准的正交性约束往往不足以防止信息泄露。提取纯净的身份表示变得具有挑战性,因为模型可能会无意中记住特定的视角风格模式而不是真实身份。这引出了另一个问题:我们如何强制解耦的特征之间保持严格的统计独立性,以防止特定视角的偏差渗入身份表示中?然而,即使从静态表示(例如步态能量图像)中提取出不受视角影响的特征以确保稳定性,仍然存在一个根本性的权衡。仅依赖静态解耦可能会忽略步态序列中固有的关键时间动态。相反,仅依赖全局运动特征会使模型容易受到视角失真的影响。缺乏完整的多视角数据限制了这些模态之间的自然交叉参考能力。因此,我们提出以下问题:我们如何将静态的、解耦的身份先验与动态的全局运动特征有效结合,以提高泛化能力?
为了解决这些挑战,本文提出了一种新颖的框架GaitADIB(对抗性解耦信息瓶颈网络),旨在从观察到的步态数据中分离出与身份相关的核心信息,同时消除不相关的特定视角干扰。GaitADIB的核心理念是通过信息瓶颈原理[16]将视角引起的变化建模为连续的、通用的“风格”分布,从而学习出对未见视角具有鲁棒泛化能力的不受视角影响的表示。为了解决问题I),我们引入了双信息变分编码器(DIVE)。该模块提供了一种基于理论的方法[17],通过变分推理将输入数据分解为两个统计独立的潜在代码。具体来说,DIVE使用双重变分编码器:一个通过最大化互信息来提取身份特征T,以保留最小足够的识别统计信息;另一个通过优化I(X; S, Y)来学习风格特征S。这种设计结合了关注身份的上下文Y和特定于风格的属性S,指导风格编码器捕捉与身份无关的残余特征,从而实现无需依赖离散视角标签的鲁棒分解。
为了解决问题II)并严格强制特征独立性,我们提出了对抗性互信息解耦(AMID)策略。在DIVE的初步分离基础上,AMID引入了一种对抗机制来消除残余相关性。理论上,它旨在通过最小化互信息I(S; T)来近似Kullback–Leibler(KL)散度,即联合分布q(S, T)与边际分布q(S)q(T)的乘积。然而,直接的KL优化通常由于其无界性而不稳定。因此,我们采用了一种对抗性实现方法,有效地优化了Jensen–Shannon(JS)散度。通过双重采样机制(联合边际与随机排序的边际),训练了一个MLP判别器来区分耦合特征和解耦特征。优化这个极小化目标利用了JS散度的优越数值稳定性和有界性,防止梯度爆炸,确保提取的身份特征在统计上独立于风格特征且无信息泄露。
为了解决问题III),我们在协作式联合学习阶段设计了一个选择性自适应特征融合(SAFF)模块。该模块在身份特征被净化的预训练阶段之后,弥合了静态解耦和动态运动之间的差距。通过使用注意力门控机制,SAFF动态地权衡并整合了来自预训练的、冻结的DIVE的不受视角影响的身份先验与时空全局特征。这种自适应融合增强了与任务相关的身份线索,同时抑制了残余的视角依赖性,确保即使在测试视角未见或失真的情况下,模型也能优先考虑可靠的信息。因此,GaitADIB克服了依赖视角生成或对齐的方法的局限性,为具有不完整观测数据的实际场景提供了更好的解决方案。
本工作的主要贡献总结如下:
•提出了一种新颖的GaitADIB框架,专为视角覆盖不完整的未见视角步态识别而设计。通过将视角变化概念化为连续的“风格”因素,并结合DIVE模块和AMID策略,该框架在不需要离散视角标签的情况下明确分离了身份特征和视角引起的风格,确保即使在训练期间测试视角完全未见时也能实现鲁棒的泛化。
•提出了一种双流融合架构,将通过对抗性解耦获得的净化身份特征与全局步态动态整合在一起。SAFF模块使用注意力门控机制自适应地合并这些特征,增强了与身份相关的特征,同时抑制了残余的视角依赖性
•引入了一种基于信息瓶颈的新型训练范式,该范式规范了学习过程,以确保特征解耦的鲁棒性。通过最大化变分下界、最小化对抗性互信息并应用动态熵约束,该方法在保持身份信息的同时消除了视角引起的变化。
本文的其余部分组织如下:第2节回顾相关工作,第3节详细介绍了提出的方法,第4节展示了实验结果和可视化结果,第5节总结了本文。