《Neural Networks》:SPD-Net: A Semantic Partitioned Transformer with Dynamic Graph Network for Improved Skeleton-based Gait Recognition
编辑推荐:
步态识别作为行为生物识别的重要分支,其核心挑战在于克服外观变化和背景干扰。现有方法多依赖轮廓特征但易受服饰和遮挡影响,而基于骨骼序列的模型虽能捕捉动态关系却存在关节连接固定和计算成本高的问题。本文提出的SPD-Net通过动态图卷积网络(DGCN)捕捉时空关联,结合时序卷积网络(TCN)建模时间动态,再利用语义分区的多头自注意力机制(SP-MSA)降低计算复杂度,最终通过联合部分映射(JPM)模块实现多尺度特征融合。实验表明该模型在CASIA-B、OUMVLP-Pose等基准数据集上显著优于现有方法,尤其在复杂场景下保持98.7%的准确率。
Priyanka D | Mala T
印度泰米尔纳德邦金迪工程学院信息科学与技术系,安娜大学,钦奈,600 025
摘要
步态识别作为一种生物识别方式,因其非侵入性和不显眼的特点而受到重视。现有方法主要依赖于基于轮廓的表示,这使得它们容易受到服装变化、遮挡和背景噪声的影响。相比之下,基于模型的方法利用骨骼序列通过关节连接来捕捉运动动态,从而减少了对视觉外观的依赖。然而,这些方法通常依赖于物理上相连的关节,限制了它们模拟语义上有意义的关节关系的能力。基于Transformer的模型通过捕捉长距离依赖性来克服这一限制,但代价是较高的计算开销。为了解决这些问题,本文提出了具有动态图网络(SPD-Net)的语义分割Transformer,以实现鲁棒的步态识别。SPD-Net整合了动态图卷积网络(DGCN)、时间卷积网络(TCN)和语义分割多头自注意力(SP-MSA)来增强步态特征的表示。DGCN动态学习关节之间的空间相关性,而TCN捕捉时间依赖性。此外,SP-MSA引入了一种语义分割策略,有选择地关注关键关节和帧,显著降低了计算复杂度,同时保留了重要的步态模式。这种方法有效地模拟了物理相邻和远距离的关节关系,以及帧内和帧间的相关性。最后,联合部分映射(JPM)模块通过捕捉多尺度上的层次化关节关系来增强步态表示的区分能力。在基准步态数据集上的实验评估表明,SPD-Net超越了之前的最先进方法,在各种步态识别挑战中实现了更好的鲁棒性和准确性。
引言
生物识别系统根据个体的生理或行为特征来识别或验证身份。步态识别是一种行为生物识别方法,通过分析个体的独特行走模式来进行识别(Chao等人,2019年)。与指纹、面部或虹膜识别等生理生物识别方法不同,步态识别可以在不需要用户配合的情况下从远处进行识别,并且本质上难以模仿。此外,它是非侵入性的,不需要与传感器直接交互,因此非常适合用于被动识别(Chen等人,2022年)。这些优势使其适用于各种领域,包括监控、访问控制和法医识别(Zhang等人,2024年)。2025年全球步态生物识别市场的价值约为3.915亿美元,并预计从2025年到2033年将以12.5%的复合年增长率增长(Research,2025年)。
然而,步态生物识别面临由于服装变化、携带的物体、观察角度等因素导致的步态模式变化所带来的挑战(Pang等人,2024年)。为了确保可靠的识别,一个鲁棒的步态识别系统必须能够有效应对这些挑战,提取不受外部影响的一致且独特的步态特征(Parashar等人,2022年)。已经开发了几种方法来应对这些挑战,这些方法大致可以分为基于外观的方法和基于模型的方法。
基于外观的方法依赖于轮廓来提取步态特征(Fan等人,2020年)。然而,这些系统保留了与外观相关的信息,如服装和携带的物体,使它们容易受到外部条件变化的影响,从而显著改变步态特征(Song等人,2019年)。随着姿态估计技术的进步,基于模型的方法在步态识别中变得更为突出。与基于外观的模型不同,姿态估计模型生成骨骼关节关键点,提供对外观变化更具鲁棒性的步态特征(Teepe等人,2021年)。人体的骨骼表示捕捉了姿势和随时间变化的动态运动,提供了更不变和可靠的步态表示。
因此,骨骼的动态运动可以表示为一个时空图,其中节点对应于人体关节,边捕捉它们之间的结构和时间连接。为了对这种非结构化的骨骼数据进行建模,使用了图卷积网络(GCN),通过捕捉运动序列中的空间关系和时间依赖性来实现有效的特征提取(Li等人,2024年;Liu等人,2022年)。然而,标准GCN使用固定的滤波器进行特征提取,限制了它们适应不同运动模式的能力。此外,它们仅依赖于物理上相连的关节,忽略了远距离关节之间的隐含相关性,而这些相关性对运动动态有贡献。为了解决这一限制,基于Transformer的模型采用自注意力机制来捕捉关节之间的全局关系(Zhang等人,2023年)。然而,它们的高计算成本仍然是一个挑战。这些限制阻碍了模型捕捉长距离空间和时间依赖性的能力,这对于理解复杂的步态模式至关重要。
为了解决上述限制,提出了具有动态图网络(SPD-Net)的语义分割Transformer。SPD-Net整合了动态图卷积网络(DGCN)、时间卷积网络(TCN)、语义分割多头自注意力(SP-MSA)模块和联合部分映射(JPM)模型,以有效捕捉步态特征。DGCN利用预定义的邻接矩阵(编码物理上相连的关节)和可学习的连接,从而提取动态运动关系。这种设计增强了模型捕捉局部和远距离关节依赖性的能力。同时,TCN通过识别序列运动模式来建模时间依赖性。从DGCN和TCN提取的空间和时间特征被连接起来并输入SP-MSA模块。SP-MSA通过引入基于关节和帧相关性的分割策略来降低计算复杂度,确保高效的上下文建模(Do和Kim,2024年;Tu等人,2022年)。最后,JPM模块通过建模层次化关节关系将学习到的时空特征映射到一个区分性空间中,从而提高模型区分细粒度步态模式的能力。
本文的主要贡献如下:
- •
提出的SPD-Net模型结合了DGCN和TCN,分别捕捉空间和时间步态特征。DGCN通过加入可学习的连接和预定义的邻接矩阵扩展了传统的GCN,从而改进了空间特征学习。
- •
SP-MSA模块基于步态周期性和关节关系引入了一种语义分割策略,有效地建模了时间和空间依赖性。这种方法显著降低了计算开销,同时保留了丰富的关系线索,从而实现了更有效和更具区分性的步态表示。
- •
JPM模块捕捉多尺度结构依赖性,从而增强了特征抽象并提高了模型的鲁棒性。
- •
在基准步态数据集上的广泛实验验证了所提出的SPD-Net模型的有效性,展示了其在保持计算效率的同时达到了最先进的性能。
本文的其余部分组织如下。第2节回顾了基于视觉的步态识别中的现有方法,强调了它们的优点和局限性。第3节概述了所提出的SPD-Net的架构,详细介绍了其子模块以及相关的损失函数。第4节描述了使用的数据集并概述了实现细节。第5节展示了实验结果及其详细分析。最后,第6节提供了论文的结论,并概述了未来研究的可能方向。
相关工作
相关工作
本节提供了基于视觉的步态识别现有研究的概述。现有方法大致可以分为基于外观的方法和基于模型的方法。基于外观的方法主要依赖于轮廓或纹理信息来提取步态模式,而基于模型的方法则关注人体的结构和运动学表示以捕捉运动动态。
提出的SPD-Net模型
本节介绍了所提出的具有动态图网络(SPD-Net)的语义分割Transformer的架构,这是一个用于步态识别的表示学习框架。如图1所示,该网络通过四个主要组件提取空间、时间和层次化表示:投影块、核心SPD-Net块、时间卷积层和最终的分类头。SPD-Net块整合了动态图卷积网络
数据集和实现细节
本节描述了用于评估所提出的SPD-Net模型的大数据集和实验设置。评估是在三个广泛使用的步态识别基准数据集上进行的:CASIA-B(Yu等人,2006年)、OUMVLP-Pose(An等人,2020年)、Gait3D(Zheng等人,2022年)和GREW(Zhu等人,2021年)。
结果与讨论
在本节中,通过广泛的实验分析了所提出的SPD-Net的性能。首先,通过消融研究评估了各个组件和设计选择的影响。随后,通过与现有最先进(SOTA)方法的比较分析,展示了SPD-Net在多个基准数据集上的竞争力。
结论
在这项工作中,提出了一个新颖的SPD-Net框架,用于实现鲁棒和高效的步态识别。通过整合DGCN和TCN,SPD-Net有效地捕捉了步态序列中固有的动态结构和时间依赖性。此外,通过SP-MSA模块引入的注意力机制使模型能够在建模帧内和帧间相关性的同时捕捉长距离关节关系。另外,JPM模块有助于提取部分级别的
CRediT作者贡献声明
Priyanka D:撰写 – 审稿与编辑,撰写 – 原始草稿,方法论,概念化。Mala T:撰写 – 审稿与编辑,监督。
利益冲突声明
Priyanka D报告称获得了安娜大学的财务支持。如果有其他作者,他们声明没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
作者衷心感谢安娜大学通过安娜百年研究奖学金(ACRF)计划为这项研究提供的财务援助。作者Priyanka D对获得ACRF奖学金表示感谢。