编辑推荐:
骨骼点基础动作识别研究提出融合关节运动与置信度的卷积Transformer模型,通过多尺度卷积注意力机制提升特征提取效率,在JHMDB、NW-UCLA和NTU RGB-D数据集上实现轻量化与高性能平衡。
张涛|钟彬能|陈东|李传祺
教育部教育区块链与智能技术重点实验室,广西师范大学,桂林,541004,中国
摘要
基于骨架的动作识别最近受到了相当多的关注,特别是那些利用图卷积神经网络(GCNs)和Transformer模型的方法。虽然这些方法在该领域非常普遍,但它们通常需要大量的计算资源并且复杂性很高。此外,Transformer模型可能缺乏足够的局部建模能力。为了解决这些挑战,本文提出了一种简单而有效的姿态卷积Transformer网络(PCT)用于基于骨架的动作识别。我们明确地将关节的高级语义(关节运动和关节置信度)引入网络中,以增强特征表示能力。此外,我们通过具有多尺度特征提取功能的卷积注意力机制来利用关节之间的关系。实验表明,我们提出的PCT方法在使用更少的参数和更小的计算资源的情况下,能够达到与最先进模型相当的性能,包括JHMDB、NW-UCLA和NTU RGB-D数据集。更重要的是,我们的方法不需要预训练。
引言
人类动作识别具有多种应用,涵盖安全和医疗康复等领域。在未来的机器人应用中,机器人可以被编程来获取摄像头数据,并利用动作识别算法来辨别人类行为,从而促进人机交互和高级功能。传统的动作识别算法通常需要大量的视频数据,并使用卷积神经网络进行特征提取。随着输入数据的增加,这些模型的复杂性也会增加,以提取更有效的特征,导致训练速度变慢。此外,受光照等因素影响的视频数据质量不稳定性,会降低使用传统深度学习方法的识别准确性。最近在深度相机和姿态估计技术方面的进展简化了骨骼数据的获取。骨骼数据提供了人类手势和运动的简洁表示,使得仅基于关节运动就可以对动作进行分类,而不依赖于视觉外观。此外,由于缺乏背景信息,骨骼数据在计算上比视频数据更高效。本研究专注于基于骨架的人类动作识别。
在基于骨架的动作识别中,以前的方法主要集中在建模人体关节之间的关系上。由于骨骼数据的非结构化特性,图卷积网络(GCNs)已成为主导方法,因为它们能够有效地捕捉这一框架内的特征,如图1(a)所示。基于GCN的动作识别的最新发展(Lee等人,2023a;Peng等人,2020;Song等人,2022)强调了关节与帧之间的相关性,并结合了注意力机制来改进局部关节依赖性的提取(Yang等人,2024;Liu等人,2025)。例如,HetGCN(Gao等人,2024)通过异构图卷积聚合异构的时空上下文来捕捉复杂的运动模式,而Glimpse和Focus方法(Gao等人,2023a)结合了全局和局部图卷积来提取多尺度姿态和轨迹特征。在自监督学习领域,ST-CL(Gao等人,2023b)制定了时空对比学习任务,整合了非局部GCNs和多尺度TCNs来学习动作表示。尽管这些方法提高了性能,但它们经常会导致模型复杂性和计算成本的显著增加。基于Transformer的动作识别方法(如图1(b)所示)利用自注意力机制有效地捕捉长距离关节关系(Qiu等人,2023;Wang和Koniusz,2023;Wang等人,2023a;Xin等人,2023),并在建模全局交互方面表现出色。然而,这些方法往往难以准确表示局部结构,这限制了它们描述细粒度关节依赖性的能力,并可能导致动作识别中关键细节的丢失。此外,它们通常需要大规模的预训练,对数据和计算资源有很高的要求。相比之下,如MG-AL(Yang等人,2022)这样的研究旨在通过运动引导的注意力机制实现轻量级的自监督学习,但其表示能力受到手工制作的运动先验的限制。CESA(Gao等人,2025a)和EigenActor(Gao等人,2025b)专注于特定任务,包括运动合成和分析。虽然它们增强了多模态理解,但其复杂的架构和明显的任务特定性阻碍了它们在一般动作识别场景中的泛化能力。尽管现有方法取得了性能突破,但它们通常面临模型复杂性高、计算开销大、依赖预训练以及建模局部结构能力不足等挑战。这些限制限制了它们在资源受限环境中的实际应用。
为了解决上述问题,我们通过结合关节运动和关节置信度数据来增强动作识别的语义信息,从而提高了动作识别的效率。此外,我们重新评估了卷积神经网络和Transformer的架构和特性,利用了前者的局部连接性和权重共享以及后者的结构特性。随后,我们将这些方面结合起来,介绍了我们的新方法(如图1(c)所示)。在这项研究中,我们重新评估了卷积注意力机制的设计,并引入了PCT,这是一种简单而高效的动作识别框架(参见图2)。具体来说,我们改进了传统的卷积块,使其适应PCT框架中的编码器模块,符合基于骨架的动作识别的要求。通过使用多尺度和深度可分离的卷积特征,我们通过基本的元素级操作巧妙地捕捉了动作的时空动态。我们的实验表明,我们方法中设计的时空注意力机制优于标准的卷积和Transformer中的自注意力机制。值得注意的是,我们的方法参数数量较少。此外,我们的方法在JHMDB、NW-UCLA和NTU RGB-D数据集上的表现令人满意。
本文的主要贡献可以总结如下:
- •
我们引入了姿态卷积Transformer来识别基于骨骼点的动作。该模型采用多尺度卷积注意力机制来全面捕捉相关特征,提高了时空特征提取效率,同时减少了参数使用量。
- •
我们开发了一种独特的特征图,其中包含基本的骨骼点坐标以及与这些坐标相关的运动和置信度信息。这种丰富的特征图为后续的人类动作识别任务提供了更全面的语义细节。
- •
经过广泛的实验,我们的方法在三个数据集JHMDB、NW-UCLA和NTU RGB-D上表现良好。特别是在JHMDB和NW-UCLA数据集上,我们取得了优异的性能,同时减少了参数和计算复杂性。
本文的其余部分组织如下。第2节简要回顾了相关工作。第3节详细介绍了所提出的PCT算法的基于骨架的动作识别框架。随后,第4节进行了广泛的实验。最后,第5节给出了本研究的简要结论。
相关工作
相关工作
基于骨骼点的动作识别关注于在骨骼序列中识别人类行为。现有研究主要集中在捕捉微妙的人类运动,并增强感受野以全面捕捉所有关节和帧之间的相关性。该领域的主要方法分为基于GCN的方法和基于Transformer的方法。
提出方法
本节描述了PCT框架,该框架通过整合多尺度特征融合来改进骨骼数据的特征提取。后续章节概述了骨骼数据的编码,并详细介绍了Convformer编码器的架构和特性。
实验
本节对各种公开可用的用于人类活动识别的数据集进行了全面评估。我们将概述所使用的数据集和指标,然后详细介绍我们的实验实施情况。
讨论
所提出的PCT模型是一种专为骨骼数据定制的特征提取架构。实验结果表明,PCT在小型数据集(如NW-UCLA)和大型数据集(包括NTU RGB-D)上都能实现高效的特征提取。核心组件FEB模块提取了更具区分性的多尺度特征,同时显著减少了参数数量和计算复杂性。与基于Transformer的方法相比
结论
在本文中,我们介绍了使用骨骼数据的姿态卷积Transformer进行动作识别。我们的方法结合了使用骨骼数据的语义信息的特征图编码。此外,我们提出了一个使用多尺度卷积进行特征提取的注意力模块。我们研究了不同输入帧大小、模型架构和多种语义信息对多模型性能的影响。随后,我们确定了最佳输入大小和
CRediT作者贡献声明
张涛:撰写——原始草稿、软件、方法论。钟彬能:撰写——审阅与编辑、资金获取、概念化。陈东:监督、方法论。李传祺:验证、项目管理。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(编号:U23A20383、62472109、62466051)、广西科技项目(编号:2024GXNSFGA010001、2025GXNSFAA069676、2025GXNSFAA069417)、广西“青年八桂学者”创新研究团队以及广西师范大学研究项目(编号:2024DF001)的支持。