《Alexandria Engineering Journal》:PCC-guided transformer with keypoint-based interaction and dynamic region-sensitive for human pose estimation
编辑推荐:
针对复杂场景下人体关键点因遮挡、运动模糊等因素导致可见性差异大、传统方法难以精准检测的挑战,大连海洋大学信息科学与工程学院的研究团队开展了一项“PCC-guided transformer with keypoint-based interaction and dynamic region-sensitive for human pose estimation”的研究。他们设计了一个新颖的时空特征学习框架,包含关键点感知时空编码器(KAST)、动态区域敏感编码器(DRS)以及基于皮尔逊相关系数的联合正负样本训练热图损失函数(PCC-JTHL),实现了对不同可见性关键点的差异化特征学习与优化。该方法在PoseTrack2017和PoseTrack2018等公开数据集上取得了优异的检测性能,为视频人体姿态估计任务提供了高效稳健的解决方案。
在人工智能的浪潮中,计算机视觉正以前所未有的速度改变着我们对世界的感知与交互方式。其中,人体姿态估计——这项旨在从图像或视频中精准定位人体关节位置的技术,已成为智能监控、人机交互、运动分析乃至健康监测等诸多前沿应用的基石。想象一下,未来健身房里的AI私教能实时纠正你的动作姿势,或是在拥挤的公共空间,智能系统能流畅追踪每个人的行为轨迹,这一切都离不开高效、鲁棒的人体姿态估计技术。
然而,理想很丰满,现实却很“骨感”。当我们将目光从精心摆拍的静态图片转向真实世界中动态、连续的视频流时,一系列严峻的挑战便浮出水面。遮挡是最常见的“捣蛋鬼”——一个人可能被另一个人、物体甚至自己的肢体部分遮挡;快速运动带来的模糊会让关节轮廓变得难以辨认;光照变化、复杂背景同样会干扰模型的“视线”。更棘手的是,视频中还存在大量“完全不可见”的关节,它们或因严重遮挡,或因移出画面而彻底“消失”。传统的基于静态图像的方法,或是简单地将视频视为独立帧序列处理的策略,往往忽略了视频数据中蕴含的宝贵时空线索,导致在复杂场景下性能骤降,检测结果不稳定、不连续。
为此,由大连海洋大学信息科学与工程学院Jianhao Xu、 Weibo Song、 Weiye Cao、 Shuang Cao、 Zhiqian He组成的研究团队,决心攻克这一难题。他们独辟蹊径,设计了一个名为“PCC引导的Transformer,具备基于关键点的交互和动态区域感知能力”的时空特征学习框架。这项开创性的研究成功实现了在充满挑战的视频场景中对人体姿态的精确估计,其研究成果已发表于国际知名期刊《Alexandria Engineering Journal》。
为了系统性地解决上述问题,研究人员构思并实现了一套包含多个创新组件的技术方案。首先,他们采用“自上而下”的流程,利用人体检测器定位视频目标帧中的每个人,并扩展其边界框以确保信息完整。接着,他们定义一个包含目标帧及其前后若干帧的局部时间窗口,将这些帧中对应的人体区域裁剪出来,共同输入模型。模型的核心是一个强大的骨干网络(ViT-L),用于并行提取窗口内各帧的视觉特征,这对高可见性关节的检测非常有效。针对低可见性关节,团队精心设计了两大编码器:关键点感知时空编码器(KAST) 引入了可学习的关键点令牌,并通过一种新颖的时空注意力机制,促使模型在时空维度上交互特征,并聚焦于与关键点语义相关的视觉区域;动态区域敏感编码器(DRS) 则受人类视觉系统启发,通过差分机制计算注意力分数,引导模型自动关注与目标帧差异显著的动态区域,从而捕捉丰富的运动线索。最后,对于完全不可见的关节,他们创新性地引入了基于皮尔逊相关系数的联合正负样本训练热图损失(PCC-JTHL)。与主流动态区域敏感掩码不可见关节训练损失的策略不同,PCC-JTHL利用皮尔逊相关系数的全局统计特性,将不可见关节作为负样本与可见关节一起进行联合训练,在扩大有效训练样本量的同时,增强了模型对不同可见性水平关键点的适应能力。最终,通过一个由MLP头和经典头组成的联合检测头,模型输出预测的姿态热图。
主要研究结果如下:
- •
整体框架有效性验证:研究提出的完整框架在PoseTrack2017和PoseTrack2018两个大规模视频姿态估计基准数据集上进行了全面评估。如表1和表2所示,该方法取得了当前最优(state-of-the-art)的性能。在PoseTrack2017上,其平均精度(mAP)达到87.1,显著优于其他19种先进方法,并在所有身体部位(肩、肘、腕、髋、膝、踝)的检测上都取得了最高的AP,其中在检测难度最大的踝关节上提升尤为显著(+2.8 AP)。在PoseTrack2018上,该方法同样以84.1的mAP位居榜首,特别是在髋、膝、踝等对整体动作估计重要且难检测的部位上,相对于次优方法有0.5至1.0的AP提升。这些结果充分证明了该框架在处理复杂视频场景、应对不同可见性关键点方面的强大能力。
- •
核心模块的贡献分析:通过详尽的消融实验,研究人员逐一验证了KAST、DRS和PCC-JTHL三个核心创新组件的必要性。如表3所示,移除以经典Transformer块替换KAST、移除DRS中的差分计算机制、或将PCC-JTHL替换为传统的掩码MSE损失,分别会导致mAP下降0.6、0.4和2.0。这表明基于关键点的时空特征交互、对动态区域的优先关注以及PCC驱动的联合训练策略,均为最终性能的提升做出了关键且不可替代的贡献。
- •
KAST编码器设计探索:为了寻找最优的时空特征交互方式,团队比较了多种方案(表4)。用3D卷积块、可变形卷积或经典Transformer编码器替代KAST,均导致性能下降。特别是,简单地将关键点令牌插入图像块序列(类似TokenPose的做法)效果不佳。这证实了KAST所采用的、通过关键点令牌引导的、特定的交叉注意力与自注意力交替进行的交互机制,能够更有效地完成面向姿态估计任务的时空特征提炼。
- •
PCC-JTHL损失函数优势:针对联合正负样本训练策略,团队比较了不同损失函数的效果(表7)。实验表明,皮尔逊相关系数(PCC)作为损失函数效果最佳,均方误差(MSE)和余弦相似度(CS)表现较差。这验证了PCC的全局统计特性(如利用中心化真值作为权重、进行全局标准差约束)能够更好地平衡因引入大量负样本(不可见关节)带来的样本不均衡问题,并驱动模型在更广阔的特征空间中学习。
- •
时间窗口配置影响:研究还探讨了局部时间窗口大小对模型性能的影响(表6)。实验发现,采用目标帧及其前后各一帧(共三帧)作为输入,能在提供足够时空上下文信息与计算开销之间取得良好平衡,性能达到饱和。仅使用目标帧及前一帧,或加入更远帧,并未带来显著增益。
结论与意义:本研究成功提出并验证了一个新颖的、专为视频人体姿态估计设计的时空特征学习框架。该框架的核心贡献在于针对高、低、完全不可见三种不同可见性水平的关键点,设计了差异化的学习策略:利用强骨干网络处理高可见性关节;通过KAST和DRS编码器挖掘时空上下文以补偿低可见性关节的特征信息;创新性地采用PCC-JTHL损失函数将完全不可见关节纳入训练,扩大样本并提升模型泛化能力。大量实验表明,该方法在主流基准数据集上达到了领先水平,显著提升了在遮挡、运动模糊等挑战性场景下的姿态估计鲁棒性和准确性。
这项工作的意义深远。它不仅为视频人体姿态估计这一核心计算机视觉任务提供了一种高效、强大的新解决方案,其提出的模块化设计思想(针对不同问题设计专用组件)和关键技术(如基于关键点的时空交互、动态区域先验、PCC全局损失)也具有很好的普适性和启发性,可被借鉴应用于其他涉及时空建模、遮挡处理、样本不均衡的视觉任务中,如视频目标检测、行为识别、三维人体重建等。随着视频数据在安防、体育、医疗、娱乐等领域的爆炸式增长,这项研究为推动相关视觉智能系统的实际应用落地提供了坚实的技术支撑。