3D人体姿态估计(3D HPE)是计算机视觉中的核心任务,旨在从2D图像、视频或其他传感器数据中推断人体骨骼关节的3D位置及其空间关系。其目标是构建人体的3D骨骼表示,通常表示为关节坐标或骨骼连接。具体来说,3D HPE可以分为两种主要方法:单目3D姿态估计,它直接从单个2D图像预测3D关节坐标;以及多视图3D姿态估计,它利用多个视图的信息来提高准确性。作为一种重要技术,3D HPE在现实世界中具有广泛的意义和应用,包括但不限于人体动作分析和识别、智能人机交互、医疗康复和保健、娱乐和电影制作、智能监控和行为预测,以及机器人技术和自动驾驶。尽管取得了显著进展,3D HPE仍然面临许多挑战,如单目图像中的深度模糊、自我遮挡和人与人之间的遮挡,以及人体姿态的多样性和极端运动(图1)。
Transformer架构最初是为自然语言处理(NLP)提出的,随着Vision Transformers的出现,它已成为计算机视觉中的主流模型。在姿态估计中,Transformer特别有效,因为它们具有强大的建模长距离依赖性的能力以及灵活的注意力机制,能够捕捉全局结构信息。同时,基于图的模型(如ST-GCN)首次将人体关节表示为图输入进行卷积,并在模拟局部依赖性方面取得了出色性能。与擅长捕捉全局关系的Transformer相比,图模型在局部结构建模方面表现出优势。MotionAGFormer结合了两种范式的优势——利用Transformer处理全局依赖性,利用GCN处理局部结构——从而实现对粗粒度和细粒度姿态信息的联合建模。然而,这种直接的组合未能充分考虑人体解剖学中固有的强拓扑相关性以及人体姿态的多样性,同时由于冗余的关节相关性建模而导致计算成本较高。为了解决这些限制,我们提出了一种名为SFTFormer的新架构,用于3D人体姿态估计。
自从引入ST-GCN(Yan, Xiong, & Lin, 2018)以来,大量研究探索了基于图的模型中人体骨骼关节的拓扑和运动学关系。一些工作(Chen, Zhang, Yuan, Li, Deng, Hu, 2021, Chi, Ha, Chi, Lee, Huang, Ramani, 2022, Lee, Lee, Lee, Lee, 2023, Shi, Zhang, Cheng, Lu, 2019)提出了创新设计,以增强图表示,从而实现更准确和稳健的姿态估计。受这一研究方向的启发,我们引入了路径拓扑提示卷积模块(PTM)。与仅依赖关节连通性进行消息传递的传统方法不同,PTM基于关节距离实现远距离关节之间的直接交互,并自适应地调整它们之间的连接强度。
此外,受MotionAGFormer架构设计的启发,我们引入了一个改进的时空增强注意力(STE)模块,它用并行的双流Transformer设计替换了原始的交替时空块。一方面,并行结构避免了特征的顺序压缩,这可能导致重要信息的过早丢失并阻碍后续学习。这种方法以原始形式或更高维度形式保留了时间动态和空间结构信息。另一方面,并行架构有效地降低了计算复杂性,将其从降低到大约一半。在STE中,空间流明确模拟了每个时间步长中关节之间的亲和力,而时间流将不同帧中同一关节的轨迹链接起来。通过利用先验知识,STE更有效地捕捉高阶依赖性:使用静态位置嵌入来增强关节之间的拓扑感知交互,并对时间节点应用权重调制以提高信息交换效率。最后,两个流中的上下文信息通过多层感知器(MLP)进行重组和融合。
SFTFormer的双流架构旨在充分利用3D人体姿态估计中局部和全局信息之间的互补性。人体骨骼关节表现出强烈的拓扑相关性和复杂的运动模式,这些对于单个GCN或Transformer模型来说难以完全捕捉。为了解决这个问题,双流设计使得能够专门建模互补的方面,使网络能够同时捕捉细粒度的局部结构和粗粒度的全球依赖性。
具体来说,GCN流配备了路径拓扑提示卷积模块(PTM),它基于骨骼距离实现远距离关节之间的直接交互,并自适应地调整连接强度,从而保持解剖学拓扑并增强局部结构建模。同时,Transformer流采用并行的时空增强注意力(STE),在高维空间中保留时间动态和空间结构信息,同时降低计算复杂性。然后通过多层感知器(MLP)整合两个流的特征,实现更高阶的依赖性建模,提高3D姿态估计的准确性和稳健性。原则上,GCN流专注于建模局部关节连通性和骨骼约束,而Transformer流捕捉长距离时间依赖性和全局空间关系。通过利用先验增强的注意力和权重调制,模型有效地学习了关节之间的复杂交互,在不同动作和视角下保持稳定的估计性能。