SFTFormer：结合时空融合与结构增强的人体姿态估计方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：SFTFormer: Human Pose Estimation with Spatiotemporal Fusion and Structural Enhancement

【字体：大中小】 时间：2026年03月17日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　3D人体姿态估计通过结合图卷积网络和Transformer的双流架构，引入动态拓扑感知机制和结构增强时空注意力模块，有效建模长程依赖与跨肢关节交互，显著提升复杂运动场景下的估计精度和鲁棒性。

陈俊芬|姜文凯|王一丹

河北省机器学习与计算智能重点实验室，中国河北省保定市071002

摘要

3D人体姿态估计（3D HPE）旨在从图像、视频或其他传感器数据中恢复人体骨骼关节的3D位置。尽管最近结合图卷积网络（GCNs）和Transformer的混合架构取得了显著进展，但大多数现有方法依赖于局部邻接图或纯粹的相似性驱动注意力机制，这限制了它们在复杂运动下模拟长距离和跨肢体关节交互的能力。为了解决这些限制，我们提出了SFTFormer，这是一个结构感知的双流框架，它将骨骼拓扑先验集成到基于图和基于注意力的建模中。具体来说，我们引入了一种动态的拓扑感知机制，将运动路径信息编码到位置嵌入中，从而实现解剖学相关但非相邻关节之间的交互。我们还开发了一个结构增强的时空注意力模块，该模块综合考虑了特征相似性、骨骼连通性和时间接近性，以捕捉长距离依赖性。此外，Transformer和GCN流中的时空特征使用生物力学先验进行重新加权，然后通过现有的自适应融合策略进行结合。在Human3.6M和MPI-INF-3DHP上的实验表明，SFTFormer在具有跨肢体交互和快速运动的场景中表现优于现有方法，同时保持了良好的效率。这些结果突显了结构感知时空建模的有效性，并展示了SFTFormer在智能监控和人机交互等实际应用中的潜力。

引言

3D人体姿态估计（3D HPE）是计算机视觉中的核心任务，旨在从2D图像、视频或其他传感器数据中推断人体骨骼关节的3D位置及其空间关系。其目标是构建人体的3D骨骼表示，通常表示为关节坐标或骨骼连接。具体来说，3D HPE可以分为两种主要方法：单目3D姿态估计，它直接从单个2D图像预测3D关节坐标；以及多视图3D姿态估计，它利用多个视图的信息来提高准确性。作为一种重要技术，3D HPE在现实世界中具有广泛的意义和应用，包括但不限于人体动作分析和识别、智能人机交互、医疗康复和保健、娱乐和电影制作、智能监控和行为预测，以及机器人技术和自动驾驶。尽管取得了显著进展，3D HPE仍然面临许多挑战，如单目图像中的深度模糊、自我遮挡和人与人之间的遮挡，以及人体姿态的多样性和极端运动（图1）。

Transformer架构最初是为自然语言处理（NLP）提出的，随着Vision Transformers的出现，它已成为计算机视觉中的主流模型。在姿态估计中，Transformer特别有效，因为它们具有强大的建模长距离依赖性的能力以及灵活的注意力机制，能够捕捉全局结构信息。同时，基于图的模型（如ST-GCN）首次将人体关节表示为图输入进行卷积，并在模拟局部依赖性方面取得了出色性能。与擅长捕捉全局关系的Transformer相比，图模型在局部结构建模方面表现出优势。MotionAGFormer结合了两种范式的优势——利用Transformer处理全局依赖性，利用GCN处理局部结构——从而实现对粗粒度和细粒度姿态信息的联合建模。然而，这种直接的组合未能充分考虑人体解剖学中固有的强拓扑相关性以及人体姿态的多样性，同时由于冗余的关节相关性建模而导致计算成本较高。为了解决这些限制，我们提出了一种名为SFTFormer的新架构，用于3D人体姿态估计。

自从引入ST-GCN（Yan, Xiong, & Lin, 2018）以来，大量研究探索了基于图的模型中人体骨骼关节的拓扑和运动学关系。一些工作（Chen, Zhang, Yuan, Li, Deng, Hu, 2021, Chi, Ha, Chi, Lee, Huang, Ramani, 2022, Lee, Lee, Lee, Lee, 2023, Shi, Zhang, Cheng, Lu, 2019）提出了创新设计，以增强图表示，从而实现更准确和稳健的姿态估计。受这一研究方向的启发，我们引入了路径拓扑提示卷积模块（PTM）。与仅依赖关节连通性进行消息传递的传统方法不同，PTM基于关节距离实现远距离关节之间的直接交互，并自适应地调整它们之间的连接强度。

此外，受MotionAGFormer架构设计的启发，我们引入了一个改进的时空增强注意力（STE）模块，它用并行的双流Transformer设计替换了原始的交替时空块。一方面，并行结构避免了特征的顺序压缩，这可能导致重要信息的过早丢失并阻碍后续学习。这种方法以原始形式或更高维度形式保留了时间动态和空间结构信息。另一方面，并行架构有效地降低了计算复杂性，将其从

J^{2} C + T^{2} C

降低到大约一半。在STE中，空间流明确模拟了每个时间步长中关节之间的亲和力，而时间流将不同帧中同一关节的轨迹链接起来。通过利用先验知识，STE更有效地捕捉高阶依赖性：使用静态位置嵌入来增强关节之间的拓扑感知交互，并对时间节点应用权重调制以提高信息交换效率。最后，两个流中的上下文信息通过多层感知器（MLP）进行重组和融合。

SFTFormer的双流架构旨在充分利用3D人体姿态估计中局部和全局信息之间的互补性。人体骨骼关节表现出强烈的拓扑相关性和复杂的运动模式，这些对于单个GCN或Transformer模型来说难以完全捕捉。为了解决这个问题，双流设计使得能够专门建模互补的方面，使网络能够同时捕捉细粒度的局部结构和粗粒度的全球依赖性。

具体来说，GCN流配备了路径拓扑提示卷积模块（PTM），它基于骨骼距离实现远距离关节之间的直接交互，并自适应地调整连接强度，从而保持解剖学拓扑并增强局部结构建模。同时，Transformer流采用并行的时空增强注意力（STE），在高维空间中保留时间动态和空间结构信息，同时降低计算复杂性。然后通过多层感知器（MLP）整合两个流的特征，实现更高阶的依赖性建模，提高3D姿态估计的准确性和稳健性。原则上，GCN流专注于建模局部关节连通性和骨骼约束，而Transformer流捕捉长距离时间依赖性和全局空间关系。通过利用先验增强的注意力和权重调制，模型有效地学习了关节之间的复杂交互，在不同动作和视角下保持稳定的估计性能。

部分摘录

3D人体姿态估计

3D人体姿态估计的方法可以根据输入模式和预测范式进行分类。从输入角度来看，多视图方法（Chun, Park, Chang, 2023, Iskakov, Burkov, Lempitsky, Malkov, 2019, Reddy, Guigues, Pishchulin, Eledath, Narasimhan, 2021, Remelli, Han, Honari, Fua, Wang, 2020, Zhang, Wang, Qiu, Qin, Zeng, 2021）利用多个相机实现高精度，但可扩展性和实用性较差。相比之下，单目方法则更具

方法

首先，我们修改了MotionAGFormer编码器中的TokenMixer，以适应地将令牌路由到不同的处理流中。如图2所示，输入令牌首先被规范化（Ba, Kiros, & Hinton, Ioffe, Szegedy, 2015），并添加了位置编码。然后每个令牌被分类并导向多头自注意力（MHSA）模块或图卷积网络（GCN）（Kipf & Welling, 2016）——形成Transformer流和GCN流。这使得

实验

我们在两个大规模基准数据集Human3.6M（Ionescu等人，2013）和MPI-INF-3DHP（Mehta等人，2017）上对提出的SFTFormer架构进行了全面评估。

结论

本研究通过提出一种新颖的SFTFormer架构，解决了3D人体姿态估计中的关键挑战，该架构通过深度整合时空特征和人体拓扑先验显著提高了估计的准确性和稳健性。具体来说，所提出的路径拓扑驱动卷积（PTM）模块通过建模关节距离克服了基于邻接矩阵的传统图卷积的局限性，实现了跨层次结构的直接交互

作者声明

陈俊芬：参与了数据调查、姿态估计方法开发、实验验证以及手稿准备，包括原始草稿的撰写和后续的审阅和编辑。姜文凯：参与了数据调查、姿态估计结果的验证和方法论设计。王一丹：参与了姿态估计框架的概念化和整体设计；监督了项目管理和实验执行；提供了

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号