DA-TokenPose：一种结合全局-局部协同的双重注意力引导的TokenPose方法，用于人体姿态估计

《Digital Signal Processing》：DA-TokenPose: Dual Attention Guided TokenPose with Global-Local Synergy for Human Pose Estimation

【字体：大中小】 时间：2026年05月10日 来源：Digital Signal Processing 3

编辑推荐：

　　李海生|黄翠娟广西师范大学广西脑启发计算与智能芯片重点实验室，中国广西桂林市541004摘要人体姿态估计旨在从图像或视频中准确推断人体关键点的空间位置。现有方法往往难以在全球上下文建模与局部几何细节细化之间取得平衡，这在复杂场景中限制了其准确性。为了解决这一问题，本文提出了一种双

李海生|黄翠娟

广西师范大学广西脑启发计算与智能芯片重点实验室，中国广西桂林市541004

摘要

人体姿态估计旨在从图像或视频中准确推断人体关键点的空间位置。现有方法往往难以在全球上下文建模与局部几何细节细化之间取得平衡，这在复杂场景中限制了其准确性。为了解决这一问题，本文提出了一种双注意力引导的TokenPose框架（DA-TokenPose），这是一种针对TokenPose风格人体姿态估计的专用增强框架，可以改善全局上下文推理与局部关键点细化之间的协调性。具体来说，我们设计了一个全局通道-空间注意力模块（Global Channel–Spatial Attention），该模块联合建模通道-空间相关性和跨组重排，以自适应地增强全局特征的区分度并加强上下文一致性。同时，引入了关键点感知的可变形注意力模块（Keypoint-Aware Deformable Attention Module，KADAM），用于动态调整局部特征的采样位置和权重，从而提高细粒度表示能力。通过可学习的偏移量和关键点感知的注意力加权，KADAM能够自适应地关注解剖学上有意义的关节周围的局部区域，进一步增强了局部结构建模。当这两个模块集成到TokenPose主干网络中时，DA-TokenPose在具有挑战性的环境中提供了更强大的全局-局部特征增强效果。在COCO和MPII数据集上的实验结果表明，DA-TokenPose取得了具有良好准确性和效率平衡的性能。特别是在COCO数据集上，该方法达到了78.3%的AP值，并且在这一更具挑战性的基准测试中相比TokenPose基线取得了持续的改进，同时在与MPII数据集的对比中仍表现出竞争力。这些结果验证了所提出的双注意力引导增强设计的有效性。总体而言，DA-TokenPose通过改善全局推理与局部精度之间的平衡，为人体姿态估计提供了一个有效且可解释的增强框架。

引言

人体姿态估计（HPE）旨在从图像或视频中准确定位人体关键点，如头部、四肢和四肢末端。它是包括动作识别、人类行为理解和人机交互在内的各种基于视觉的任务的基本组成部分[1]，[2]。

随着深度学习的快速发展，特别是卷积神经网络（CNN）在视觉表示学习方面取得的突破，基于卷积的方法（如HRNet [3]和SimpleBaseline [4]）在姿态估计方面取得了显著进展。这些方法通过提取丰富的局部特征并利用层次化网络架构有效预测人体关键点。然而，现有的基于CNN的方法仍然面临重大挑战，特别是在全局上下文建模与局部几何细化之间的平衡方面。这种不平衡限制了它们捕捉关键点之间的长期依赖关系以及保持人体整体结构的能力，尤其是在复杂的姿态变化和背景干扰下[5]。

为了克服传统卷积网络的局限性，基于Transformer的架构在计算机视觉领域取得了显著的成功，特别是在人体姿态估计任务中。得益于它们强大的全局自注意力机制，Transformer能够显式地建模全局依赖关系，并有效捕捉长期关系，在处理复杂的姿态估计场景中表现出色[6]。例如，TokenPose [7]将每个关键点表示为一个独立的可学习令牌，从而弥合了视觉特征与关键点表示之间的语义差距，并提高了定位精度。同时，一些研究试图通过结构优化进一步增强Transformer的建模能力。例如，TransPose++ [8]将多尺度特征融合和高效的卷积Transformer设计集成到TransPose框架中，显著提高了关键点定位精度和计算效率。

尽管TokenPose具有强大的全局建模能力，但其最终姿态表示仍然在很大程度上依赖于令牌交互之前的特征图质量。在遮挡、背景混乱和多人交互等具有挑战性的情况下，提取的局部证据可能不明确或区分度不足，使得仅依靠令牌交互难以完全补偿局部结构的不确定性[9]，[10]。这表明TokenPose仍然缺乏全局上下文推理与以关键点为中心的局部细化之间的充分协调。因此，全局推理可能会被嘈杂的局部响应削弱，而局部几何细节可能无法通过全局上下文得到充分增强。

受此限制的启发，我们提出了DA-TokenPose，这是一种针对TokenPose风格人体姿态估计的双注意力引导增强框架。DA-TokenPose并不是引入一种全新的姿态估计范式，而是一种问题驱动的全局-局部增强策略，旨在改善全局语义建模与局部自适应细化之间的协调性。这项工作的方法创新不仅在于简单地将现有的注意力机制和可变形机制结合起来，而在于以协调的方式将它们结合起来，以解决TokenPose的一个特定局限性，即全局令牌推理与以关键点为中心的局部细化之间的协调不足。具体而言，所提出的框架包含两个互补的模块。首先，全局通道-空间注意力（GCSA）模块通过在令牌交互之前联合建模通道-空间相关性和增强跨通道信息交换来提高全局表示质量。其次，关键点感知的可变形注意力模块（KADAM）通过可学习的偏移量和关键点感知的权重在关键点相关区域进行自适应的局部聚合，从而改善了稀疏和受解剖学限制的关节结构的建模。其设计与基于可变形注意力的自适应采样[11]有关，但进一步针对TokenPose风格的人体姿态估计进行了定制，强调了关键点感知的局部细化。因此，GCSA和KADAM作为解决这一TokenPose特定限制的两个互补解决方案：GCSA在令牌化之前提高了主干特征的全局语义一致性，而KADAM通过关键点感知的自适应聚合改善了模糊的局部关键点证据。

通过将GCSA和KADAM集成到TokenPose主干网络中，DA-TokenPose在遮挡、背景混乱和多人交互等具有挑战性的场景中提高了稳健性。在COCO和MPII数据集上的实验结果表明，DA-TokenPose取得了具有良好准确性和效率平衡的性能。特别是在COCO数据集上，该框架相比TokenPose基线取得了持续的改进，更好地反映了涉及遮挡、背景混乱和多人交互的具有挑战性的场景，同时在MPII数据集上仍具有竞争力。这些结果支持了所提出的全局-局部增强设计的有效性及其对TokenPose风格姿态估计的实际价值。

本工作的主要贡献总结如下：

•
我们提出了DA-TokenPose，这是一种针对TokenPose风格人体姿态估计的双注意力引导增强框架，可以改善全局上下文推理与局部关键点细化之间的协调性。
•
我们设计了两个互补的模块，即GCSA和KADAM，分别用于增强全局通道-空间表示的一致性和关键点感知的局部自适应特征聚合。
•
我们在COCO和MPII数据集上进行了广泛的实验，包括消融研究和迁移性分析。结果表明，DA-TokenPose取得了具有竞争力的性能，在COCO数据集上比TokenPose基线有了持续的改进，在MPII数据集上的表现也相当。

章节摘录

整体框架

所提出的框架在TokenPose的整体结构基础上进行了改进，以提高姿态估计的准确性和稳健性。在这一框架中，首先使用CNN（如HRNet）提取多尺度特征表示。然后将输入图像分割成一组补丁令牌，同时引入一组明确建模的关键点令牌。随后，Transformer架构促进了这两种类型之间的交互式建模

实验

为了评估所提出的DA-TokenPose模型的有效性，我们在公开可用的人体姿态估计数据集COCO 2017 [24]和MPII [25]上进行了两类实验，包括对比实验和消融研究。此外，还提供了关键点定位结果的定性可视化，以进一步展示我们方法所取得的改进。

结论

我们提出了一个基于Transformer的姿态估计框架，称为双注意力引导的TokenPose框架（DA-TokenPose）。DA-TokenPose是一种针对TokenPose风格人体姿态估计的专用增强框架，它集成了全局通道-空间注意力模块和关键点感知的可变形注意力模块。全局通道-空间注意力模块捕捉通道和空间维度之间的全局依赖关系，而关键点感知的可变形

未引用的参考文献

[33]，[34]，[35]

CRediT作者贡献声明

李海生：概念化、方法论、监督、写作——审查与编辑、资金获取。黄翠娟：正式分析、数据管理、写作——原始稿件、写作——审查与编辑。

利益冲突声明

作者声明他们没有已知的可能会影响本文 reports 的工作的竞争性财务利益或个人关系。

摘要

引言

章节摘录

相关工作

整体框架

实验

结论

未引用的参考文献

CRediT作者贡献声明

利益冲突声明

热点排行