DDCEFormer：一种用于3D人体姿态估计的双域交叉增强变换器

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月13日 来源：Neurocomputing 6.5

编辑推荐：

　　三维人体姿态估计在单目视频中面临深度歧义和自遮挡挑战，现有方法难以平衡全局依赖与局部细节建模。本文提出DDCEFormer模型，通过增强型多头注意力机制（EMA）和跨域Transformer块（C-ETB）实现时空特征的有效融合，分别捕获单帧内关节的空间结构、连续帧间的动态时序及跨域交互。实验表明，该模型在Human3.6M和MPI-INF-3DHP数据集上显著提升精度，MPJPE达13.4mm，并展现良好的泛化能力。

杨德良|葛艳荣|徐宁|史瑞

北京工业大学机械与电气工程学院，北京，100042，中国

摘要

从单目视频中估计3D人体姿态仍然具有挑战性，尤其是在肢体大幅运动的情况下，这主要是由于深度模糊和自我遮挡的问题。现有方法在时空特征建模过程中往往难以同时捕捉全局依赖性和局部结构细节，从而限制了姿态估计的准确性。为了解决这个问题，我们提出了一种双域交叉增强Transformer（DDCEFormer），它通过联合建模空间域和时间域特征来增强时空表示能力。具体来说，我们设计了一种增强型多头注意力（EMA）机制，该机制将变维多头注意力与卷积层结合使用，以捕捉长距离的全局依赖性，同时强化关节之间的局部结构特征。基于EMA，我们构建了空间增强Transformer块（S-ETB）和时间增强Transformer块（T-ETB），分别精细建模空间结构关系和时间动态演变。此外，我们引入了增强型多头交叉注意力（EMCA）模块，并构建了交叉增强Transformer块（C-ETB），以实现空间和时间特征的交叉增强和深度融合，从而在全局时空关联性和局部运动细节之间取得平衡。该模型使用由三个误差分量组成的复合损失函数进行优化，以提高估计准确性和鲁棒性。实验结果表明，在Human3.6M数据集上，DDCEFormer的MPJPE和P-MPJPE分别为39.1mm和30.8mm；在MPI-INF-3DHP数据集上，PCK、AUC和MPJPE分别为99.3%、88.8%和13.4mm，显著提高了整体姿态估计性能，特别是在上肢关节方面表现出更优的准确性。代码和模型可在以下链接获取：https://github.com/yangdl8/DDCEFormer

引言

从视频中估计单目3D人体姿态（3D HPE）是计算机视觉中的基本任务[1]、[2]、[3]，在动作识别[4]、人机交互[5]和增强/虚拟现实[6]等领域有广泛应用。从视频序列中恢复准确的人体关节位置可以捕获丰富的时空信息，从而更深入地理解动作和交互。当前的主流方法通常遵循将2D姿态提升到3D空间的流程。然而，单目2D观察中的固有深度模糊和自我遮挡对于从2D序列高效准确地重建3D姿态构成了核心挑战。

为了克服单帧估计的局限性[7]，许多研究利用视频中的时间信息来增强预测稳定性[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。早期工作使用时间卷积神经网络（CNNs）在固定的感受野内捕捉运动模式[8]、[9]、[10]。其他方法利用图卷积网络（GCNs）在从人体骨架构建的时空图上进行特征传播[11]、[12]。长短期记忆网络（LSTMs）也被引入用于从2D关键点序列估计3D姿态[13]、[14]，尽管它们的序列建模效率有限。最近，Transformer中的自注意力机制在各种视觉任务中表现出强大的性能[19]，并迅速应用于3D HPE，通过建模长距离的时空依赖性来提高估计准确性[15]、[16]、[17]、[18]。在3D HPE的背景下，基于Transformer的模型直接建模关节序列和姿态表示，捕捉关节和时间之间的全局依赖性，有效缓解了人体运动的深度模糊和时间不一致性问题。

这些基于视频的方法可以大致分为两种架构类型：序列到帧（seq2frame）方法[8]、[9]、[10]、[11]、[14]、[15]、[16]、[17]预测输入剪辑的中心帧以抑制噪声并获得稳健的输出，但通常会通过逐帧计算引入冗余；相比之下，序列到序列（seq2seq）方法[12]、[13]、[18]一次性重建整个序列，提高了计算效率同时保持姿态一致性。不同的网络架构具有不同的特点：LSTMs和Transformers在捕捉长期依赖性方面表现出色，而CNNs和GCNs在提取局部特征方面更胜一筹。人体运动本质上结合了结构化的局部细节和全局时空关联性，因此融合多种架构优势成为最近的研究趋势[20]、[21]、[22]、[23]、[24]、[25]。

然而，现有的融合方法仍然存在明显的缺点：首先，时空特征的提取和融合不足。一些方法专注于时间维度上的局部和全局建模，但在空间特征表示方面表现不佳[20]、[21]、[25]；或者它们同时建模全局和局部时空特征，但未能有效融合[23]。其次，计算冗余。例如，某些seq2frame方法由于结构设计导致较大的估计误差[20]、[22]。第三，模型复杂性高，如结合多头注意力和图卷积的模型[24]。这些问题在人体大幅度运动时尤为明显，不准确的局部建模或无效的融合会显著降低姿态估计性能。

总之，尽管现有方法在时空特征建模方面取得了显著进展，但大多数方法未能平衡和有效融合全局和局部信息[20]、[21]、[23]，导致在大幅度人体运动时估计准确性下降。这表明，有效的3D HPE不仅需要Transformer提供的强全局依赖性建模，还需要精确保留局部关节结构及其在空间和时间域中的协调融合。

为了解决这些挑战，我们引入了一种新型的双域交叉增强Transformer块（DDC-ETB），用于联合和全面建模人体运动中的空间域和时间域特征。该模块包含三个核心子模块：空间增强Transformer块（S-ETB）专注于学习单帧内关节之间的空间结构关系；时间增强Transformer块（T-ETB）建模同一关节在连续帧中的运动轨迹；交叉增强Transformer块（C-ETB）执行上述时空特征的深度融合。通过明确将姿态建模分解为空间域、时间域和跨域增强，所提出的设计直接解决了现有基于Transformer方法的局限性。通过堆叠多个DDC-ETB模块，我们构建了一个高效的seq2seq架构——双域交叉增强Transformer（DDCEFormer）——在减少计算冗余的同时有效保持了姿态序列的时间一致性。

为了更平衡地表示人体运动的全球和局部时空依赖性，我们设计了一种增强型多头注意力（EMA）机制。EMA创新地将变维多头注意力与卷积神经网络（CNNs）结合使用。前者自适应地捕捉长距离全局上下文并控制计算成本，后者在局部窗口内精确提取动态结构特征。这种设计特别旨在增强关节级别的局部结构，同时保留Transformer在3D HPE中的全局建模能力。基于EMA，我们构建了增强型多头自注意力（EMSA）和增强型多头交叉注意力（EMCA）模块，实现时空特征的全面建模和高效融合。

我们的贡献总结如下：

(1)

DDCEFormer模型架构：我们提出了一种新的3D HPE架构DDCEFormer。该架构使用S-ETB和T-ETB分别学习关节运动的空间和时间特征，并利用C-ETB进行时空信息的交叉融合，从而全面建模关节运动的时空相关性。

(2)

增强型多头注意力机制：我们设计了一种增强型多头注意力（EMA）机制，并基于此构建了EMA和EMCA模块。该机制将变维多头注意力与CNNs结合使用，利用EMA共同建模全局和局部特征，并使用EMCA实现时空背景的高效融合。它在模型复杂性和估计性能之间取得了良好的平衡，同时确保了表示能力。

(3)

实验和性能验证：采用包含三个误差项的复合损失函数作为优化目标，以提高估计准确性和鲁棒性。在两个大规模数据集Human3.6M [26]和MPI-INF-3DHP [27]上进行了广泛的实验和比较分析。结果表明，所提出的DDCEFormer方法在3D HPE方面取得了改进的准确性和鲁棒性。

符号说明。本文使用以下符号。上标T表示矩阵的转置。

表示大小为

的实数向量空间。FC(

)、LN(

)、RESHAPE(

)、MLP(

)、Softmax(

)和Conv2d(

)分别表示线性变换、层归一化、维度重塑、多层感知器、Softmax归一化和2D卷积操作。

章节片段

3D人体姿态估计

在单目视频/图像中，3D HPE可以分为直接估计方法[28]、[29]、[30]和2D到3D提升方法[31]、[32]、[33]。直接估计方法直接从2D图像推断3D姿态。2D到3D提升方法首先使用预训练的2D姿态检测器获取2D关节位置，然后将这些位置输入到2D到3D提升网络中以完成3D姿态估计。得益于快速发展的2D人体姿态估计算法，如SHN [34]、CPN [35]

用于3D HPE的DDCEFormer方法

我们介绍了所提出的DDCEFormer模型，该模型旨在从输入的2D姿态序列重建3D人体姿态。首先概述了整体框架，然后详细描述了关键模块。

数据集和评估指标

通过在两个大规模数据集Human3.6M和MPI-INF-3DHP上的实验以及对其他方法的比较分析，验证了DDCEFormer的有效性。

Human3.6M包含360万帧视频，记录了11个专业主体进行15种日常活动的情况。数据由4台同步相机以50Hz的频率录制，使其成为最常用的3D HPE室内数据集。遵循与比较方法[18]、[23]、[24]、[25]相同的协议，我们采用了广泛采用的2D姿态

结论

本文提出了一种新的3D人体姿态估计方法DDCEFormer，该方法基于单目视频。其核心是一种增强型多头注意力（EMA）机制，作为由空间（S-ETB）、时间（T-ETB）和交叉（C-ETB）模块组成的并行-串行混合架构的基础。该架构采用分而治之的策略，分别捕获空间域和时间域中的全局依赖性和局部细节，随后

CRediT作者贡献声明

杨德良：撰写——原始草稿、软件开发、资金获取、数据管理、概念构思。葛艳荣：撰写——审阅与编辑、监督、方法论。徐宁：撰写——审阅与编辑、可视化、验证。史瑞：撰写——审阅与编辑、资源管理、项目协调。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国国家自然科学基金（项目编号62403017）、北京自然科学基金（项目编号4244088）以及北京工业大学重点研究项目（项目编号BGY2022KY-01Z）的支持。

杨德良在中国北京获得了模式识别和智能系统的博士学位。他在清华大学自动化系进行了博士后研究。目前他是北京工业大学的副教授，研究兴趣包括人体姿态估计、深度学习和计算机视觉。

联系信箱：

粤ICP备09063491号

摘要

引言