从视频中估计单目3D人体姿态(3D HPE)是计算机视觉中的基本任务[1]、[2]、[3],在动作识别[4]、人机交互[5]和增强/虚拟现实[6]等领域有广泛应用。从视频序列中恢复准确的人体关节位置可以捕获丰富的时空信息,从而更深入地理解动作和交互。当前的主流方法通常遵循将2D姿态提升到3D空间的流程。然而,单目2D观察中的固有深度模糊和自我遮挡对于从2D序列高效准确地重建3D姿态构成了核心挑战。
为了克服单帧估计的局限性[7],许多研究利用视频中的时间信息来增强预测稳定性[8]、[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]。早期工作使用时间卷积神经网络(CNNs)在固定的感受野内捕捉运动模式[8]、[9]、[10]。其他方法利用图卷积网络(GCNs)在从人体骨架构建的时空图上进行特征传播[11]、[12]。长短期记忆网络(LSTMs)也被引入用于从2D关键点序列估计3D姿态[13]、[14],尽管它们的序列建模效率有限。最近,Transformer中的自注意力机制在各种视觉任务中表现出强大的性能[19],并迅速应用于3D HPE,通过建模长距离的时空依赖性来提高估计准确性[15]、[16]、[17]、[18]。在3D HPE的背景下,基于Transformer的模型直接建模关节序列和姿态表示,捕捉关节和时间之间的全局依赖性,有效缓解了人体运动的深度模糊和时间不一致性问题。
这些基于视频的方法可以大致分为两种架构类型:序列到帧(seq2frame)方法[8]、[9]、[10]、[11]、[14]、[15]、[16]、[17]预测输入剪辑的中心帧以抑制噪声并获得稳健的输出,但通常会通过逐帧计算引入冗余;相比之下,序列到序列(seq2seq)方法[12]、[13]、[18]一次性重建整个序列,提高了计算效率同时保持姿态一致性。不同的网络架构具有不同的特点:LSTMs和Transformers在捕捉长期依赖性方面表现出色,而CNNs和GCNs在提取局部特征方面更胜一筹。人体运动本质上结合了结构化的局部细节和全局时空关联性,因此融合多种架构优势成为最近的研究趋势[20]、[21]、[22]、[23]、[24]、[25]。
然而,现有的融合方法仍然存在明显的缺点:首先,时空特征的提取和融合不足。一些方法专注于时间维度上的局部和全局建模,但在空间特征表示方面表现不佳[20]、[21]、[25];或者它们同时建模全局和局部时空特征,但未能有效融合[23]。其次,计算冗余。例如,某些seq2frame方法由于结构设计导致较大的估计误差[20]、[22]。第三,模型复杂性高,如结合多头注意力和图卷积的模型[24]。这些问题在人体大幅度运动时尤为明显,不准确的局部建模或无效的融合会显著降低姿态估计性能。
总之,尽管现有方法在时空特征建模方面取得了显著进展,但大多数方法未能平衡和有效融合全局和局部信息[20]、[21]、[23],导致在大幅度人体运动时估计准确性下降。这表明,有效的3D HPE不仅需要Transformer提供的强全局依赖性建模,还需要精确保留局部关节结构及其在空间和时间域中的协调融合。
为了解决这些挑战,我们引入了一种新型的双域交叉增强Transformer块(DDC-ETB),用于联合和全面建模人体运动中的空间域和时间域特征。该模块包含三个核心子模块:空间增强Transformer块(S-ETB)专注于学习单帧内关节之间的空间结构关系;时间增强Transformer块(T-ETB)建模同一关节在连续帧中的运动轨迹;交叉增强Transformer块(C-ETB)执行上述时空特征的深度融合。通过明确将姿态建模分解为空间域、时间域和跨域增强,所提出的设计直接解决了现有基于Transformer方法的局限性。通过堆叠多个DDC-ETB模块,我们构建了一个高效的seq2seq架构——双域交叉增强Transformer(DDCEFormer)——在减少计算冗余的同时有效保持了姿态序列的时间一致性。
为了更平衡地表示人体运动的全球和局部时空依赖性,我们设计了一种增强型多头注意力(EMA)机制。EMA创新地将变维多头注意力与卷积神经网络(CNNs)结合使用。前者自适应地捕捉长距离全局上下文并控制计算成本,后者在局部窗口内精确提取动态结构特征。这种设计特别旨在增强关节级别的局部结构,同时保留Transformer在3D HPE中的全局建模能力。基于EMA,我们构建了增强型多头自注意力(EMSA)和增强型多头交叉注意力(EMCA)模块,实现时空特征的全面建模和高效融合。
我们的贡献总结如下:
(1)DDCEFormer模型架构:我们提出了一种新的3D HPE架构DDCEFormer。该架构使用S-ETB和T-ETB分别学习关节运动的空间和时间特征,并利用C-ETB进行时空信息的交叉融合,从而全面建模关节运动的时空相关性。
(2)增强型多头注意力机制:我们设计了一种增强型多头注意力(EMA)机制,并基于此构建了EMA和EMCA模块。该机制将变维多头注意力与CNNs结合使用,利用EMA共同建模全局和局部特征,并使用EMCA实现时空背景的高效融合。它在模型复杂性和估计性能之间取得了良好的平衡,同时确保了表示能力。
(3)实验和性能验证:采用包含三个误差项的复合损失函数作为优化目标,以提高估计准确性和鲁棒性。在两个大规模数据集Human3.6M [26]和MPI-INF-3DHP [27]上进行了广泛的实验和比较分析。结果表明,所提出的DDCEFormer方法在3D HPE方面取得了改进的准确性和鲁棒性。
符号说明。本文使用以下符号。上标T表示矩阵的转置。表示大小为的实数向量空间。FC()、LN()、RESHAPE()、MLP()、Softmax()和Conv2d()分别表示线性变换、层归一化、维度重塑、多层感知器、Softmax归一化和2D卷积操作。