URPose：一种模型，它采用无偏的校正投影和重建算法，用于单目无监督的3D人体姿态估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：URPose: The model with unbiased rectified projection and reconstruction error for monocular unsupervised 3D human pose estimation

【字体：大中小】 时间：2026年02月21日 来源：Neurocomputing 6.5

编辑推荐：

　　无监督3D人体姿态估计中存在投影误差导致模型精度不足的问题，本文提出URP模型修正中心对齐投影关系，并设计自编码器通过重建误差约束提升网络，在Human3.6M等数据集上显著超越现有方法。

刘胜|李阳|杜思丹

中国江苏省南京市南京大学，210023

摘要

由于在大多数情况下（例如在野外）获取带标签数据的难度较大，因此无监督方法用于3D人体姿态估计的研究非常广泛。最近的无监督模型是通过中心对齐的2D姿态进行训练的，并学习预测相对于中心的3D人体姿态。然而，先前的研究者没有考虑到由中心相对3D姿态投影得到的2D姿态与2D真实姿态之间的差异，这导致模型的准确性无法进一步提高。在本文中，我们发现了标签值与先前投影模型计算出的理论值之间的误差关系，并构建了一个改进的投影模型来消除这种误差。此外，我们首次提出了一种自动编码器来学习2D标签姿态的分布，并利用重建误差来约束提升网络的学习过程，这意味着即使使用比以往工作更简单的结构，我们也能获得有竞争力的结果。实验验证了我们框架的有效性：在Human3.6M数据集上，我们的模型在2D真实姿态上的准确率比现有最佳无监督方法高出26.9%，在N-MPJPE指标上高出14.0%；在PA-MPJPE指标上甚至超过了完全监督的方法。在MPI-INF-3DHP数据集上，我们的模型在PA-MPJPE/CPS指标上分别提高了13.1%和22.5%。

引言

从单目RGB图像估计3D人体姿态是一个持续研究的课题，因为它在许多领域都具有重要意义，如3D视觉[1]、[2]、[3]、[4]、[5]、虚拟现实[6]、[7]、[8]、人机交互[9]、[10]和动作捕捉[12]、[13]。许多最近的无监督3D人体姿态估计方法依赖于带有3D姿态标签的大型数据集来进行训练。不幸的是，在大多数应用场景中，由于动作捕捉设备的限制，真实的3D标签通常难以获得。因此，许多方法侧重于使用未配对的2D姿态和3D姿态进行弱监督，或者仅使用2D标签通过无监督学习将2D姿态提升为3D姿态，因为2D标签数据比3D标签数据更容易获取。

现有的无监督学习方法[14]、[15]、[16]利用人体姿态的空间几何一致性，随机旋转3D姿态并将其投影到虚拟相机成像平面上。通过投影得到的新2D姿态被输入到对抗网络或归一化流中，以判断其是否来自真实的2D姿态分布。需要注意的是，上述所有的3D姿态和2D姿态都是中心对齐的。如图1所示，输入的2D姿态和3D真实姿态是通过减去中心关节坐标对齐的。

然而，数据预处理的第一步——中心对齐——改变了2D姿态和3D姿态之间的投影关系。这意味着在这种情况下，透视投影公式将不再适用。以图1为例，通过透视投影模型由中心对齐的3D关节投影得到的2D关节位置可能与中心对齐的2D关节位置不同。我们将在第3.1节中详细解释这种误差。尽管如此，现有方法[14]、[15]、[16]忽略了这种误差的重要性，直接假设中心对齐的2D姿态和3D姿态之间存在透视投影关系，这会引入额外的歧义。

为了解决这个问题，我们创新性地提出了Unbiased Rectified Perspective（URP）模型，该模型引入了2D姿态的位置信息。我们的模型建立了中心对齐的2D输入数据与中心对齐的3D数据之间的准确投影关系，大大减少了网络训练过程中的投影歧义。因此，除了2D姿态和关节之间的相对深度外，预测的3D姿态还取决于人体在图像中的位置。实验证明，所提出的修正透视模型可以显著提高无监督3D人体姿态估计的准确性。

另一方面，在无监督3D人体姿态估计中，人们假设由旋转后的3D姿态投影得到的2D姿态仍然来自2D训练数据的分布。基于这一点，以往的研究[14]、[16]使用GANs来学习这种分布，但GANs的训练具有挑战性且往往不稳定[17]、[18]、[19]、[20]。一种改进的方法[15]采用了主成分分析（PCA）和归一化流。然而，PCA对数据中的异常值很敏感，而且3D姿态变量之间的关系并不总是线性的，这与PCA的前提相悖。

因此，我们的初步想法是使用一个可训练的编码器来替代PCA，将高维姿态压缩成适合且易于学习的低维分布，如图2所示。然而，在实际实验中，由于编码器是可训练的，低维姿态分布会不断变化，使得归一化流难以捕捉到分布以指导3D姿态提升网络的训练。实际上，将一般分布映射到正态分布是生成模型的一个前提，但对于这项任务来说，网络只需要学习正确的姿态分布来指导提升网络的训练，我们不需要从正态分布中采样。因此，映射到正态分布是完全不必要的。

为了解决这个问题，我们提出使用解码器而不是归一化流，将低维姿态分布解码回原始姿态分布。在我们的实验中，我们使用自动编码器来学习这种2D姿态分布，并利用重建误差来指导提升网络的训练。实验表明，这种自动编码器的性能优于以往的方法。

我们工作的贡献总结如下：•

我们发现了中心对齐的3D姿态的透视投影与2D标签之间的误差，并提出了URP投影模型来减轻这种误差的影响。

•

我们首次提出了一种简单而有效的自动编码器，在无监督3D人体姿态估计的背景下学习训练集中的2D姿态分布，并利用投影2D姿态的重建误差来指导3D姿态的预测。

•

我们提出的URPose模型在Human3.6M、MPI-INF-3DHP和3DPW等基准数据集上的多个指标上均优于现有的最佳无监督方法。

方法

给定人体关节的数量和中心对齐的2D姿态，网络应该预测相应的3D姿态，这通常被称为2D-3D提升。URPose预测所有关节的深度和相机的焦距。基于该领域先前工作的假设，即如果3D姿态是合理的，那么不同视角下的2D姿态也是合理的，我们将预测的3D姿态旋转并投影到虚拟相机上。此外，我们还提出了一种自动编码器来使用...

实验

我们在三个基准数据集上进行了实验，包括Human3.6M [78]、MPI-INF-3DHP [7] 和 3DPW [79]。与以往的工作一样，我们遵循标准协议，在Human3.6M数据集的测试集上每64帧采样一个测试帧。我们在图6中展示了这三个数据集的可视化结果，其中红色骨架代表真实姿态，蓝色骨架对应于URPose的预测结果。我们还在图5中展示了定性比较结果。

结论与局限性

我们建立了投影2D姿态与相应标签值之间的误差关系，并通过一种新颖的无偏修正投影模型解决了这个问题，显著推动了无监督方法的进步。我们首次使用自动编码器实现了2D姿态分布。我们的模型URPose在多个数据集上表现出色。然而，URPose采用了某个假设，导致某些超参数受到深度的影响。

CRediT作者贡献声明

刘胜：撰写——原始草案、可视化、验证、软件、资源管理、方法论、调查、形式分析、数据整理、概念化。李阳：监督、资金获取、概念化。杜思丹：监督、项目管理、资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

刘胜于2021年在中国南京大学获得电子科学与技术学士学位。他目前正在南京大学攻读博士学位，导师是杜思丹教授。他的研究兴趣包括计算机视觉和人体姿态估计。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作