NovelPoseNet：为绝对和相对的单目3D人体姿态估计合成新的2D姿态视图

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：NovelPoseNet: Synthesizing Novel Views of 2D poses for absolute and relative monocular 3D Human Pose Estimation

【字体：大中小】 时间：2026年02月08日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　单目3D姿态估计通过多模态ResNet-Transformer框架合成新视角2D姿态并融合三角化获得高精度3D坐标，解决了深度歧义问题，在Human3.6M和3DHP数据集上达到SOTA性能。

Avinash Upadhyay | Ankit Shukla | Manoj Sharma

班尼特大学，大诺伊达，高塔姆佛陀纳加尔，201310，北方邦，印度

摘要

单目3D人体姿态估计旨在从单张2D图像中恢复人的3D关节坐标，这一任务由于图像投影过程中深度线索的丢失而变得极其困难。为了解决由此产生的深度歧义，我们提出了NovelPoseNet，这是一个多模态的ResNet–Transformer框架，它可以根据学习到的2D姿态特征和假设的相机外部参数，从未见过的视角明确生成新的2D姿态。与以往将多视图一致性作为监督约束的方法不同，NovelPoseNet能够从新的相机视角合成明确的2D姿态表示，从而实现从单张图像进行真正的多视图三角测量。通过几何三角测量融合这些合成视图，可以得到重建的3D姿态，从而获得绝对和相对的3D关节位置。在Human3.6M和MPI-INF-3DHP数据集上的广泛实验表明，NovelPoseNet的性能达到了领先水平，超越了现有的基于重投影和合成的方法。

引言

3D人体姿态估计是计算机视觉中的一个基本问题，在动作识别、人机交互、虚拟现实和运动分析等多个领域都有应用。在不同的场景中，单目3D人体姿态估计是最具挑战性和实用性的一种，因为它旨在从单张RGB图像中恢复人体关节的完整3D坐标。然而，这个问题本质上是病态的，因为有无穷多的3D姿态可以投影到图像平面上的同一个2D姿态上。这是因为一条射线上有无限多的点，而所有这些点都落在一个相机传感器的像素上，导致一条射线上有无限多的深度点。因此，需要额外的信息或假设来解决这种深度歧义。

为了解决深度歧义问题，一些先前的工作将多视图几何一致性纳入了单目3D姿态估计中。受到经典摄影测量的启发[1]，这些方法利用可用的多视图数据或学习跨视图关系，对2D到3D的提升过程施加极线或重投影约束。例如[2]、[3]、[4]、[5]、[6]等方法确保从不同相机视角预测的3D姿态在重投影到2D时保持一致，从而利用多视图几何作为弱监督信号。一些模型[4]、[6]甚至尝试在训练过程中联合推断相机参数以增强这种一致性。然而，这些方法并不合成或生成新的视图；相反，它们使用现有的或估计的视图关系来规范3D估计过程。因此，这些方法中的多视图约束是一种监督信号，而不是生成机制。

我们通过引入NovelPoseNet来填补这一空白，该框架根据假设的相机外部参数[R|t]明确合成新的视图2D姿态，然后对这些合成视图进行三角测量，从而从单张图像中恢复3D关节。在已知相机内部参数的情况下，我们生成同一对象从未见过的视角看起来的物理上合理的2D投影，使得无需多个物理相机或同步拍摄即可进行多视图几何推理。在架构上，NovelPoseNet结合了ResNet编码器-解码器和一个基于相机姿态的Transformer。编码器处理输入图像，解码器预测其2D姿态；编码器的潜在特征作为键/值，而Transformer接收目标视图的外部参数[R|t]作为查询，以合成相应的新的视图2D姿态。我们通过多个合成视图进行三角测量，以获得准确的绝对和相对3D关节坐标。训练分阶段进行，使用平均每个关节位置误差（MPJPE）和重投影损失来监督新视图合成和3D重建（见第3节）。据我们所知，之前的工作没有明确生成用于基于三角测量的新视图2D姿态，这标志着从仅基于重投影或一致性的方法的概念转变，并通过聚合多个合成视图提高了对遮挡和极端姿态的鲁棒性。

我们在Human3.6M [7]和MPI-INF-3DHP（3DHP）[8]数据集上评估了我们的方法。在这两个数据集上，我们的方法都取得了领先的结果，甚至优于一些最先进的方法。

本工作的主要贡献可以总结如下：

•

我们提出了一种新的方法来解决单目3D姿态估计问题，即利用视图信息作为先验的新姿态合成方法。

•

一种新的多模态ResNet-Transformer网络，用于从2D姿态潜在信息和假设的相机参数合成新的姿态。

•

使用基于三角测量的方法从单目图像生成的新姿态重建3D姿态。

•

从单目图像估计绝对3D姿态。

为了全面了解所提出架构的贡献，进行了全面的消融研究，研究了每个组件对网络性能的影响。这项分析提供了对所提出设计选择有效性的洞察。此外，还进行了交叉评估实验，以评估网络在不同场景下的泛化能力。为了进一步提高所提出方法的鲁棒性，讨论了潜在的故障情况以及在未来工作中解决这些问题的策略。

部分摘录

单目3D人体姿态估计

由于深度歧义，单目3D人体姿态估计本质上是病态的：单个2D投影可以映射到多个3D配置中，其中许多配置违反了人体运动学约束和关节限制。当前的单人方法通常分为（i）图像到3D回归和（ii）2D到3D提升。图像到相对3D的方法直接从RGB图像[9]、[10]、[11]、[12]（例如，骨骼感知回归[10]、体积似然[9]）中推断3D关节，但通常

方法论

我们的网络利用多个视图之间的视图变换信息[R|t]和2D姿态潜在空间，从变换后的视角合成新的2D姿态。[R|t]独立于相机的内部属性，允许任何相机根据其在空间中的位置拥有这些变换。通过[R|t依赖的新姿态合成后，可以使用[1]中描述的几何方法进行三角测量，以估计3D姿态点。

数据集

我们在Human3.6m [7]和MPI-INF-3DHP[8]（3DHP）数据集上训练和评估了所提出的架构。这两个数据集广泛用于3D人体姿态估计的训练和评估。它们提供了时间对齐的多视图图像以及相应的2D姿态和3D姿态注释。这些数据集还包括相机的内在和外部参数。Human3.6m数据集包含四个相机视图，而3DHP数据集提供多达八个相机视图。

结论

本文提出了一种新的多模态架构，用于从单目图像生成3D人体姿态点。所提出的架构使用多视图变换信息来合成该视角的新2D姿态，然后对其进行三角测量以生成3D姿态点。网络使用重投影一致性约束来确保Transformer解码器生成正确的新的2D姿态，并强制ResNet编码器在学习过程中学习丰富的3D特征

CRediT作者贡献声明

Avinash Upadhyay：撰写 – 审阅与编辑，撰写 – 原始草稿，方法论，形式分析，数据整理，概念化。 Ankit Shukla：撰写 – 审阅与编辑，资源准备。 Manoj Sharma：撰写 – 审阅与编辑，验证，监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号