通过伪立体感知技术，从单目图像重建相机空间中的手部网格

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：Camera-Space Hand Mesh Reconstruction from a Monocular Image via Pseudo Stereo Perception

【字体：大中小】 时间：2026年02月27日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　三维手建模，伪立体系统，自适应动态卷积，Transformer，跨数据集泛化

郭少翔|蔡青|陈万坤|孙静毅|于辉|董俊宇

中国海洋大学计算机科学与技术学院，青岛，266100，中国

摘要

从相机空间的单目图像中恢复可靠的三维（3D）手部网格仍然具有很高的挑战性，尤其是在编码细粒度度量深度几何结构时。为了解决这一挑战，我们提出了一种新颖的深度学习模型，该模型在估计相机空间中手的绝对位置的同时，增强了重建网格的细节。具体来说，我们的模型采用了一个共享权重的特征编码器，与深度回归头集成在一起，以提取手部的潜在表示并预测初始的粗略深度图。一个关键组成部分是伪立体系统（Pseudo Stereo System），它从左视图特征和视差线索生成伪右手特征，并使用灵活的特征匹配模块建立几何约束。这种设计使模型能够在训练时的几何监督下学习到具有深度感知的表示，而推理仅依赖于单个RGB图像。通过这种设计，密集的手部深度估计有效地由视差图回归引导。最后，基于Transformer的恢复模块结合使用2D图像平面和深度特征来推断3D手部网格。在FreiHAND数据集上的广泛实验表明，我们的模型在以相机为中心的3D手部重建方面显著优于现有方法，并且在以相机为中心和以根点为参考的设置中都表现出强大的泛化能力。我们的代码可在以下链接公开获取：https://github.com/ShaoXiang23/Pseudo-Stereo-Hand。

引言

手部姿态和网格估计（HPME）可以从图像中重建稀疏的手部关节关键点或密集的手部网格关键点。近年来，HPME已成为计算机视觉领域的一个突出研究课题[1]、[2]、[3]、[4]、[5]、[6]。HPME的突出地位主要归功于其广泛的应用前景，包括虚拟现实、增强现实、机器人自动化和辅助医疗保健。根据输入方式的不同，HPME可以分为两种主要类型：基于深度的HPME[7]、[8]、[9]、[10]和基于单目的HPME[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]。后者进一步细分为以根点为参考的HPME和以相机为中心的HPME。

大多数以根点为参考的HPME方法，如刘等人[20]、库伦等人[21]、陈等人[22]、林等人[23]和郭等人[24]提出的方法，使用手的根关节（例如手掌或手腕）作为坐标系的原点。然后，它们在这个局部空间中预测稀疏的关节或密集的顶点坐标。然而，它们无法捕捉手在以相机为中心的坐标系中的绝对位置和运动轨迹，这限制了它们的实际应用。最近，出现了以相机为中心的HPME方法，例如陈等人的相机空间网格恢复（CMR）[25]和黄等人的神经投票场（NVF）[26]。然而，这些以相机为中心的方法的性能仍然有限，主要是由于难以可靠地编码细粒度的相机空间几何结构，特别是在深度轴上，这对于准确的三维（3D）定位至关重要。

为了解决上述挑战，我们提出了一种新的以相机为中心的HPME模型，称为PS-HPME（Pseudo Stereo Hand and Pose and Mesh Estimation）模型，该模型在学习以相机为中心的手部重建的鲁棒深度感知表示的同时，保持了手部网格重建的语义保真度。如图1所示，之前的方法，如陈等人的方法[25]，通过将3D手部顶点与二维（2D）线索对齐，并将手的根关节注册在相机坐标系中来实现以相机为中心的HPME。这些方法通常采用两阶段估计框架：它们首先从图像特征中估计2D关节热图或3D以根点为参考的手部网格，然后应用单独的后处理阶段来恢复相机空间中的根关节位置。相比之下，PS-HPME引入了一种统一的设计，其中伪立体系统（PSS）在训练期间通过立体启发式的特征约束注入几何正则化。这使得模型能够在单目推理下直接融合2D图像平面（UV）和深度特征，以重建与相机为中心的坐标系对齐的可靠3D手部网格。

我们的PS-HPME模型包括三个主要阶段：特征编码器、PSS和手部网格恢复。在第一阶段，共享权重的图像编码器提取手部特征（称为左特征），深度回归头预测粗略的手部深度图。在伪立体机制的引导下，模型将粗略的深度图转换为视差图，然后由视差编码器处理以捕获手部空间特征。在第二阶段，左特征和视差特征由自适应视差动态卷积（ADDC）模块处理，以生成伪右手特征。伪右手特征与左特征一起，通过基于特征的匹配模块建立立体启发的几何约束。在训练期间，辅助的右视图特征（从合成的右视图图像中提取）和真实视差（从渲染的深度中得出）仅作为辅助的几何监督来规范学习到的表示。在推理时，模型仅依赖于单个RGB图像和学到的深度感知表示。在最后阶段，多尺度Transformer模块从左特征和聚合表示中回归3D手部顶点。我们进一步结合了一种新的跨注意力交互（CAI）模块，该模块在不同尺度上联合编码空间和深度特征，确保重建的以相机为中心 3D手部网格从局部到全局的空间一致性。我们研究的主要贡献有三个方面：

(1) 我们提出了PS-HPME，一种用于以相机为中心的3D手部网格重建的新框架。PS-HPME利用训练时的立体启发式几何监督学习深度感知表示，而在推理时仅需要单个RGB图像。广泛的实验表明，PS-HPME在以相机为中心的准确性方面超越了现有方法，具有更快的推理速度和强大的跨数据集泛化能力。

(2) 我们设计了一种新的PSS，它从2D和视差表示中聚合深度感知特征。它集成了一种ADDC模块来生成伪右手特征，以及一个基于特征的立体匹配模块，用于在左特征和伪右手特征之间施加几何约束。

(3) 我们提出了一种新的CAI模块，它在不同尺度上联合编码空间和深度线索，增强了重建的以相机为中心的3D手部网格中局部和全局表示之间的一致性。

部分摘录

基于深度的HPME

基于深度的HPME方法直接从手部深度图中估计稀疏的3D关节或密集的网格顶点。Moon等人[8]将深度输入体素化，以估计每个体素的关节点概率，而Ge等人[27]将其转换为3D点云以进行姿态估计。Xiong等人[28]引入了一个基于锚点的回归框架。Ren等人[9]融合了跨视图深度特征以恢复手部姿态和网格，Zhang等人[11]使用单流深度网络共同估计手部

方法

在本节中，我们描述了所提出方法的实现细节。我们在推理时从单个RGB图像中估计以相机为中心的3D手部网格，同时利用训练时的几何监督作为辅助正则化来学习深度感知表示。如图2所示，整个框架包括三个主要组成部分：特征编码器、PSS和手部网格恢复模块。特征编码器包括一个共享权重的图像编码器、一个深度回归

数据集

我们在四个公开可用的基准数据集上评估了我们的方法：

FreiHAND [46] 包含了来自32名受试者的130,240张训练图像，这些受试者执行了各种手部姿态，要么是空手，要么是与日常物品互动。评估集包括在户外和办公室环境中捕获的3,960个样本，带有手部姿态和网格的3D注释。

渲染手部姿态数据集（RHD） [12] 是一个由20个角色执行39个预定义手势生成的合成数据集。RHD包括

监督要求和可扩展性

我们的PSS依赖于真实的3D网格/深度注释来派生训练时的几何线索（例如，渲染的手部深度和相应的视差图），这可能限制了在没有此类3D监督的情况下直接扩展到实际数据集的能力。一个有前途的方向是用可扩展的替代品替换这些线索，这些替代品来自较弱的监督，同时保持PSS作为几何规范器的角色。一方面，2D关键点以及语义约束（例如，手

结论

我们提出了PS-HPME，这是一种用于单目相机为中心的3D手部网格估计的新框架，它有效地利用了深度感知的几何线索，同时保持了高保真度的手部网格重建。该模型的核心是PSS，它包括自适应视差动态卷积和基于特征的立体匹配模块。这些组件通过学习立体启发的特征约束，使得能够准确编码相机空间的几何结构

CRediT作者贡献声明

郭少翔：撰写——原始草稿、可视化、验证、软件、方法论、概念化。蔡青：撰写——审阅与编辑、监督。陈万坤：可视化。孙静毅：数据管理。于辉：撰写——审阅与编辑、监督。董俊宇：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了中国国家重点研发计划（项目编号2018AAA0100602）、国家自然科学基金（项目编号62102338）和山东省自然科学基金（项目编号ZR2020QF031）的支持

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

基于深度的HPME

方法

数据集

监督要求和可扩展性

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行