轻量级全身网格重建技术,支持关节建模及深度感知的手部细节优化

《Journal of Visual Communication and Image Representation》:Lightweight whole-body mesh recovery with joints and depth aware hand detail optimization

【字体: 时间:2026年01月24日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  3D人体网格恢复方法通过JDAF模块融合关节与深度信息提升手部重建精度,采用ADPA模块降低计算复杂度,实验表明其优于现有方法,减少8.5% body MPVPE和6.2% hand PA-MPVPE,参数量与MACs显著降低,适用于实时VR/AR交互等场景。

  
杨子龙|张书军|王晓|金虎|孙立民
中国山东省青岛市青岛科技大学,266000

摘要

表达性全身网格恢复旨在从单目图像中估计3D人体姿态和形状参数,包括面部和手部。由于手部细节在传达人体姿态方面起着关键作用,因此精确的手部重建对于3D人体建模应用至关重要。然而,由于手部在空间中的比例相对较小、灵活性高、手势多样以及频繁遮挡,精确恢复手部数据极具挑战性。在这项工作中,我们提出了一个轻量级的全身网格恢复框架,该框架在提高手部细节重建质量的同时降低了计算复杂度。具体而言,我们引入了一个关节和深度感知融合(JDAF)模块,该模块能够自适应地编码来自手部局部区域的几何关节和深度线索。该模块提供了强大的3D先验信息,有效指导了准确手部参数的回归过程。此外,我们还提出了一个自适应双分支池化注意力(ADPA)模块,该模块以轻量级的方式模拟全局上下文和局部细粒度交互。与传统自注意力机制相比,该模块显著减少了计算负担。在EHF和UBody基准测试中的实验表明,我们的方法优于现有最佳技术(SOTA),将身体MPVPE降低了8.5%,手部PA-MPVPE降低了6.2%,同时显著减少了参数数量和MACs(机器学习计算成本)。更重要的是,其高效性和轻量级特性使其特别适用于实时视觉通信场景,如沉浸式会议、手语翻译和VR/AR交互。

引言

从单目图像中理解人类行为是计算机视觉中的一个基本任务。虽然2D关键点[1]或有限的3D关节位置[2],[3]可以表示简单的动作,但它们无法捕捉到细粒度人类交互的复杂性。自从引入SMPL模型[4]和SMPL-X模型[5]以来,研究重点转向了3D人体网格恢复。恢复包括身体、面部尤其是手部在内的表达性3D全身网格对于辅助机器人、手语翻译、虚拟数字人类和沉浸式虚拟现实等应用至关重要。
在这些身体部位中,手部是最灵巧且功能最复杂的,但也是最难重建的。其在图像中的小尺寸、频繁的自我遮挡以及广泛的运动范围常常导致估计不准确,这严重影响了下游应用。例如,在辅助机器人领域,可能会导致机器人远程操作时的不安全或意外行为;在手语识别和翻译系统中[6],手指动作的微小错误可能会干扰听力受损用户的交流;在VR/AR环境中,低保真度的手部重建会降低沉浸感并破坏用户体验;在基于手势的控制中,精度不足会导致命令执行不可靠或不一致。因此,实现准确且高效的手部细节重建对于可靠的全身网格恢复至关重要。尽管现有的单阶段方法在恢复整体身体结构方面取得了一定进展,但很难捕捉到手部运动的细粒度细节。这些挑战需要一个既能增强手部表现力又能保持轻量级和计算实用性的框架。遵循机器学习中广泛认可的原则,有效的模型通常会在复杂性和表现力之间取得平衡。
为了克服这些限制,我们提出了一个轻量级的全身网格恢复框架。该框架在提高手部细节重建质量的同时降低了计算复杂度。我们的核心思想是利用关节和深度线索作为可靠的先验信息来指导手部参数的回归。此外,我们引入了一个自适应双分支池化注意力模块,该模块能够高效地模拟全局和局部依赖关系,同时显著降低了计算成本。因此,它有助于更准确和细致的手部和身体重建。通过将这些设计整合到一个统一的单阶段流程中,我们的方法实现了表达性全身网格的准确和高效重建。类似于[7]中讨论的原则,即通过优化决策树复杂度来提高效率而不牺牲精度,我们的设计也寻求在轻量级架构和表现力手部细节建模之间取得有效平衡。它还在手语翻译和虚拟人类交互等实际应用中展示了强大的潜力。我们的贡献可以总结如下:
  • 我们提出了一种新颖的关节和深度感知融合模块JDAF,旨在通过整合手部关键点和深度信息来提高手部姿态估计的准确性。这是首个创新方法,用于优化全身网格恢复中生成的手部细节。
  • 为了解决全身网格恢复中的高维数据挑战,我们引入了一个自适应双分支池化注意力模块。该模块在保持姿态估计准确性的同时显著降低了计算负载,有利于实时应用。
  • 广泛的实验表明,我们的方法优于现有的最佳全身网格恢复方法,并有效降低了计算成本。

方法部分

身体网格恢复方法

从单目图像中恢复人体网格[8],[9],[10]是一种理解人类行为的进步。Doersch等人[11]使用单帧卷积神经网络和LSTM从光流和2D热图的组合中提取特征,为后续的身体网格恢复研究奠定了基础。TCMR[12]通过引入两个额外的GRU来预测时间特征,从而提高了基于视频的身体网格恢复的时间一致性

方法

图1概述了所提出的轻量级手部细节优化方法的总体框架。该方法旨在从输入的人体图像中合成一个轻量级且高度表达性的3D全身网格恢复模型,以便更准确地捕捉和再现人体特征以及图像中人物的姿态细节。

实验设置

数据集我们在Human3.6M[34]、MSCOCO[35]、UBody[29]和MPII[36]数据集上训练了我们的模型,并在EHF[5]和UBody-test数据集上评估了其性能。Human3.6M[34]是一个广泛使用的室内数据集,包含360万个由11个演员执行各种动作的视频帧。MSCOCO[35]是一个大规模的室外数据集,包含超过15万个在不同环境中的标注人体姿态实例。EHF[5]数据集由100帧组成

结论

在这项工作中,我们提出了一个轻量级的3D全身网格恢复框架,专门解决了从单目图像中重建准确手部细节的挑战。通过引入关节和深度感知融合(JDAF)模块,我们的方法有效整合了关键点和深度线索来指导手部参数的回归,从而实现了更精确和表达性更强的手部重建。此外,自适应双分支池化注意力模块的加入

CRediT作者贡献声明

杨子龙:撰写——原始草稿、可视化、验证、资源管理、方法论、调查、形式分析、数据整理、概念化。张书军:撰写——审稿与编辑、监督、资源获取、概念化。王晓:撰写——审稿与编辑、监督、项目管理。金虎:调查、数据整理、概念化。孙立民:监督、项目管理、调查。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号