编辑推荐:
3D手部姿态估计与网格重建中,针对遮挡和手指交织问题,提出DEPTH模型,通过分离先验机制和交叉注意力机制实现手指空间关系解耦,结合可学习逆运动学MANO头模块优化关节旋转和形状参数,在RHD和STB数据集上显著优于现有方法。
Kuo Li|Wei Jin|Nannan Li|Kan Huang
澳门科技大学计算机科学与工程学院,中国澳门塔ipa区Wai Long大道,999078
摘要
深度学习技术的进步对单目RGB手部姿态估计和网格重建任务的发展起到了重要作用。然而,现有模型在处理手部遮挡和手指缠绕问题时仍面临挑战。为了解决这些问题,我们提出了DEPTH这一新型模型架构,该架构将手指的空间关系解耦,并协同整合不同粒度的全模态信息,以实现高精度的手部网格重建。DEPTH的核心在于“解耦先验”,它基于交叉注意力机制,动态解析手指局部分割、全局2D关节位置以及姿态嵌入的增强特征,从而在理解不同手部部位的同时减少关节定位的不确定性。此外,DEPTH还包含一个可学习的逆向运动学MANO(具有关节和非刚性变形的模型)头部模块,该模块替代了传统的迭代优化算法来回归MANO参数,提升了模型对手部关节旋转和形状参数的推断能力。在两个公开基准数据集(Rendered Hand Dataset (RHD) 和 Stereo Hand Pose Tracking Benchmark (STB))上的广泛实验表明,DEPTH模型在涉及手部遮挡和缠绕的挑战性场景中表现出先进的性能,显著优于现有方法。我们模型的代码和训练阶段的详细信息将发布在
https://github.com/AiPhDres/DEPTH章节片段
引言
近年来,人工智能(AI)在多个科学领域取得了显著突破,从根本上重塑了数据分析和问题解决的范式。从AlphaFold模型在分子生物学中的革命性影响(Guo等人,2024年)到大型语言模型(LLMs)在复杂推理和医疗应用中的变革能力(Guo等人,2025年),数据驱动的深度学习方法已被证明是强大的工具
相关工作
3D手部姿态估计: 3D手部姿态估计的研究大致分为两种范式:无模型的坐标回归和基于模型的方法,后者利用数字手部模板。无模型的回归方法通常直接从输入图像中回归3D关节坐标,而不依赖于预定义的手部模型。许多方法包括Cai, Ge, & Cai (2020); Chen, Chen, & Yang (2021); Malik, Shimada, Elhayek, & 等 (2021); Romero, Tzionas, & Black (2022)
方法
在本节中,我们将详细介绍所提出的DEPTH框架。首先概述其架构,然后详细描述2DInfos头部、3DInfos头部和可学习的MANO头部。
实验
在本节中,我们对提出的DEPTH框架进行了全面评估,以验证其有效性和鲁棒性。首先概述实现细节和实验设置,然后与标准基准测试中的现有方法进行比较分析。最后,我们通过消融研究和定性结果来分析每个模块的贡献以及模型在现实世界场景中的泛化能力。
结论
本文通过三个关键贡献解决了从单目RGB图像进行3D手部姿态估计和网格重建的问题:(1)一个两阶段几何融合框架,整合了2D热图、分割掩码和3D体素特征,以在视角不佳的情况下消除歧义;(2)一种解耦先验机制,利用分割和姿态嵌入之间的交叉注意力,在遮挡和缠绕情况下稳健地定位手指;以及(3)一个可学习的
致谢
Kuo Li:概念化、方法论、软件开发、数据整理、初稿撰写、可视化、研究、审阅与编辑;Wei Jin:监督、资源协调、项目管理;Nannan Li:监督;Kan Huang:监督
未引用的参考文献
Moon, Chang, & Lee (2018), Qian & 等 (2014) Oikonomidis, Kyriazis, & Argyros (2010), Xu & 等 (2021).
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。