PDCFMO：通过融合元优化实现人体概率密集对应关系

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：PDCFMO: Probabilistic Dense Correspondence of Human Body via Fusion Meta-Optimization

【字体：大中小】 时间：2026年03月15日 来源：Neural Networks 6.3

编辑推荐：

　　提出PDCFMO框架，结合概率人类密集对应估计与任务特定元优化器，通过1D heatmap和软Z缓冲伪标签解决可见性问题，并采用对称秩一近似高效优化，在3DPW等数据集上显著提升精度和收敛速度。

作者：陆一凡、张柏玲、张浩兰、余欣、庞朝阳、王朗、唐敏

单位：浙江大学宁波理工学院计算机科学与数据工程学院，中国浙江省宁波市315100

摘要

从图像中估计人体密集对应关系在以人为中心的分析中至关重要，但现有方法在速度和准确性之间存在权衡。直接回归方法速度快，但往往缺乏几何精度；而基于优化的技术虽然更准确，但计算成本高且容易陷入局部最小值。本文提出了PDCFMO框架，该框架通过协调广泛范围的回归和特定任务的元优化范式来弥合这一差距。该方法首先使用一维热图和可见性置信度测量来高效估计人体密集对应关系，并结合了一种新的技术，利用软z缓冲排序方案生成伪真实可见性，以解决可见性标签缺失的问题。其核心创新在于基于神经网络的元优化器，该优化器通过融合历史的一阶和二阶信息来学习下降方向，将特定任务的先验知识整合到迭代优化过程中，从而提高对特定环境的适应性和对复杂手势的处理能力。此外，训练过程中还集成了一种内存效率高的对称秩一（SR1）逆Hessian近似方法，在保证准确性的同时最小化内存使用。在3DPW、Human3.6M和People Snapshot数据集上的评估表明，该方法在收敛速度上比传统方法提高了八倍，突显了该框架的鲁棒性和效率。

引言

人类数字化在日常生活中变得越来越重要，渗透到虚拟现实/增强现实（VR/AR）、视频游戏、社交远程呈现、虚拟试穿（Wan等人，2025年）和电影行业等多个领域。这些应用都依赖于以人为中心的分析和合成，包括3D体型估计（Xu、Zhu、Tung，2019年；Zhang、Cao、Lu、Ouyang、Sun，2020年）、人体姿态转移（Gafni、Ashual、Wolf，2021年；Lee、Gu、Park、Choi、Choo，2022年）、角色动画（Gafni、Wolf、Taigman，2020年；Zhang、Sciutto、Agrawala、Fatahalian，2021a年）、神经场（Jiang、Hong、Bao、Zhang，2022年；Xu、Alldieck、Sminchisescu，2021年）和照片级重建（Alldieck、Zanfir、Sminchisescu，2022年；He、Xu、Saito、Soatto、Tung，2021年；Kim、Kim，2024年；Saito、Simon、Saragih、Joo，2020年；Xiu、Yang、Tzionas、Black，2022年）等任务。这些方法的核心是人体密集对应关系的估计，即学习观测数据（如图像）与3D人体模型表面之间的密集对应关系。然而，准确估计人体姿态和形状是一个病态问题，尤其是在处理复杂手势、被遮挡的身体部位或画面外的场景时（Sun、Gu、Wang、Yang、Yao，2024年；Xie、Price、Gummadi、Pons-Moll，2023年；Yao、Yang、Ceylan、Zhou、Zhou、Yang，2022年）。传统的基于回归的方法通常缺乏详细重建所需的精度，而基于优化的方法计算成本高且容易陷入局部最小值。

为了解决这些限制，最近的研究探索了多种策略。一些方法通过显式建模可见性来提高对遮挡的鲁棒性（Sun、Gu、Wang、Yang、Yao，2024年；Xie、Price、Gummadi、Pons-Moll，2023年；Zhang、Chen、Wu、Liu，2023年），而其他方法则利用生成模型（特别是扩散模型）的力量来学习合理的3D姿态和形状分布（Gong、Zhang、Li、Wang、Liu、Zhu，2023年；Kim、Kim，2024年；Rommel、Zanfir、Marino、Sminchisescu，2023年；Wang、Xiao、Wang、Liu、Wang、Chen、Xiang、Zhang、Chen、Liu，2024年）。此外，学习优化的范式也成为一个有前景的方向，其中元优化器被训练来学习特定任务的下降方向，从而比手动设计的优化器具有更快的收敛速度和更好的性能（Andrychowicz、Denil、Colmenarejo、Hoffman、Pfau、Schaul、Shillingford、de Freitas，2016年；Samadi-Koucheksaraee、Ahmadianfar、Bozorg-Haddad、Asghari-Pari，2019年）。

在这种思路下，所提出的PDCFMO方法首先进行概率密集对应关系估计，然后进行特定任务的元优化。利用神经网络通过融合历史的一阶和二阶信息来预测下降方向。该方法受到经典L-BFGS算法（Liu和Nocedal，1989年）的启发，设计了一种内存效率高的变体，通过一系列对称秩一（SR1）更新来迭代近似牛顿法中使用的逆Hessian（Conn等人，1991年）。主要贡献如下：

概率密集对应关系估计： 提出了一种使用计算效率高的一维热图和可见性置信度测量来估计人体密集对应关系的方法。为了解决现有数据集中缺乏真实可见性标签的问题，提出了一种基于软z缓冲排序方案的伪真实可见性生成技术。该方法以概率方式利用观测空间中的特征，使后续的元优化器能够将特定任务的先验知识注入迭代优化过程中。
特定任务元优化： 开发了一种基于神经网络的元优化器，通过融合历史梯度和Hessian信息来学习下降方向。因此，该元优化器专门用于人体模板重建任务，显著优于其他优化器，并且所需的迭代次数更少，收敛误差率也更高。
内存高效Hessian近似： 将内存高效的SR1 Hessian近似方法集成到元优化器中，通过准确近似真实Hessian同时最小化内存使用。使用秩一更新迭代构建越来越精确的真实Hessian近似值，线性内存方案进一步减少了逆Hessian估计的内存占用，从而便于训练过程中的计算。

这些贡献推动了人体密集对应关系的估计，在虚拟现实/增强现实、视频游戏和角色动画等领域的应用中具有重要意义。

提出的方法

所提出的PDCFMO方法如图1所示，包括两个关键组成部分：概率密集对应关系回归（第3.1节）和基于神经网络的融合元优化（第3.2节）。概率密集对应关系网络提取图像特征，以预测关节和网格顶点在x、y和z轴上的三个一维热图，并估计关节和网格顶点在图像帧内的可见性。

实验

实验使用了Human3.6M（Ionescu等人，2014年）、3DPW（von Marcard等人，2018年）、MSCOCO（Lin等人，2014年）和MuCo-3DHP（Mehta等人，2018年）数据集，对密集对应关系回归、姿态和形状元优化进行了测试。所提出的元优化器在AMASS数据集（Mahmood等人，2019年）上进行了训练。对于定量评估，所有模型都在Human3.6M和3DPW测试集上使用了常见的关节和顶点误差指标进行了评估。

讨论

本研究的结果表明，所提出的PDCFMO框架将概率密集对应关系与学习的融合元优化器相结合，为3D人体重建提供了一种鲁棒且高效的解决方案。其在具有挑战性的基准测试（特别是3DPW数据集）上的卓越性能，凸显了这种混合方法相对于类似方法（如VisDB（Yao等人，2022年）和最新最先进方法的有效性。

结论与未来工作

本研究提出了一种新颖且高效的人体密集对应关系估计方法，通过弥合回归和优化两种不同方法之间的差距。结合概率密集对应关系网络和可见性置信度测量，实现了鲁棒和准确的估计。针对现有数据集中缺乏真实可见性标签的问题，提出了一种通过软z缓冲方案生成伪真实可见性的方法。

关于生成式AI和AI辅助技术在写作过程中的声明

在准备本作品的过程中，作者使用了ChatGPT来提高手稿的可读性和语言表达。使用该工具后，作者对内容进行了彻底审查和编辑，并对发表文章的内容负全责。

CRediT作者贡献声明

陆一凡：撰写——原始草稿、研究、概念化。 张柏玲：撰写——审阅与编辑、概念化。 张浩兰：撰写——审阅与编辑、资源提供。 余欣：撰写——审阅与编辑、形式分析。 庞朝阳：撰写——审阅与编辑。 王朗：撰写——审阅与编辑。 唐敏：资源提供。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：陆一凡报告获得了宁波科技局的财政支持；张浩兰报告获得了浙江省自然科学基金的财政支持；王朗报告获得了宁波公益研究计划的财政支持。如果还有其他作者，他们声明没有其他已知的利益冲突。

致谢

本研究得到了宁波科技局[Grant Number 2024Z291]、宁波公益研究计划[2023S108]和浙江省自然科学基金[MS26F020037]的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作