多尺度采样与特征融合在动态人体渲染中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月06日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　动态人体渲染中提出多尺度采样与特征融合NeRF框架，通过锥形体积采样和分层采样策略优化几何与外观重建，结合变形场与可微分渲染器有效抑制运动模糊与几何失真，实验表明在ZJU-MoCap等数据集上显著优于现有方法。

袁凯南|郑博伦|姚阳|张倩宇|陈芳妮|张继勇|王灿进

杭州电子科技大学自动化学院，中国杭州310018

摘要

由于复杂的运动以及高保真外观和几何重建的需求，从多视图视频中动态渲染人体仍然具有挑战性。在本文中，我们提出了多尺度采样与特征融合NeRF（MSFFNeRF）这一新框架，该框架通过圆锥体积采样和分层多采样策略提升了渲染质量。我们的方法结合圆锥体积采样和带符号距离场先验，同时捕捉了全局身体运动和精细的表面细节，有效减轻了运动模糊和几何变形。此外，通过自适应特征融合模块在多采样阶段对潜在代码特征进行了精细化处理，增强了时间一致性和外观准确性。在ZJU-MoCap和Human3.6M数据集上的广泛实验表明，与以往方法相比，我们的方法显著提高了渲染质量。代码可在以下链接获取：https://github.com/keasylove/MSFF-NeRF/。

引言

自由视角视频技术因其能够提供沉浸式观看体验而受到了广泛关注。许多应用，如VR、体育广播、电影制作和体育科学，都受益于自由视角视频系统的发展。然而，许多现有技术需要密集的同步摄像机阵列[1]或RGB-D传感器[2]来生成逼真的新视图，这使得自由视角视频成本高昂，限制了其普及和应用。

作为一项新颖的隐式3D重建技术，神经辐射场（NeRF）[3]在静态3D场景的重建和新视图合成方面展现了强大的能力。然而，在输入视图稀疏或重建具有复杂身体运动的动态人体时，其渲染质量会显著下降。现有的针对人类表演者的新视图合成方法[4]、[5]、[6]通常将人体运动场分解为刚性和非刚性组成部分，并利用从SMPL[7]获得的先验知识来指导刚性场的构建。在这些方法的引导下，观测空间中的采样点被变形到规范空间。在建立观测空间和规范空间之间的对应关系后，AniNeRF[6]利用带符号距离场有效地约束了几何形状，实现了精确的表面重建。然而，其简单的颜色场建模可能导致颜色渲染失真（见图1中间）。相比之下，潜在代码[8]被用于表示人体几何和外观[9]，这些代码锚定在SMPL[7]的顶点上并扩散到附近的3D空间。Neural Body[9]将同一组潜在代码映射到不同帧的隐式密度和颜色场中，有效地整合观测结果，生成具有相对真实颜色的合成图像。然而，Neural Body直接使用来自姿态空间的潜在代码特征，而没有建立观测空间和规范空间之间的对应关系。这导致几何建模约束不足，从而导致表面几何形状不清晰（见图1顶部）。由于这些方法[6]、[9]、[10]在最终阶段使用单尺度采样策略预测密度和颜色场，它们可能难以捕捉多尺度细节，导致新视图图像出现黑色斑块、锯齿边缘和模糊等渲染瑕疵。

在本文中，我们引入了圆锥射线[11]并采用多采样来精细化潜在代码特征，显著减少了新视图图像中的渲染瑕疵。具体来说，我们通过截取圆锥射线获得圆锥截锥体，并用多变量高斯函数表示这些截锥体，其中高斯的均值对应于采样点的位置。然后我们使用变形场将采样点从姿态空间变换到规范空间，并在姿态空间中进行稀疏卷积，将潜在代码扩散到周围的3D空间。借助多变量高斯函数，获得多组潜在代码，通过自适应融合后输入神经网络以预测颜色场。同时，使用带符号距离场来表示几何形状。然后使用可微分渲染器生成新视图图像。我们的方法在保持高质量颜色渲染的同时实现了高保真的表面几何（见图1底部）。为了评估我们的方法，我们在ZJU-MoCap[9]数据集上进行了实验，该数据集通过多个固定位置的同步摄像机捕捉了动态人体的运动。在所有视频序列中，我们的方法在新视图合成方面表现出色，无论是对于训练姿势还是未见过的姿势。

总结来说，我们做出了以下贡献：

•
我们提出了一种针对整个场景表示的多尺度体积采样策略，并进一步提出了一个名为多尺度采样与特征融合NeRF（MSFFNeRF）的新框架，用于动态人体渲染，提高了模型捕捉动态人体细节的能力。
•
我们结合使用多采样策略和自适应融合模块，有效精细化潜在代码特征，从而优化了人体外观学习。
•
与以往的工作相比，我们的方法在性能上表现出竞争优势。

本文的结构如下：第2节回顾相关工作，第3节介绍提出的MSFFNeRF方法，第4节提供实现细节，第5节展示实验结果，第6节总结并讨论未来工作。

部分内容

基于图像的渲染

基于图像的方法[12]、[13]、[14]、[15]、[16]通过利用一组输入图像以及输入视图和目标视图之间的映射关系来合成新视图。早期的基于光场的方法从多个视角密集采样图像以生成新视图，从而避免了复杂的3D场景重建需求。Levoy和Hanrahan[17]以及Davis等人[18]、Gortler等人[19]分别提出了光场和lumigraph技术。

方法

我们的目标是通过从稀疏的多视图输入合成任意新视图来生成自由视角视频。所提出方法的概述如图2所示。我们提出MSFFNeRF用于动态人体渲染，其中发射圆锥射线进行多尺度采样。使用变形场建立观测空间中的采样点与规范空间之间的对应关系。对于规范空间中的采样点，使用带符号距离场来增强人体

实现细节

我们每次迭代使用1024条射线。模型使用Adam优化器[76]进行优化，其默认动量参数为

β_{1} = 0 ，9，β_{2}=0，999

，且不使用权重衰减。我们不进行学习率预热，学习率初始化为

5 e^{? 4} ，并在训练过程中呈指数衰减至 5 e^{?} 。为了防止早期优化过程中的梯度爆炸，我们对所有网络参数应用了40的梯度值裁剪阈值。

在我们的实验中，我们将

z_{N 设置为6890。}

数据集和指标

我们在以下数据集上评估了我们的模型，并介绍了实验中使用的数据集和指标。

ZJU-MoCap [9]是一个包含复杂人体运动的多视图视频数据集，由21个同步摄像机系统捕获。该数据集记录了9个动态人体视频，通过无标记运动捕捉系统获得了精确的3D人体姿态信息。按照[9]中的实验协议，我们均匀选择了4个摄像机用于训练。

结论和未来工作

我们提出了一种名为MSFFNeRF的新自由视角合成方法，用于动态人体场景，该方法结合了圆锥体积采样和多采样策略。我们的方法解决了动态人体建模中的关键挑战，包括运动模糊、几何变形和在复杂运动下的外观不一致性问题。多尺度圆锥体积采样方案同时捕捉了全局几何和精细表面细节。此外，我们提出了一种多采样策略，进一步提升了

CRediT作者贡献声明

袁凯南：撰写 – 审稿与编辑，撰写 – 原稿，软件，方法论。郑博伦：撰写 – 审稿与编辑，验证，形式分析，概念化。姚阳：软件，调查。张倩宇：撰写 – 审稿与编辑。陈芳妮：资源，调查。张继勇：撰写 – 审稿与编辑。王灿进：监督。

利益冲突声明

作者声明他们没有已知的可能影响本文报告工作的财务利益或个人关系。

致谢

本工作部分得到了浙江省重点研发计划（项目编号：2023C01044）和浙江省省级高校基本科研经费（项目编号：GK239909299001-013）的支持。

袁凯南于2024年获得中国杭州杭州电子科技大学智能科学与技术学士学位。他目前正在攻读控制科学与工程博士学位。他的研究兴趣包括新视图合成、人体建模和渲染。

联系信箱：

粤ICP备09063491号

摘要

引言