《Neurocomputing》:Adaptive keyframe selection and gear attention mechanism for dynamic scene reconstruction
编辑推荐:
动态场景神经辐射场高效建模方法研究。针对复杂动态场景建模中计算效率与重建精度不足的问题,提出自适应关键帧采样与动态加权注意力机制(GAM)。通过SAM模型和光流分析实现智能关键帧分布,结合动态特征融合机制提升多尺度运动建模能力。实验表明在Google沉浸式数据集上PSNR提升1.33dB,较Gear-NeRF提升1.20dB。
Kai Xu|Fen Chen|Qi Zhang|Zheng Wu|Zongju Peng|Yang Cao
重庆工业大学电气与电子工程学院,中国重庆,400054
摘要
神经辐射场(NeRF)作为一种前沿的建模技术,能够高效地表示和重建复杂的时空数据,为各个领域带来了新的机遇。然而,现有的动态NeRF方法在处理复杂动态场景时往往面临计算效率低和重建精度不足的问题。为了解决这些问题,我们提出了一个新框架,该框架通过自适应地在时间域采样并动态融合多尺度运动特征来智能分配计算资源。我们的方法主要有两个组成部分。首先,我们引入了一种自适应关键帧选择策略,用于优化时间采样。该方法不再使用固定的时间间隔,而是利用segment anything模型和光流的语义特征来智能选择关键帧。其次,受Gear-NeRF的启发,我们提出了齿轮注意力机制(GAM)。该机制用动态加权注意力机制替代了离散的齿轮分配方式,使得模型能够根据场景内容动态调整特征权重,有效处理连续运动和混合运动模式。自适应关键帧分布和GAM显著提高了运动场景的重建质量。在具有挑战性的数据集上的实验结果表明,我们的方法性能更优。特别是在Google Immersive数据集上,与HyperReel和Gear-NeRF相比,我们的方法分别提高了1.33 dB和1.20 dB的PSNR。
引言
强大的3D场景重建和逼真渲染对于虚拟现实/增强现实的进步、文化遗产保护以及电影和游戏行业至关重要。在过去几年中,神经辐射场(NeRF)[1]作为从校准的多视图图像重建静态3D场景的技术展示了巨大的潜力,激发了大量创新方法[2]、[3]。然而,在有限的计算资源下对具有复杂运动的真实世界场景进行建模仍然是一个巨大的挑战。
为了解决这个问题,最近的神经渲染方法在从多视图视频重建3D动态场景方面取得了显著进展。此外,一些方法[4]、[5]使用变形场将神经辐射场从给定时间映射到规范空间。其他方法利用显式的时间表示,如4D时空网格或分解张量[6]、[7],直接对动态进行建模,以实现更高效的优化和渲染。第三种重要的范式是动态/静态分解方法[8]、[9],它们分别对移动的前景元素和静态背景进行建模,以提高效率和质量。
尽管取得了显著进展,但在实现复杂场景的高质量重建和高效性方面仍存在挑战。真实世界场景的动态性往往具有高度的时间变化性。例如,一些场景可能具有剧烈的运动或显著的外观变化,而其他场景则相对静态。此外,由于空间或时间捕获的限制,一些视频序列只包含动态对象的部分信息。在这种情况下,简单的采样策略显然是不够的,因为它没有考虑到不同场景区域的独特运动特性。计算资源在变化缓慢的场景区域被过度消耗,而在变化迅速的场景区域,表示能力不足以捕捉细节。因此,渲染质量和计算效率之间的权衡变得不可避免。
在本文中,我们利用动态场景的时变复杂性和丰富的语义信息来解决上述问题。我们提出了一个新框架,通过自适应地在时间域采样并动态融合多尺度运动特征来智能分配计算资源。我们的方法包括两个协同工作的组成部分。首先,我们引入了一种自适应关键帧选择策略来优化时间采样。这种方法不是使用固定的时间间隔,而是利用SAM [10]提取的语义特征和光流信息来智能选择关键帧。它根据场景复杂度自适应地确定关键帧的数量和分布。其次,基于自适应选择的关键帧,我们必须有效地建模多样化的运动模式。为此,受Gear-NeRF [11]的启发,我们提出了齿轮注意力机制(GAM)。该机制用动态加权注意力机制替代了原始的Gear-NeRF的离散齿轮分配策略,使得模型能够根据场景内容动态调整不同运动尺度的特征权重分布。这使得模型能够更好地处理连续运动尺度和混合运动模式。实验结果表明,我们的方法在动态场景的新视图合成方面非常有效。在像Google Immersive数据集[12]这样的具有挑战性的数据集上,我们的自适应关键帧分布和注意力机制显著提高了运动场景的重建质量。
我们的贡献如下:
•我们引入了一种自适应关键帧采样策略,根据场景动态和语义内容复杂性自动选择关键帧。
•我们提出了一种GAM,可以实现多尺度特征的动力学加权融合。
•在各种真实世界数据集上的广泛实验表明,我们的方法实现了高保真的新视图合成。
本文的其余部分结构如下:第2节提供了相关工作的全面概述。第3节详细阐述了我们的方法,该方法结合了自适应关键帧选择策略和GAM用于动态场景重建。第4节详细介绍了实验结果。最后,第5节得出了结论。
相关工作
相关工作
相关的先前工作主要集中在神经辐射场的进步上,特别是将其扩展到动态场景的神经表示方面。
神经辐射场:新视图合成领域经历了深刻的变革,这在很大程度上得益于NeRF的引入。NeRF将3D场景隐式地表示为一个连续且可微分的函数。它从多视图图像输入中学习几何和外观信息。
提出的方法
为了高效地建模和渲染4D时空空间中的复杂动态场景,我们引入了一个新的动态NeRF模型,如图1所示。该方法包括四个主要组成部分:输入和采样、自适应关键帧、GAM和体积渲染。过程从多视图动态场景视频序列开始,从中采样4D时空体积。接下来,我们的方法不是使用传统的固定时间间隔,而是利用SAM模型智能选择关键帧
实验
我们在三个具有挑战性的真实世界数据集(Google Immersive数据集[12]、Neural 3D视频数据集[41]和Technicolor数据集[42])上评估了我们的方法,并对我们的方法的各个组成部分进行了广泛的消融研究。
结论
在本文中,我们提出了一种多模态关键帧选择机制来自适应选择关键帧,并提出了GAM来智能融合不同运动尺度的特征,实现了高质量的场景重建。我们的方法利用动态场景的时变复杂性和丰富的语义信息来解决动态场景重建中计算资源浪费的问题。此外,我们引入了“齿轮”的概念来增强多尺度运动融合。
CRediT作者贡献声明
Kai Xu:撰写——原始草稿,软件。Fen Chen:监督,方法论。Qi Zhang:撰写——审阅与编辑。Zheng Wu:软件。Zongju Peng:资金获取,概念化。Yang Cao:撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。
致谢
本工作得到了中国国家自然科学基金(项目编号62371081)、重庆市自然科学基金(项目编号CSTB2022NSCQ-MSX0873)、重庆工业大学研究与创新团队(项目编号2023TDZ003)以及教育部人工智能装备重点实验室开放基金(项目编号2024-AAIE-KF03-03)的支持。
Kai Xu于2023年在中国重庆交通大学获得学士学位。他目前在中国重庆工业大学电气与电子工程学院攻读硕士学位。他的研究兴趣包括3D场景重建、深度学习。