Voxel-MPI:基于场景适应性的多平面图像局部体素分割技术,结合注意力机制实现三维场景的高效表示

《Pattern Recognition Letters》:Voxel-MPI: Scene-Adaptive Multiplane Images based Local Voxel Tokenization with Attention Coordination for 3D Scene Representation

【字体: 时间:2026年01月25日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  3D场景重建中,多平面图像(MPI)方法通过体素化全局MPI并独立学习每个体素内的Voxel MLP,增强局部纹理细节,同时设计体素注意力块协调同一深度体素间的信息,解决传统方法局部细节不足和块状伪影问题。实验表明优于NeRF、3DGS等现有方法。

  
刘宇|丁欣|刘琼
华中科技大学电子信息学院,中国湖北省武汉市珞喻路1037号,430074

摘要

随着学习模型的不断优化,近年来用于新视角合成的3D场景重建取得了显著进展和快速发展。与NeRF和3DGS等主流3D重建方法相比,多平面图像(MPI)方法在计算效率和全局结构保留方面表现出良好的平衡。为了增强场景细节,一些研究将局部平面与全局多层感知器(MLP)学习结合用于MPI表示。然而,全局MLP网络固有的全局一致性阻碍了局部密度信息的自适应学习,导致渲染图像中丢失了局部几何和纹理细节。为了解决这个问题,我们提出了一种称为Voxel-MPI的方法,该方法可以自适应地增强MPI中的局部纹理表示。首先,我们对全局MPI进行体素化,并为每个体素的局部MPI编码一个独立的MLP网络,以实现局部场景信息的自适应学习。接下来,独立学习每个局部MPI可能会导致块状伪影的产生。为了解决这个问题,我们设计了一个体素注意力模块(Voxel Attention Block),该模块协调同一深度下基于体素的局部MPI学习的信息,确保场景渲染的一致性和连贯性。实验结果表明,我们的方法在广泛使用的真实世界数据集上优于现有方法。

引言

在计算机视觉领域,将二维图像信息转换为三维空间表示以重建复杂的自然场景(如植被和建筑物)[1]是一项关键且极具挑战性的任务,它允许从不同角度观察和理解场景。
具体来说,隐式表示方法(如神经辐射场(NeRF)[2]可以实现逼真渲染。基于Transformer的方法,例如通用NeRF Transformer(GNT)[3],主要侧重于提高NeRF的泛化能力,通过利用大量的计算参数来适应不同的场景。基于NeRF的MobileNeRF [4]通过将光线烘焙到带纹理的多边形中实现实时渲染,但代价是渲染质量降低。然而,这些方法中固有的全局隐式学习优化机制难以捕捉细粒度纹理细节,并且计算成本较高。
相比之下,显式表示方法的最新进展(如3D高斯散射(3DGS)[5]通过可微分的基于点的渲染提高了渲染速度,同时保持了高质量的结果。例如,Scaffold-GS [6]利用锚点分布局部3D高斯,并根据观察方向和视锥距离实时预测其属性。然而,高斯椭球体的各向异性特性可能导致由于不同视角之间的投影差异而在重叠视点区域出现不一致性。
为了解决上述限制,MPI方法[7]在计算效率和结构一致性保留方面表现出良好的平衡。经典的MPI方法将场景沿观察锥方向离散为多个半透明平面。这些平面上的点同时被参考相机和目标相机观察到,这种结构确保了视角的一致性。然而,传统的带有MLP模块[8]的全局MPI方法难以自适应地学习场景的局部特征,例如花瓣的曲面结构。最近的研究通过引入局部平面提高了局部场景纹理的表现力。例如,Neurmips [9]通过点云构建局部平面,能够有效捕捉简单环境中的局部几何和纹理,但忽略了相机之间的相关性,导致平面结构过于灵活。此外,Neurmips的局部平面不是自适应学习的,而是从大型MLP网络中提取的,这使得处理具有复杂几何和纹理的场景变得困难。相比之下,DVGO[10]在体素级别构建局部MPI,这更易于神经网络学习。然而,它仍然使用全局MLP网络来拟合局部MPI,而没有独立的局部建模,无法有效表达局部场景信息。同样,Kplanes[11]在体素级别构建更精细的几何正交平面,但由于复杂的平面结构和全局学习方法,难以在复杂场景中重建局部信息。
总之,局部平面结构中缺乏视角一致性约束以及依赖于全局学习方法,使得在复杂场景中准确表示局部信息仍然是一个挑战。因此,本文提出了一种体素局部MPI 3D场景表示方法。首先,保留了具有视角一致性的MPI结构。然后,将全局MPI空间划分为规则的体素网格,在每个体素内构建局部MPI,并使用独立学习的体素多层感知器(Voxel MLP)进行编码,以实现复杂几何的细粒度建模。接下来,为了减少独立体素建模产生的块状伪影,本文设计了一个体素注意力模块机制。通过一个可学习的权重矩阵,协调同一深度下局部MPI编码的场景信息,确保整个场景在纹理和几何方面的一致性。
总之,我们的工作贡献如下:
  1. 我们提出了一种基于体素局部MPI的新3D表示范式,该方法使用独立学习的体素MLP网络在体素级别编码局部MPI,有效捕捉复杂场景中每个局部区域的详细特征。
  2. 我们引入了体素注意力模块机制来减少场景块状伪影。通过协调同一深度体素块中独立学习的MLP网络,显著提高了场景几何和纹理的渲染一致性。
  3. 与现有方法相比,我们的结果显示,在多个数据集上,体素局部MPI的性能优于现有的MPI、NeRF和3DGS方法。此外,与基准方法相比,体素MPI在所需内存和训练时间方面表现更好。

方法部分

方法

我们方法的整体工作流程如图1所示,以下部分提供了关于我们方法的详细信息。

实验

数据集:LLFF数据集[13]包含8个用智能手机拍摄的多样化真实世界场景,每个场景的输入图像数量从20到62张不等。Shiny数据集[12]与LLFF类似,包含更多具有挑战性视点依赖效果的复杂场景,例如通过液体瓶子或放大镜的折射以及复杂的薄结构。Replica数据集[9]是一个包含多样化室内场景的合成数据集。所有方法都针对每个场景进行了优化。

结论

本文介绍了一种名为Voxel-MPI的3D场景表示方法,该方法解决了复杂场景中局部纹理表示不足的问题。Voxel-MPI在体素级别构建局部MPI,并使用Voxel-MLP进行编码,增强了局部纹理细节的捕捉。我们提出了一种体素注意力模块机制,通过协调不同体素块中独立学习的局部MPI来减轻块状伪影。未来的工作可以结合遮挡先验和时间信息。

未引用的浮点数

表3。

CRediT作者贡献声明

刘宇:撰写——原始草稿,验证,软件。丁欣:撰写——审阅与编辑,监督。刘琼:可视化,项目管理,资金获取。

利益冲突声明

我们声明与可能不恰当地影响我们工作的其他个人或组织没有财务和个人关系,对任何可能影响本文立场或手稿评审的产品、服务和/或公司没有任何形式的职业或其他个人利益。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号