跨视图一致性前馈3D高斯散射技术用于新颖视图合成

【字体: 时间:2026年03月13日 来源:Pattern Recognition 7.6

编辑推荐:

  两阶段 feed-forward 3DGS 架构 ProSplat 通过引入最大重叠参考视图注入(MORI)和距离加权视差注意力(DWEA)机制,结合单阶段扩散模型优化,有效解决宽基线稀疏视图下的几何与外观一致性难题,在RealEstate10K和DL3DV-10K数据集上平均PSNR提升1dB。

  
卢晓涵|傅家业|张佳琪|宋泽天|贾传民|马思伟
北京大学计算机科学学院,北京,100871,中国

摘要

前馈3D高斯拼接(3DGS)在从稀疏输入视图生成新视图(NVS)方面最近取得了有希望的结果。然而,在宽基线设置下,当前的前馈流程难以处理几何和外观的一致性问题,导致出现伪影并丢失细节。在本文中,我们提出了ProSplat,这是一种在宽基线条件下实现高保真NVS的前馈3DGS方法。ProSplat采用了两阶段前馈设计。在第一阶段,3DGS生成器从稀疏输入视图预测3D高斯基本元素。在第二阶段,通过基于一步扩散模型精心设计的改进模型来增强这些基本元素生成的新视图。为了明确强制跨视图一致性,我们引入了最大重叠参考视图注入(MORI)和距离加权极线注意力(DWEA)。MORI选择最相关的输入视图作为参考视图,以补充具有挑战性的区域中缺失的纹理和颜色,而DWEA使用极线约束来促进视图之间的几何一致性特征融合。此外,我们采用了分而治之的训练策略,以稳定优化并更好地对齐各阶段之间的数据分布。我们在RealEstate10K和DL3DV-10K数据集上评估了ProSplat的性能。实验结果表明,ProSplat提高了跨视图一致性,并在PSNR上平均比最近的最先进前馈方法提高了1分贝。

引言

新视图合成(NVS)对于自由视角视频和虚拟现实至关重要。几种基于可微渲染的里程碑方法[1]、[2]、[3]、[4]极大地改善了NVS,并实现了自由视角导航。3D高斯拼接(3DGS)[3]因同时实现了高渲染效率和视觉保真度而脱颖而出。然而,这种方法面临两个主要限制,严重阻碍了其实际应用。
  • (1)
    它依赖于每个场景的优化,这在重建众多独立场景时既耗时又计算成本高昂。
  • (2)
    它需要数百张输入图像才能覆盖整个场景,这在复杂的户外环境中通常是不可行的。
为了克服这些限制,出现了前馈方法,如pixelSplat[5]、MVSplat[6]和DepthSplat[7],它们仅使用前馈网络重建3D场景,从而消除了每个场景的优化。前馈方法在大型数据集上训练一个通用的生成模型,并进行推理以估计3D高斯基本元素的参数。这些方法有效地利用了稀疏输入视图,解决了优化/传统3DGS的关键缺点。然而,大多数现有的前馈方法关注的是相邻视图之间的重叠较大的窄基线场景。具体来说,宽基线场景的特点是平均视图间重叠比率低于30%,这通常会导致跨视图几何估计不准确。因此,这些方法仍然需要许多输入视图才能实现完整场景的重建。为了用更少的输入视图实现快速重建,将窄基线场景扩展到宽基线场景至关重要,这仍然是一个重大挑战。
宽基线场景面临足够的纹理信息和保持视图间几何一致性的挑战,因为在小重叠下匹配的特征点数量有限。为了解决这些挑战,一些基于优化的3DGS的方法[8]、[9]集成了视频扩散模型[10]、[11]来生成更高质量的视图,然后将这些视图反馈用于迭代训练。在前馈方法中,MVSplat360 [12]将其流程中集成了潜在扩散模型(LDM)[11]以提高渲染视图的保真度。然而,视频扩散模型固有的多步去噪和帧间注意力机制带来了显著的计算开销,降低了前馈方法的效率优势。此外,MVSplat360将渲染视图的潜在特征反馈给LDM,未能利用3DGS渲染的像素级结构信息。最近,DIFIX3D+[9]在优化的3DGS框架内采用了一步图像扩散模型[13]、[14],实现了高效的高质量渲染。然而,它仍然受到每个场景训练要求的限制。
为了解决这些挑战,我们提出了ProSplat,这是一种新的两阶段前馈框架,能够在无需每个场景优化的情况下高效生成高保真视图。我们的框架设计用于高效部署,实现了毫秒级的场景重建和视图合成,同时避免了多步去噪和每个场景的优化。在第一阶段,ProSplat使用高效的3DGS生成器[7]生成3D高斯基本元素并渲染新视图。这个过程提供了场景的粗略几何和外观表示,作为后续增强阶段的基础输入。在第二阶段,使用基于一步扩散模型[13]的专用改进模型来增强这些低保真度渲染视图。该改进模型直接将3DGS渲染的像素级结构线索与扩散模型[15]中编码的丰富2D先验相结合,实现了3D几何和2D语义的有效融合。具体来说,我们引入了最大重叠参考视图注入(MORI)和距离加权极线注意力(DWEA)来增强渲染视图的几何一致性和视觉质量。MORI选择最相关的输入视图作为参考视图,以补充缺失的纹理和颜色。DWEA有效地在潜在空间中融合了参考视图和渲染视图在几何上对应的区域,增强了跨视图几何一致性。潜在特征是通过变分自编码器(VAE)[16]编码器和U-Net[17]进行下采样的,确保了计算效率,并通过将特征融合限制在局部区域来减少网络层间的不一致性。此外,我们采用了分而治之的训练策略。改进模型最初独立训练以学习稳定的先验,然后将其集成到前馈框架中进行联合优化。这一步联合优化使3DGS生成器的输出分布与改进模型的输入要求对齐,实现了两个组件之间的一致端到端交互。
我们在DL3DV-10K[18]和RealEstate10K[19]数据集上评估了ProSplat的性能。实验结果表明,ProSplat在广泛采用的指标上始终优于最近的高级方法,在PSNR上平均提高了1分贝。我们的贡献总结如下:
  • 我们提出了ProSplat,这是一种两阶段前馈3DGS框架,能够在宽基线条件下合成高保真新视图,而无需每个场景的优化。
  • 我们引入了一种集成MORI和DWEA的机制,其中MORI识别出最具信息量的参考视图,然后DWEA使用这些视图通过极线约束来增强跨视图几何一致性。
  • 我们开发了一个基于一步扩散模型的高效增强阶段,与多步扩散模型相比,实现了更快的处理速度和更低的推理延迟。
  • 我们进行了广泛的实验,证明ProSplat在PSNR、SSIM和LPIPS方面提高了跨视图一致性,并优于最近的最先进前馈基线方法。
本文的其余部分结构如下。第2节回顾了关于稀疏视图NVS、前馈3DGS和NVS扩散模型的相关工作。第3节详细描述了ProSplat框架。第4节展示了实验评估,并证明了ProSplat的优势。最后,第5节概述了限制和未来研究方向,第6节总结了本文。

部分摘录

稀疏视图NVS

新视图合成旨在生成未直接观察到的视角的逼真图像。早期工作[20]、[21]主要依赖于几何方法,如在密集捕获的图像集上进行光线插值。然而,这些方法需要大量的输入视图,限制了它们在稀疏视图场景中的实用性。随着深度学习的发展,基于学习的方法[22]、[23]、[24]出现了,可以从稀疏输入中推断出场景的几何和外观。

方法

给定I={Ii}i=1N和已知的相机姿态P={Pi}i=1N,我们的目标是预测每个像素的高斯基本元素并渲染新的逼真视图。ProSplat是一个两阶段框架:3DGS生成和渲染视图增强。ProSplat的总体框架如图1所示。在第一阶段,我们生成3D高斯基本元素并渲染新视图。在第二阶段,通过基于一步扩散的专用改进模型来增强渲染视图

实现细节

我们的3DGS生成器遵循DepthSplat框架[7],并使用官方预训练的权重进行初始化。在视图增强阶段,我们使用SD-Turbo[15]并根据Pix2Pix-Turbo[13]的程序对其进行微调,同时结合了LoRA[48]。移除了文本编码器,并使用空的提示嵌入,因为不需要语义信息作为条件输入。所有训练和推理实验都在单个NVIDIA L20 GPU上进行。

限制

尽管ProSplat取得了显著的性能提升,但仍存在一些限制。首先,在极端外推场景下,ProSplat可能会产生平坦或过度平滑的纹理,这主要是由于一步扩散模型的生成能力有限。此外,独立的每个视图增强可能不是确保严格跨视图一致性的最佳解决方案。其次,重建质量对相机参数的准确性非常敏感。

结论

我们提出了ProSplat,这是一种在宽基线稀疏视图下进行新视图合成(NVS)的高效跨视图一致前馈框架。ProSplat采用了两阶段前馈设计。在第一阶段,ProSplat使用3DGS生成器重建场景并生成3D高斯基本元素,得到粗略的几何和外观表示。在第二阶段,专用改进模型通过结合MORI和DWEA来增强渲染视图,以融合像素级

CRediT作者贡献声明

卢晓涵:写作 – 审稿与编辑,撰写原始草稿,可视化,验证,软件,资源,方法论,调查,形式分析,数据策划,概念化。傅家业:写作 – 审稿与编辑,方法论。张佳琪:写作 – 审稿与编辑,监督,方法论。宋泽天:写作 – 审稿与编辑,方法论。贾传民:写作 – 审稿与编辑,方法论。马思伟:写作 – 审稿与编辑,方法论。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号