MIF-gaus：单目隐式特征驱动的通用高斯拼接重建方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月07日 来源：Neurocomputing 6.5

编辑推荐：

　　多视角3D重建通过单目隐式特征与多视角上下文特征融合，提出MIF-Gaus框架解决弱纹理、复杂几何场景下的深度估计与渲染精度问题，实验表明其结构连续性、语义一致性及纹理细节均优于现有方法。

陈国|李颖|吴晨茂|董久青|余文军|邱希和|高永斌

上海工程技术大学电子与电气工程学院，中国上海松江区龙腾路333号，201620

引言

多视图3D重建是计算机视觉、虚拟现实和机器人技术中的一个基本任务，其目标是从多个输入图像中恢复场景的3D几何结构和外观。作为该领域的代表性工作，NeRF [1] 和3D高斯散布（3DGS）[2] 在生成高保真重建结果方面展现了显著的能力。然而，这两种方法通常依赖于单个场景的优化，在跨场景条件下的泛化能力较弱。

最近关于跨场景泛化的研究 [3]、[4]、[5]、[6] 主要遵循两条技术路径。第一条路径是基于NeRF [1] 的隐式体积渲染方法。通过使用多视图立体（MVS）匹配 [7] 来学习几何先验，这些方法可以在较少视图的情况下实现条件NeRF前向推理，从而在一定程度上提高泛化能力，但在高频纹理的恢复方面表现较差。第二条路径侧重于基于3DGS [3]、[4]、[6] 的显式高斯渲染方法，其中网络直接预测高斯基本体并实时渲染它们。这种方法可以提高几何细节的重建质量。然而，大多数现有的显式高斯渲染方法 [3]、[6] 在处理具有未知或复杂几何形状的场景时仍存在固有的局限性。为了解决这个问题，MonoSplat [4] 直接将预训练模型预测的单目深度特征融入到多视图重建框架中，为未见过的场景提供深度先验，从而提高泛化能力。然而，显式高斯渲染对纹理稀疏或纹理质量较差的区域敏感度较低，这使得在纹理稀疏或纹理质量较差的场景中难以可靠地保证重建质量。

为了克服单一路径设计的缺点，整合两者的优势，研究人员提出了一个混合隐式-显式框架，例如MVSGaussian [8]。该方法利用MVS [7] 预测的深度先验信息，并同时初始化高斯散布和体积渲染参数。理论上，这种设计可以同时具备隐式体积渲染方法的泛化能力和显式高斯渲染方法的几何重建精度。然而，在现实中，MVSGaussian 仍然存在以下两个关键问题。首先，基于MVS的深度估计主要依赖于像素级别的相似性，缺乏语义线索和深度先验。当视差较小、基线过窄或视角变化不足时，容易发生深度歧义和精度下降。其次，隐式和显式分支通常仅在结果层融合，缺乏强语义约束。这种松散的耦合往往导致语义不一致、结构不连续以及合成视图中的纹理模糊。由此可见，现有的混合方法在复杂场景中仍难以实现稳定且高保真的3D重建。

为了解决上述挑战，我们提出了一种由单目隐式特征驱动的新型广义高斯散布重建框架，称为MIF-Gaus。该框架分别提取具有稳定单目深度先验和丰富几何语义的单目隐式（MI）特征，以及包含来自多个视图的可靠纹理和几何信息的多视图特征。然后将这些多源特征无缝集成到深度估计和渲染过程中。为了生成MI特征，我们设计了一种单目隐式特征提取策略。首先，使用冷冻深度任意V2编码器从多视图输入中提取单目深度隐式特征。然后，通过几何-视觉相似性融合（GVSF）模块进行对齐，以抑制不同视角之间的噪声。接下来，RFM-Mamba编码器（RFE）将去噪特征编码为粗粒度和细粒度的单目隐式特征，结合全局上下文和细节信息，从而补偿跨视图对齐引入的语义损失。最后，多尺度特征处理器（MFP）在多个尺度上优化单目隐式特征，确保更稳定的单目先验和更丰富的几何语义，从而实现从粗粒度到细粒度的多视图3D重建。为了从多视图输入中提取具有更可靠纹理和几何信息的多视图特征，我们设计了上下文建模特征金字塔编码器（CMFPE），它在空间域和通道域分别处理多视图特征。作为稳定且可泛化的深度先验的单目隐式特征，以及由CMFPE模块生成的具有上下文信息的多尺度多视图特征被输入到基于MVS的深度估计中，从而实现更准确的深度估计。在此基础上，MI特征被集成到混合显式-隐式渲染模块中，在渲染过程中提供丰富的语义约束。这减少了显式高斯渲染和隐式体积渲染在结果层融合过程中的常见语义冲突和信息损失，生成的新视图具有更清晰的纹理和更完整的结构。如图1所示，与没有MI特征的MVSGaussian相比，我们的方法生成的新视图具有更完整的结构、更均匀的颜色，以及层次更清晰、细节更丰富的深度图。

本文的贡献总结如下：

1.

我们提出了MIF-Gaus，这是一个由单目隐式特征驱动的通用多视图3D重建框架。它在具有弱纹理和狭窄基线的挑战性场景中实现了准确稳定的深度估计，同时生成了完整、一致且纹理详细的新视图，在重建质量上优于现有方法。

2.

我们提出了一种生成单目隐式特征的方法，通过跨视图对齐多视图单目深度特征来去除视差噪声，并在语义增强和优化后生成提供稳定深度先验和丰富语义线索的单目隐式特征，用于多视图重建。

部分摘录

多视图3D重建

最近的方法主要依赖于体素网格 [9]、[10] 或多平面图像 [11]。NeRF [1] 通过使用MLP对场景密度和颜色进行建模并通过体积渲染生成新视图，成为隐式3D表示的基准。一系列扩展 [5]、[12]、[13]、[14]、[15]、[16]、[17] 提高了其泛化能力，但仍存在推理速度慢的问题。为了解决这一限制，提出了3DGS [2]，它用高维网络替换了NeRF的隐式网络

方法

MIF-Gaus旨在实现具有弱纹理、遮挡和复杂结构的复杂场景中的高保真新视图合成。该框架包括三个关键模块：(a) 单目隐式特征生成，(b) 上下文建模特征金字塔编码器，以及(c) 混合显式-隐式渲染，如图2所示。

多视图重建流程包括三个阶段。首先，单目隐式特征生成模块生成单目

数据集和设置

遵循MVSNeRF [5] 的评估协议，我们在DTU [54] 数据集上训练我们的通用模型，并在四个基准数据集上进行综合评估：DTU [54]、Tanks and Temples (TNT) [55]、RealForward-facing [56] 和NeRF Synthetic [16]。在训练过程中，相关超参数在从DTU [54] 数据集派生的单独验证集上进行调整，不包括训练和测试部分。我们为每个测试场景选择20个附近的视图点，使用16个作为

定性分析

为了补偿单目深度特征在跨视图对齐后缺失的全局上下文信息和结构-语义细节，我们探索了不同的编码器构建方法并进行了相应的实验。此外，为了进一步提高不同层次下下采样单目深度特征的语义表达能力，我们研究了多种粗粒度和细粒度上的优化策略。

表6中的结果表明，利用

结论

所提出的MIF-Gaus方法有效地将MI特征与显式深度特征集成到多视图3D重建中，结合CMB和FS-LGGM模块，实现了结构连续性、语义一致性和纹理保真度的全面改进。在多个公共数据集上的实验结果表明，该方法在具有弱纹理、遮挡和复杂几何形状的场景中表现出优异的鲁棒性。通过消融实验，我们验证了

声明

本研究未涉及人类参与者、动物实验对象或需要伦理批准的任何材料。所有实验仅在使用公开可用的基准数据集（DTU、NeRF Synthetic、Tanks and Temples和LLFF）上进行。所有数据集均按照其原始出版物的要求进行了适当引用。

CRediT作者贡献声明

陈国：撰写 – 原始草稿、可视化、验证、方法论。李颖：撰写 – 审阅与编辑、撰写 – 原始草稿、验证、监督、方法论、概念化。吴晨茂：调查、形式分析。董久青：撰写 – 审阅与编辑、可视化、验证、监督、调查。余文军：调查、形式分析。邱希和：监督、形式分析。高永斌：撰写 – 审阅与编辑、撰写 – 原始草稿、监督，

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

陈国出生于1998年10月，中国山东省菏泽市。他目前是上海工程技术大学电子与电气工程学院的硕士研究生。他的研究兴趣主要包括3D重建和计算机视觉。

联系信箱：

粤ICP备09063491号

引言