一种结合单目深度优化和动态KNN密度化的3D高斯重建方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：A 3D Gaussian Reconstruction Method with Monocular Depth Optimization and Dynamic KNN Densification

【字体：大中小】 时间：2026年03月15日 来源：Neurocomputing 6.5

编辑推荐：

　　提出深度对齐优化的3D高斯溅射框架，通过动态KNN密集化策略和可学习全局尺度对齐，结合置信度感知的深度融合机制，有效解决SfM初始化误差导致的几何失真和效率问题，在Mip-NeRF360等数据集上PSNR提升2.75dB且训练时间减少18%。

Jinhua Wang|Yawei Li|Jie Cao

兰州理工大学微电子产业-教育融合学院，中国兰州730050

摘要

为了解决基于运动结构（SfM）的初始化错误导致的几何不精确性和密度化效率低下问题，本文提出了一种深度对齐的3D高斯分割（3DGS）优化框架。该方法结合了两个模块，以平衡精度和计算效率。深度对齐模块将稀疏的SfM深度估计与密集的单目深度估计相结合，应用多视图一致性约束来优化高斯参数并纠正SfM姿态误差引起的失真。此外，还引入了一种动态K最近邻（KNN）密度化策略，该策略根据协方差矩阵自适应调整搜索半径，并使用各向异性分割标准来细化高斯原始分布。这种方法解决了固定半径搜索导致的匹配不准确和过度分割问题。在Mip-NeRF360和Tanks and Temples等公共数据集上的实验结果表明，我们的方法显著提高了重建保真度（在Mip-NeRF360上提高了2.75dB的PSNR），同时将训练时间减少了约18%。这些结果突显了我们的框架在效率和精度之间实现更好平衡的有效性，为高质量的真实世界3D重建提供了实用的解决方案。

引言

三维（3D）重建是计算机视觉和计算机图形学中的一个基本研究方向，在虚拟现实（VR）、增强现实（AR）、机器人导航、自动驾驶、文化遗产修复和数字孪生等应用中发挥着重要作用。传统的基于几何的重建方法，如基于运动的结构（SfM）[1]和多视图立体（MVS）[2]，在特征对应足够的情况下可以取得满意的结果。然而，在纹理稀疏、质量较低或噪声较大的环境中，它们的性能往往会下降，难以满足实际应用的鲁棒性和效率要求。

近年来，神经辐射场（NeRF）[3]在学术界和工业界引起了广泛关注，因为它通过隐式体积表示实现了高质量的新视图合成。然而，体积采样的高计算成本导致渲染效率低下，限制了它们在大规模或实时场景中的直接应用。为了解决这个问题，提出了一系列改进措施，如Plenoxels [4]和Instant-NGP [5]，它们利用显式的体素网格和哈希编码显著提高了效率。最近，3D高斯分割（3DGS）[6]引入了显式的高斯原始元素和可微分光栅化，显著提高了渲染速度，同时保持了图像质量，从而实现了实时高保真场景重建[7]、[8]。

尽管如此，3DGS在复杂的真实世界场景中仍面临两个主要挑战。一方面，现有方法通常依赖于启发式规则来确定原始元素的添加或移除，例如固定半径的KNN邻域或各向同性的高斯分割。虽然这些策略在纹理均匀的区域表现良好，但在高曲率或纹理丰富的区域容易发生邻域分类错误，导致原始元素数量急剧增加、过度分割和冗余存储开销。如图1所示，不正确的原始元素扩展不仅会产生明显的伪影，还会增加渲染负担并降低训练效率。先前的研究尝试使用各种密度化策略来缓解这个问题。例如，Kim等人[9]提出根据视图梯度阈值控制密度增长和修剪操作，提高了渲染质量，而不会显著增加原始元素的数量。类似地，SAGS [10]引入了场景结构感知的表示（局部-全局图表示），以减少高频边缘和复杂几何区域中的浮点数和伪影，提高了几何保真度和渲染质量。此外，FeatureGS [11]最近将特征值和几何误差项纳入优化目标，为密度化和分割策略提供了基于几何的指导。然而，这些方法主要基于规则，缺乏对局部几何分布的自适应建模，难以在复杂的真实世界场景中保持稳定性。

另一方面，3DGS高度依赖于SfM [12]等稀疏重建方法提供的初始点云。在噪声、尺度模糊或纹理较弱的情况下，这种依赖性常常导致几何失真和全局尺度漂移，如图2所示。虽然单目深度估计提供了丰富的几何信息，但它只传递相对尺度，必须映射到绝对深度空间才能作为监督。一些现有工作使用固定的仿射映射（缩放和平移）来对齐单目深度和几何先验；然而，这些方法通常依赖于静态参数，而不是在不同场景中进行适应。例如，CDGS [13]利用单目深度、稀疏SfM和置信度图来加权深度监督，但其仿射对齐是全局固定的，并未在极端几何或各向异性条件下进行验证。SparseGS [14]表明，引入深度先验可以在稀疏视图条件下部分缓解几何塌陷。然而，其深度使用仍然主要是启发式的，并未明确解决尺度模糊或概率深度融合问题。更近期的方法，如DET-GS [15]，在边缘或深度正则化方面进行了改进，但它们仍然没有提供完全概率或特征值分布驱动的对齐机制。因此，在尺度一致性和对齐鲁棒性方面仍有很大的改进空间。

为了解决上述限制，本文提出了一种针对稀疏视图环境的深度对齐驱动的3D高斯重建框架。核心思想是将单目深度监督与高斯原始元素的优化紧密结合，而不是将深度视为辅助正则化器。具体来说，一个可学习的全局尺度对齐模块将相对单目深度映射到重建的度量空间中，从而在整个训练过程中实现一致的几何监督。基于对齐的深度，我们引入了一种基于动态KNN的密度化策略，该策略在几何不确定区域自适应地细化高斯分布。此外，一种基于置信度的深度融合机制根据单目不确定性对深度监督进行加权，防止不可靠的预测主导优化。这些组件共同构成了一个统一的流程，提高了在稀疏视图条件下的几何稳定性、重建保真度和训练效率。总之，我们的贡献如下：

1.

考虑协方差的动态密度化。我们根据高斯协方差自适应选择邻域，并进行各向异性分割，提高了高曲率和纹理丰富区域的几何鲁棒性，同时减少了冗余原始元素和计算开销。

2.

可学习的全局尺度对齐。

我们不依赖于固定的仿射参数，而是将尺度和平移视为在训练过程中优化的可学习变量，从而在不同场景中实现更稳定的尺度一致性。

3.

基于置信度的深度融合。

单目深度和多视图一致的深度被建模为高斯观测值，其后验分布通过逆方差加权（专家乘积）计算。这个后验被纳入损失函数中，确保了理论上的合理性和一致的不确定性传播。

总体而言，通过结合概率深度融合和可学习的尺度对齐，我们的方法有效缓解了SfM初始化的不足和深度尺度的模糊性。结合结构感知的密度化，它为高效和高保真的3D高斯重建提供了新的解决方案。本文的其余部分组织如下：第2节回顾相关工作，第3节详细介绍所提出的方法，第4节展示实验和消融分析，第5节讨论未来的研究方向。

整体框架

为了解决3DGS在缺乏深度监督和密度化鲁棒性方面的局限性，我们引入了外部单目深度图（例如DPT）作为监督信号，并提出了一种创新的多视图深度一致性约束与基于动态KNN的密度化策略的集成方法。具体来说，深度对齐模块强制多个视图之间的高斯结构和单目深度预测保持一致，从而实现准确的

实验评估

实验部分分为四个部分。首先，我们介绍了使用的数据集及其特点。其次，我们描述了实现细节、训练设置和评估指标。第三，我们进行了比较和消融研究，从三个角度全面评估所提出的方法：新视图合成质量、几何重建精度和感知图像质量。最后，我们分析了失败案例，以探究潜在问题

结论与讨论

本文提出了一种基于深度对齐的3D高斯重建框架，它集成了三个核心组件：基于动态KNN的密度化、可学习的全局尺度对齐和基于置信度的深度融合。实验结果表明，所提出的方法在Mip-NeRF360和Tanks and Temples数据集上显著提高了重建质量，PSNR提高了2.75dB，同时将训练时间缩短了约18%。

CRediT作者贡献声明

Jie Cao：撰写 – 审稿与编辑、可视化、监督、方法论。Yawei Li：撰写 – 原始草稿、可视化、监督、资源管理、项目管理、方法论、调查、数据整理、概念化。Jinhua Wang：撰写 – 审稿与编辑、监督、软件开发、形式分析、概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Jinhua Wang报告获得了兰州理工大学的财务支持。Jinhua Wang与兰州理工大学存在雇佣关系。如果有其他作者，他们声明没有已知的可能会影响所报告工作的财务利益或个人关系。

Jinhua Wang获得了博士学位，目前是教授和博士导师。她的研究兴趣包括基于图像的3D重建、图像超分辨率重建以及复杂系统的智能感知方法。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号