在高斯散布算法中解耦几何形状与外观以实现反射表面重建：一种基于光泽图像先验的引导方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Decoupling Geometry and Appearance in Gaussian Splatting for Reflective Surface Reconstruction: A Glossy Image Prior-Guided Approach

【字体：大中小】 时间：2026年02月21日 来源：Neural Networks 6.3

编辑推荐：

　　3D重建中反光表面高保真渲染方法通过分阶段优化几何与外观，利用颜色空间分析检测高光区域并实施差异化几何监督，结合小波多尺度特征提取和门控融合网络分离基色与高光反射，有效解决传统方法因光一致性假设失效导致的几何与外观失真问题。

余文革|魏国亮|吴俊科

上海科技大学理学院，上海，200093，中国

摘要

对真实世界场景进行精确的3D重建是机器人技术和虚拟现实应用的基础。然而，反射性和光滑表面的存在导致视图依赖性的高光现象，这违反了大多数重建算法所依赖的光度一致性假设，从而产生严重的几何和外观伪影。因此，我们提出了GIP-GS这一新颖方法，它通过一种原理性的两阶段策略实现了具有显著镜面反射物体的高保真重建，该方法将几何优化与外观精细化过程分离。首先，我们引入了一种基于颜色空间的反射区域检测（CA-RRD）模块，生成一个连续的光泽图像先验（GIP），该先验能够区分不同视图中的光度不一致（镜面）区域和一致（漫反射）区域。利用这一先验，我们的区域差异化几何优化应用了针对性的监督机制：一种新的连通区域法线一致性损失能够减轻镜面区域中的伪影，而预训练网络的先验则确保了漫反射区域的高保真度，从而构建了一个稳健的几何框架。其次，为了克服球谐函数在表达能力上的局限性，我们提出了一个专门的外观精细化阶段。该阶段引入了一个由GIP指导的新型门控外观融合网络（GAFN），该网络能够明确区分基础颜色和镜面效果。为了进一步提高保真度，该网络还基于小波多尺度特征提取进行训练，从而能够准确渲染复杂的高频镜面高光。我们在具有挑战性的合成数据集（例如NeRF Synthetic、Shiny Blender）和真实世界数据集（例如DTU）上评估了GIP-GS的性能。我们的方法取得了有竞争力的结果。

引言

从多个视角获取的高质量图像重建在计算机图形学和计算机视觉中被认为是一项关键任务，因为它在增强现实（AR）、虚拟现实（VR）和机器人技术等应用中具有巨大潜力（Wu等人，2024a）。然而，由于表面上复杂的反射现象，重建具有光泽物体的3D模型面临着重大挑战。传统的多视图立体视觉（MVS）技术（Schonberger等人，2016；Shen，2013）以及许多现代神经渲染技术（Mildenhall等人，2020）主要依赖于不同视图之间的光度一致性假设。然而，这种基本假设被镜面表面彻底打破了，因为镜面表面的外观高度依赖于视图，导致数据关联错误、深度估计不可靠，从而导致几何重建质量严重下降，表现为不完整性、噪声和结构不准确。

现有方法往往难以有效区分表面的内在几何结构和视图依赖性的反射效果。这促使人们开发出将外观明确分解为不同成分的技术（Verbin等人，2022；Zhang等人，2021）。这种困难通常源于一个更根本的问题：未能区分多视图一致的区域（例如主要是漫反射的）和不一致的区域（例如主要是镜面反射的）。这种方法往往会导致一种权衡，要么在可靠区域牺牲重建的保真度，要么无法充分减轻不可靠表面区域的不利影响。此外，有效地结合先验知识（如表面法线、平滑度约束或识别的镜面区域）来规范本质上不适定的重建任务，同时避免引入新的偏见或过度的计算开销，仍然是一个关键问题。在本文中，我们提出了GIP-GS这一新颖的两阶段流程，该方法系统地分离了几何和外观的联合优化，以实现反射物体的高保真重建，其原理基于PGSR（Chen等人，2024）。我们的方法首先构建了一个高保真的几何框架。鉴于镜面区域中光度线索的不可靠性，我们引入了一种区域差异化的监督策略。对于一致的区域（主要是漫反射的），我们利用预训练模型的稳健先验来提高准确性。对于不一致的区域（主要是镜面反射的），连通区域法线规范化损失引导优化朝着合理的表面配置进行。然而，我们认为，即使使用低阶球谐函数（SH）进行渲染，一个几何上完美的框架也是不够的，因为球谐函数本质上难以表示高频镜面现象。为了克服这一限制，我们提出了一个专门的外观精细化阶段。该阶段冻结了优化后的几何结构，将其体素化（类似于Scaffold-GSLu等人，2024），并训练了一个基于观察方向和几何框架中的高质量表面法线的表达能力强的神经外观模型。为了使该模型能够渲染出细腻的镜面效果，我们引入了一个基于离散小波变换（DWT）的特征提取流程。这使我们能够构建一个多尺度、频率感知的特征图谱，明确保留了标准深度学习架构通常丢弃的高频成分，提供了重建清晰、复杂高光的必要细节。这种结构化的两阶段流程减轻了联合优化中的破坏性干扰，从而在最终渲染中实现了更高的稳定性和保真度。我们的贡献可以总结如下：

•

我们引入了一种基于颜色空间的反射区域检测（CA-RRD）模块，生成了一个光泽图像先验（GIP）。这个连续的先验指示了每个视图中的每个像素的镜面性，从而软性地分离了以漫反射为主（多视图一致）和以镜面反射为主（视图依赖）的区域，以指导区域差异化的优化和门控。

•

利用GIP，我们的策略对不同的场景区域应用了针对性的几何监督。对于不一致的镜面区域，一种新的连通区域法线一致性损失强制局部平滑性，以对抗不可靠的光度线索。对于一致的低反射区域，利用预训练模型的先验来确保保真度。这一过程产生了一个对镜面伪影具有鲁棒性的高保真几何框架。

•

我们提出了一种新颖的外观精细化框架，该框架明确区分了外观的两个核心组成部分：（a）基于小波的多尺度特征提取，用于捕获细粒度和上下文细节；（b）GAFN模块，它使用GIP来预测镜面颜色残差，从而解决了渲染反射表面时的固有歧义，实现了更逼真的效果。

章节摘录

基于高斯散点的表面重建

3D高斯散点（3DGS）（Kerbl等人，2023）最近成为一种先进的新型视图合成技术，它提供了与隐式神经表示（如NeRF）（Mildenhall等人，2020）不同的方法，通过结合实时渲染和高质量结果。它明确地用一组3D高斯来表示场景，每个高斯由位置、协方差、不透明度以及由球谐函数表示的颜色定义。

3D高斯散点

3DGS将3D场景建模为一组广泛的3D高斯基元。每个高斯G_i主要由其中心位置（均值）

μ_{i} \in R^{3}

、定义形状的协方差矩阵

Σ_{i} \in R^{3}

、不透明度值

α_{i} \in R^{3}

和颜色属性（通常由球谐函数（SH）系数c_i表示）定义。相对于第个个高斯的点

x \in R^{3}

的3D高斯分布如下：

\begin{matrix} G_{i} (x) = e x (? \frac{1}{2} {(x ? μ_{i})}^{)})) \end{matrix}

协方差矩阵Σ_i通常由一个缩放向量

s_{i} \in R^{3}

参数化。

方法论

给定一组 pose 图像，我们的目标是从这些图像中高效重建高质量的表面，同时实现逼真的新型视图合成。为了实现这一目标，我们提出了GIP-GS，这是一种两阶段训练策略，它将几何和外观分离。我们方法的概述如图1所示。

在对反射物体的表面重建过程中，为了对这些类别进行差异化处理，首先会应用一个光泽先验掩码（第4.1节）。

训练细节

为了解决由镜面高光和环境反射引入的固有歧义，这些歧义会使得纹理与光照的分离变得复杂，并经常导致几何重建质量下降，我们提出了一种分阶段的训练策略。该策略旨在通过逐步分离几何和材料属性的估计来系统地提高复杂光照条件下的3D重建的鲁棒性和准确性。

在第一阶段，

结论

在本文中，我们提出了GIP-GS，这是一个基于PGSR的新框架，它通过引入两阶段优化策略有效地分离了几何和外观。我们的实验表明，这种结构化的方法使GIP-GS能够成功地将表面内在属性与复杂的反射现象区分开来，从而实现了高质量的几何精度和逼真的新型视图合成，优于那些不区分优化策略的方法。

生成式AI使用说明

在准备这项工作时，作者使用了OpenAI的ChatGPT来提高手稿的清晰度、流畅性和可读性。使用该工具/服务后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

CRediT作者贡献声明

余文革：撰写——原始草稿、验证、方法论、概念化。魏国亮：撰写——审阅与编辑、监督、资源提供。吴俊科：撰写——审阅与编辑、监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号