《Pattern Recognition》:MFGS: Mask-free Gaussian Separation for 3D Object Reconstruction
编辑推荐:
本文针对旋转物体三维重建中严重依赖分割掩码的问题,提出了无需掩码的高斯分离方法MFGS。该研究在复杂背景条件下,通过扩展高斯基元并联合优化自监督分离概率,实现了前景与背景的自动解耦和高质量三维重建。实验表明,MFGS在合成与真实数据集上均显著超越现有方法,在无需人工干预的情况下,其新视角合成与几何重建精度甚至优于依赖高质量掩码的先进方法,为工业检测和文化遗产数字化等实际应用提供了更鲁棒、更高效的解决方案。
从多视角图像中精确重建物体的三维模型,是计算机视觉、机器人学和数字制造领域的一项长期挑战。在日常的生产与科研中,一个非常经典的采集场景是:将待测物体放置在一个旋转平台上,同时移动相机从不同视角进行拍摄。然而,这种设置引入了一个根本性的难题:物体相对于背景发生了运动。这就违背了大多数三维重建算法所依赖的“静态背景”这一核心假设,导致直接将整个场景作为一个整体进行建模时,重建质量严重受损。
为了解决这个问题,现有方法普遍依赖一个外部的前景分割流程来生成物体的掩码,从而在重建前将背景“抠掉”。理想很丰满,现实却很骨感。在杂乱的真实环境中,由于物体形状复杂、存在薄壁结构或反光表面,想要获得精确且视角间一致的掩码,本身就是一项极具挑战性、甚至需要大量人工标注的繁琐任务。这种对高质量掩码的脆弱依赖,极大地限制了现有基于神经辐射场(NeRF)和高斯溅射(Gaussian Splatting)的重建方法在实际场景中的应用。
那么,能否绕开对掩码的依赖,让算法自己学会区分转动的物体和静止的背景呢?由Jinguang Tong、Xuesong Li等人组成的研究团队在《Pattern Recognition》上发表的研究“MFGS: Mask-free Gaussian Separation for 3D Object Reconstruction”给出了肯定的答案。他们提出了一个名为“无掩码高斯分离”的全新框架,旨在解决旋转平台扫描场景下,无需任何输入掩码的物体三维重建问题。这项研究不仅定义了这一更具现实意义的任务设定,还引入了一种自监督的解决方案,其性能甚至超过了使用高质量掩码的现有最佳方法。
为了开展这项研究,研究人员主要采用了以下关键技术方法:首先,该研究构建了针对旋转扫描场景的合成与真实世界新数据集作为评测基准。方法上,其核心建立在2D高斯溅射(2DGS)这一先进的表面表示方法之上。研究团队为每个2D高斯基元扩展了一个可学习的“前景概率”参数,用以表征其属于动态前景物体的可能性。通过一个基于物体和相机变换约束的、可微分的软变换公式,该框架能够以完全自监督的方式,在优化三维表示的同时,自动解耦前景与背景。优化过程结合了光度重建损失、局部一致性损失以及在三维高斯空间和二维渲染置信度图上的分离正则化损失。
研究结果
- •
问题定义与动机:研究首先明确了在旋转平台系统中,物体与背景相对运动导致的重建难题,并指出依赖外部掩码的现有方法在实际应用中面临精度和可用性瓶颈。这为提出无掩码解决方案奠定了问题基础。
- •
方法框架概述:提出的MFGS框架核心在于扩展的2D高斯表示与自监督分离机制。如图2所示,每个高斯基元新增前景概率参数,通过该概率与已知物体运动进行软变换,将局部坐标系下的高斯映射到规范坐标系中,再经由2DGS光栅化器进行渲染。整个过程通过综合损失函数进行端到端优化。
- •
实验数据集:为了系统评估,研究构建了包含9个对象的真实数据集(使用机器人臂和旋转平台采集,背景杂乱)和合成数据集(使用Blender渲染,包含多种背景场景)。这两个数据集首次为旋转运动下的三维重建方法提供了专用评测基准。
- •
定量与定性分析:
- •
三维重建质量:在真实数据集上(表1),MFGS的Chamfer-L1误差平均为0.1272,显著优于所有无需掩码的基线方法(如Deformable 3DGS的2.5393),并与使用了SAM生成掩码的2DGS方法(0.1365)性能相当甚至更优。在合成数据集上,MFGS同样展现出最佳的重建精度。
- •
新视角合成质量:如图6所示,MFGS合成的新视图在物体边界区域误差更小,视觉质量更高,优于动态3DGS和未进行正确背景建模的2DGS。
- •
分割效果:如图7所示,尽管没有使用任何掩码监督,MFGS通过自监督优化学习到的前景-背景分离结果,在困难区域(如薄结构、复杂边界)甚至优于需要人工提示的SAM模型生成的掩码,证明了其分离机制的有效性。
- •
消融实验:研究通过消融实验(图8)验证了各个损失组件的作用。移除局部一致性损失(Llc)会导致表面不完整和噪声;移除分离正则化损失(L2ds和L3ds)则会使物体边界模糊、细节丢失。完整的损失函数组合能产生最精确的重建结果。
- •
鲁棒性分析:研究还分析了掩码质量对传统方法的影响(图10)。随着掩码质量下降(即噪声增大),依赖掩码的2DGS重建性能急剧恶化,而MFGS作为无掩码方法,其性能始终保持稳定,凸显了其在非受控环境下的鲁棒性优势。
- •
文化遗产数字化应用:为了展示实际应用价值,研究在两组具有精细雕刻的巴厘岛木质雕塑上进行了测试(图11)。结果显示,MFGS在无需掩码的情况下,对雕塑表面的孔洞、发丝等精细结构的重建保真度,高于使用SAM掩码的2DGS,证明了其在文化遗产高保真数字化方面的潜力。
研究结论与意义
本研究成功提出并验证了MFGS,一种用于旋转平台扫描场景的无掩码三维物体重建框架。其核心贡献在于,通过为高斯基元引入可学习的前景概率,并利用已知的物体运动进行自监督优化,实现了前景物体与静态背景的自动、精准分离。
该研究的结论和重要意义主要体现在以下几个方面:首先,方法性能卓越:MFGS在无需任何掩码输入的情况下,其重建质量超越了需要高质量掩码的当前最佳方法(2DGS),在新视角合成和几何重建上分别实现了27%和7%的性能提升。这打破了高质量重建必须依赖精确分割的固有认知。其次,实用性与鲁棒性强:通过消除对脆弱的外部掩码生成流程的依赖,MFGS极大地提升了三维重建技术在真实、非受控环境(如工业检测现场、杂乱的文化遗产收藏室)下的适用性和自动化程度。最后,为相关领域提供新基准:研究所构建的数据集和定义的问题设定,为未来在动态分离与重建相结合方向的研究提供了重要的评测基准和问题范式。
综上所述,MFGS不仅是一项在技术上实现突破的研究,更是一个面向实际应用需求的务实解决方案。它通过巧妙的算法设计,将原本分离的“分割”与“重建”任务融为一体,以自监督的方式协同解决,为迈向更智能、更便捷的三维数字化技术迈出了坚实的一步。