《Array》:ViMGS-SLAM: A real-time monocular 3DGS-based SLAM via multiscale vision transformers
编辑推荐:
视觉同步定位与地图构建(Visual Simultaneous Localization and Mapping,VSLAM)对于自主系统至关重要,然而单目实现在无纹理区域存在尺度模糊和深度线索不可靠的问题。研究人员提出了ViMGS-SLAM,一种新颖的单目框
视觉同步定位与地图构建(Visual Simultaneous Localization and Mapping,VSLAM)对于自主系统至关重要,然而单目实现在无纹理区域存在尺度模糊和深度线索不可靠的问题。研究人员提出了ViMGS-SLAM,一种新颖的单目框架,它将多尺度视觉变换器(Multi-scale Vision Transformer,MViT)与3D高斯溅射(3D Gaussian Splatting,3DGS)相结合,以实现实时、度量尺度下的密集重建。MViT通过分层金字塔架构(三个输入尺度,五个特征级别)生成鲁棒的深度先验,这些深度先验随后用于初始化并约束显式的3D高斯场景表示。一种同步的跟踪-建图管线,结合自适应关键帧选择和各向异性正则化,联合优化相机位姿和高斯参数。在TUM RGB-D fr3数据集上,与MonoGS相比,ViMGS-SLAM将绝对轨迹误差减少了46.0%(从0.0437米降至0.0236米)。在Replica数据集上,它在新视图合成方面达到了最优性能,峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)为39.6 dB,结构相似性指数(Structural Similarity Index,SSIM)为0.976,学习感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)为0.042,性能优于基于神经辐射场(Neural Radiance Field,NeRF)和基于3DGS的方法。该系统在单目模式下端到端运行帧率为2.7帧/秒(FPS),而可微分渲染器单独达到1130 FPS,证实了其效率。消融研究验证了MViT深度先验、自适应关键帧选择以及正则化项的贡献。
**论文解读:ViMGS-SLAM——基于多尺度视觉变换器的实时单目3DGS SLAM**
研究背景与动机:视觉同步定位与地图构建(VSLAM)是自主系统感知环境的基础技术。单目VSLAM因仅依赖单相机而面临显著挑战,尤其在无纹理区域,深度估计存在尺度模糊和不可靠的深度线索。现有自监督单目深度估计方法虽避免了昂贵标注,但仍受限于尺度歧义、纹理依赖和边界模糊。3D高斯溅射(3DGS)作为一种显式场景表示方法,在新视图合成中展现出优越性,但将其集成到单目VSLAM时,因缺乏可靠深度先验导致高斯初始化尺度模糊、重建不完整和位姿漂移。多尺度视觉变换器(MViT)通过全局自注意力机制能更好地捕获长距离依赖和上下文信息,理论上可为3DGS提供鲁棒的几何先验。为克服上述挑战,研究人员提出ViMGS-SLAM,旨在通过紧密耦合MViT与3DGS,实现实时、度量一致的密集单目重建。该研究发表在《Array》。
关键技术方法概述:研究人员采用三个主要技术创新:1)基于MViT的层级金字塔架构(三个输入尺度:640×640、320×320、160×160;五个特征层级:320×320至20×20),通过权重共享的块编码器和跨尺度特征融合生成度量尺度的逆深度先验;2)显式3DGS表示,将场景建模为各向异性3D高斯集合,支持可微分渲染和快速光栅化;3)同步跟踪-建图管线,包含自适应关键帧选择(基于几何重叠和位移阈值,并引入自适应的间隔调整机制)和各向异性正则化(惩罚高斯尺度偏离各向同性,防止过度拉伸)。样本队列来源为TUM RGB-D和Replica数据集。
研究结果:
- **深度估计结果**:在TUM RGB-D fr3序列上,ViMGS-SLAM的绝对轨迹误差(ATE)为0.0236 m,比MonoGS(0.0437 m)降低46.0%。通过关键帧分析(第600、1150、2400帧)和全局轨迹对比,表明MViT的多尺度特征融合和自注意力机制有效减少了遮挡和无纹理区域的匹配误差,抑制了累积漂移。在TUM-RGB(单目)数据集上,ViMGS-SLAM的PSNR为23.27 dB、SSIM为0.78、LPIPS为0.27,全面超越GO-SLAM、MGSO和MonoGS;在RGB-D输入下进一步达到24.60 dB、0.81、0.21,显示出近似传感器级的深度推理精度。
- **新颖视图渲染结果**:在Replica数据集Room1序列上,ViMGS-SLAM通过MViT捕获局部几何细节和全局上下文,在尖锐边缘、细密纹理和部分遮挡区域重建质量显著优于Point-SLAM和MonoGS。定量指标上,PSNR达到39.60 dB(领先第二名1.69 dB),SSIM为0.976(所有方法最优),LPIPS为0.042(比第二名降低66.7%),表明其在辐射精度、结构完整性和感知保真度方面的全面优势。
- **3D高斯重建结果**:在TUM RGB fr3序列上,ViMGS-SLAM在邻近区域生成95,156个高斯基元,比MonoGS(35,159个)多170.64%,点云更完整。定性比较显示,ViMGS-SLAM产生的高斯更密集、形状更各向同性(圆形),颜色重建更准确,并能正确重建显示表面,而MonoGS存在伪影。这归功于MViT的深度先验和各向异性正则化。
- **轨迹估计性能**:在TUM RGB fr3序列上,ViMGS-SLAM在全程保持更低的RMSE ATE,尤其在急转弯等快速视角变化场景中,平均跟踪误差比MonoGS低50%。这表明MViT的时间特征聚合和遮挡感知注意力有效抑制了误差传播。
- **消融实验结果**:在TUM RGB fr1/fr2/fr3序列上,移除光度损失导致ATE增加2.41 cm(由1.48 cm升至3.56 cm),移除深度损失导致ATE增大1.8倍(升至2.68 cm),移除各向同性正则化导致ATE升至2.53 cm。结果验证了每个组件对定位精度和几何一致性的重要贡献。
- **运行时分析**:在TUM fr2/desk序列上,ViMGS-SLAM端到端运行速率在单目模式下为2.7 FPS,RGB-D模式下为2.3 FPS。渲染阶段单独达到1130.2 FPS(峰值1440.8 FPS),证实可微分高斯溅射后端的高效性。映射模块每次关键帧平均迭代19.6次(单目)或17.7次(RGB-D),计算代价随高斯基元数量(约95,000个)增长而增加,体现了密集几何优化的固有成本。
总结与讨论:论文指出,ViMGS-SLAM目前缺乏显式的回环检测、跟踪失败后的重定位以及长期漂移校正模块(此为多数3DGS SLAM方法共有的局限性),其绝对轨迹误差会在长序列中逐渐累积(如TUM fr2/desk的2965帧序列)。未来工作将侧重于集成轻量级回环检测模块,并探索异步执行以提升可扩展性和鲁棒性。
翻译研究结论部分:本论文提出了ViMGS-SLAM,一种实时单目VSLAM框架,将多尺度视觉变换器(MViT)与3D高斯溅射(3DGS)协同集成。MViT通过层级金字塔架构生成度量尺度的深度先验,用于初始化和约束显式3D高斯场景表示。配备自适应关键帧选择和各向异性正则化的同步跟踪-建图管线联合优化相机位姿和高斯参数。在TUM RGB-D和Replica基准上的大量评估表明,ViMGS-SLAM显著优于现有方法。在TUM fr3上,与MonoGS相比,绝对轨迹误差降低46.0%(从0.0437 m降至0.0236 m)。在Replica上,新视图合成达到最优性能:PSNR 39.6 dB,SSIM 0.976,LPIPS 0.042。系统在单目模式下端到端运行于2.7 FPS,而可微分渲染器单独达到1130 FPS,证实其效率。消融研究验证了各组件(MViT深度先验、光度损失和深度损失、各向同性正则化项)的贡献。尽管取得了这些进展,ViMGS-SLAM目前缺乏显式回环检测、重定位和长期漂移校正(这是大多数基于3DGS的SLAM系统的普遍问题)。如图5所示,轨迹误差在长序列中逐渐累积,凸显了全局优化的需求。未来工作将专注于集成轻量级回环检测模块并探索异步执行,以进一步提高可扩展性和鲁棒性。研究人员相信该工作为未来开发更高效、更复杂的基于3DGS的SLAM系统奠定了坚实基础。