Sonar-Neus:基于体素的高效神经隐式表面重建技术,适用于前视声纳系统

《Neural Networks》:Sonar-Neus:Voxel-based Efficient Neural Implicit Surface Reconstruction for Forward-Looking Sonar

【字体: 时间:2026年01月31日 来源:Neural Networks 6.3

编辑推荐:

  针对前向声纳(FLS)密集3D重建中存在的训练速度慢和采样效率低的问题,提出基于体素的三维重建方法。通过采用体素网格替代多层感知机(MLP),设计分层采样策略,并引入SDF高斯卷积降噪技术,显著提升重建效率和几何细节。实验表明,该方法在10分钟内即可达到现有4小时方法的重建质量,同时效果更优。

  
邱世吉|胡左琪|张天航|刘志|董俊宇|蔡青
中国海洋大学,青岛,266100,山东,中国

摘要

利用前视声纳(FLS)进行密集3D重建对于海洋探索至关重要。最近基于FLS的3D重建技术取得了进展,这些技术利用神经辐射场(Neural Radiance Fields)取得了有希望的结果。然而,其过慢的重建速度严重影响了它们在现实世界中的应用,主要原因有两个:(1)依赖于多层感知器(MLPs)进行场景表示,导致训练速度慢,通常需要数小时才能完成重建;(2)沿高度弧线的均匀采样策略效率低下,极大地阻碍了训练速度和重建质量。为了解决这些挑战,我们提出了一种基于体素的高效神经隐式表面重建方法,该方法使用FLS,并具有三个关键创新点:1)用体素网格替代MLPs进行场景表示,利用有符号距离函数(SDF)体素网格来建模几何形状,利用特征体素网格来捕捉外观特征;2)引入沿高度弧线的分层采样策略以提高采样效率;3)对SDF体素网格应用SDF高斯卷积,有效减少噪声和表面粗糙度。大量实验表明,我们的方法显著优于现有的无监督密集FLS重建技术。值得注意的是,我们的方法在仅10分钟的训练时间内就能达到与现有最先进方法4小时训练相同的质量,同时还能提供更优的结果。论文被接受后,我们将公开我们的代码。

引言

利用前视声纳(FLS)进行密集3D重建的目的是从声纳图像中准确重建水下物体的三维结构(Ayrulu, Barshan, 2001; Brajard, Jamet, Moulin, Thiria, 2006)。这种方法在许多应用领域具有巨大潜力,包括海洋探索(Leatham, Hood, 1959; van der Merwe, Leen, Lu, Frolov, Baptista, 2007)、沉船打捞(Torpy, 2015, Wilder, 2000, Yiyang, Zhang, Lang, Wang, 2023)、生态监测(Lindenmayer and Likens, 2010)以及海底资源勘探(Calvin et al., 2015)。FLS通过发射声波脉冲并分析反射信号的强度来提供三维结构的2D测量数据(Mildenhall, Srinivasan, Tancik, Barron, Ramamoorthi, Ng, 2021, Yan, Xie, Zou, Wei, Luan, 2025)。尽管声纳系统在方位角和距离测量方面具有较高的精度,但高度角存在固有的不确定性,这意味着在给定距离和方位角下检测到的物体可能位于高度弧线上的任何位置。这种高度信息的根本不确定性使得从声纳数据中进行三维重建变得复杂且具有挑战性。尽管已经提出了许多针对光学相机的3D重建技术(Lin, Chen, Chen, Wang, 2025; Ramanarayanan, Rahul, Fahim, Ram, Venkatesan, Sivaprakasam, 2025; Zeng, Luo, Yu, Yang, Zhao, Wang, 2025; Zeng, Yuan, Wang, Liu, Wang, 2019; Zhang, Jia, Zheng, Yu, Tian, Ma, Huang, Liu, 2020),并且先进的深度学习策略进一步增强了多模态领域中的特征融合和场景表示(Zhou, Dong, Lei, Yu, 2023a; Zhou, Dong, Xu, Qian, 2022; Zhou, Lin, Lei, Yu, Hwang, 2021; Zhou, Sun, Jiang, Cong, Hwang, 2023b; Zhou, Yang, Lei, Wan, Yu, 2023c),但由于FLS和光学相机之间的重建原理不同(Castorena, Kamilov, Boufounos, 2016; Olague, Mohr, 2002; Saeed, Guo, Park, Al-Naffouri, Alouini, 2019; Saha, Ifthekhar, Le, Jang, 2015),这些方法不能直接应用于声纳数据。因此,从图像数据中解决高度不确定性成为准确重建FLS测量结果的三维结构的关键挑战(Li et al., 2025)。目前,已经提出了许多使用前视声纳的3D重建方法,这些方法大致可以分为传统方法和基于深度学习的方法。
传统的基于FLS的3D重建方法主要遵循三种范式:带有运动约束的几何驱动方法、基于特征的生成模型和体积网格优化。基于几何的方法(Teixeira, Kaess, Hover, Leonard, 2016; Westman, Gkioulekas, Kaess, 2020a)通过严格的传感器配置规则或机器人路径规划来减轻高度不确定性,但存在可扩展性和环境适应性方面的问题。生成模型(Aykin, Negahdaripour, 2015; Westman, Kaess, 2019)通过从声波阴影和边缘推断表面来减少物理假设,但仍然容易受到声纳噪声的影响,并且对反射率的先验假设不够可靠。体积框架(Wang, Ji, Woo, Tamura, Yamashita, Hajime, 2018; Westman, Gkioulekas, Kaess, 2020b)通过全局网格优化提高了鲁棒性,但由于分辨率-内存 tradeoff 而存在离散化伪影和计算瓶颈。因此,为了克服传统方法的固有局限性,基于深度学习的方法作为有前景的替代方案出现了,主要分为两类:监督学习方法和基于NeRF的方法(Deng, Liu, Zhu, Ramanan, 2022; Gao, Gao, He, Lu, Xu, & Li, Hong, Peng, Xiao, Liu, Zhang, 2022; Pumarola, Corona, Pons-Moll, Moreno-Noguer, 2021; Wang, Wu, Xie, Chen, Prisacariu, 2021b)。
监督学习方法(DeBortoli, Li, Hollinger, 2019; Wang, Ji, Liu, Tsuchiya, Yamashita, Asama, 2021a; Wang, Ji, Tsuchiya, Asama, Yamashita, 2022)通过利用大规模标记的声纳数据集实现了最佳性能(SOTA)。然而,这些方法通常依赖于地面真实标签,而在海洋环境中获取这些标签非常困难。最近,提出了一种使用FLS的无监督密集重建方法NeuSIS(Qadri et al., 2023)。该方法利用神经辐射场,是首个为宽孔径成像声纳定制的基于物理的体积渲染器。NeuSIS具有多个优势,包括在机器人和传感器配置方面的灵活性、无需大型昂贵的标记数据集,以及能够重建高保真度的表面几何形状。然而,NeuSIS面临以下关键挑战:1)使用MLPs(Pinkus, 1999)进行场景表示会导致训练时间变慢,通常需要数小时才能完成重建,并且产生的表面过于平滑,无法捕捉细微的几何细节;2)沿高度弧线的均匀采样效率低下,不仅减慢了训练过程,还影响了重建质量。这些问题严重限制了其实际应用。
为了解决无监督FLS重建中存在的效率和几何细节方面的局限性,我们首先引入了一种显式的体积表示方法,以替代基于MLP的场景表示(图1(a)和dummyTXdummy-(1(b))。我们采用有符号距离函数(SDF)体素网格(Gomes and Faugeras, 2000; Ma et al., 2023; Yamasaki et al., 2010)来表示几何形状,以及特征体素网格来表示外观特征,从而实现更高效和结构化的方法。与缺乏内在空间结构的MLPs不同,体素网格将3D场景划分为离散的立方体单元。这种离散的高分辨率特性使得能够精确捕捉局部几何细节,并显著加速优化过程,从而加快了训练和推理速度。
其次,我们提出了一种沿高度弧线的分层采样策略,以大幅提高采样效率。该策略采用两阶段过程:首先是均匀采样阶段,然后是基于渲染贡献密度的贡献引导采样。这种方法选择性地细化高贡献区域的样本,从而在保持最佳渲染质量的同时提高效率。
最后,为了减轻离散体素网格和复杂声纳成像带来的噪声和表面粗糙度问题,我们引入了一种场景平滑和去噪技术。该技术直接将3D高斯卷积(Burrus and Parks, 1985; Pang et al., 2017; Weisstein, 2003)应用于SDF体素网格,有效提高了重建表面的保真度和质量。
大量实验表明,我们的方法显著优于现有的无监督密集FLS重建技术。值得注意的是,我们的方法在仅10分钟的训练时间内就能达到与现有最佳方法4小时相同的重建质量,同时还能提供更优的最终结果(图1(c))。
主要贡献总结如下:
  • 我们提出了一种针对使用前视声纳的水下物体的高效基于体素的神经隐式表面重建方法。
  • 我们提出了一种沿高度弧线的分层采样策略,结合均匀采样和贡献引导采样,以优化效率和重建质量。
  • 我们提出了一种基于3D高斯卷积的场景平滑和去噪技术,应用于SDF体素网格,有效提高了表面重建质量。
  • 我们展示了显著的性能突破,在仅10分钟的训练时间内就实现了最佳性能,相比现有方法所需的数小时有了显著缩短(图2)。
  • 章节摘录

    使用FLS的传统3D重建技术

    传统的基于FLS的3D重建方法(Huang, Kaess, 2016; Mai, Woo, Ji, Tamura, Yamashita, Asama, 2017; Westman, Hinduja, Kaess, 2018; Yang, Huang, 2017)可以大致分为三类技术路径:带有物理约束的几何驱动方法、基于生成模型的表面估计方法和体积网格优化方法。这些方法旨在解决声纳返回数据中高度角测量的固有不确定性,但每种方法都引入了不同的

    方法

    本节概述了我们的方法框架。第3.1节介绍了前视声纳(FLS)的图像形成模型和问题表述。第3.2节介绍了分层采样策略(HSS),第3.3节介绍了显式体积网格(EVG)表示。第3.4节讨论了有符号距离函数(SDF)高斯卷积(SGC),第3.5节涵盖了体积渲染。最后,第3.6节介绍了损失函数。

    实验设置

    在本节中,我们使用模拟数据集评估了我们方法的性能,实验分为两个主要部分。首先,我们将我们的方法与三种SOTA方法进行比较,这些方法是基于优化的无监督、以对象为中心的FLS 3D重建方法:反向投影(BP)、交替方向乘子法(ADMM)(Westman et al., 2020b)和NeuSIS(Qadri et al., 2023)。BP用于近似逆问题,通常用作非视距(Non-Line-of-Sight)

    结论

    本文提出了一种使用FLS进行密集3D重建的高效基于体素的方法。该方法利用显式体素表示、分层采样策略和SDF高斯卷积来提高重建的准确性和效率。我们用显式体素网格替换MLPs来表示场景几何形状和外观特征。具体来说,SDF体素网格编码几何形状,而特征体素网格捕捉外观细节。分层采样策略

    CRediT作者贡献声明

    邱世吉:撰写——原始草稿、可视化、验证、方法论、研究。
    胡左琪:撰写——审稿与编辑、可视化。
    张天航:撰写——审稿与编辑、监督、研究。
    刘志:撰写——审稿与编辑。
    董俊宇:撰写——审稿与编辑。
    蔡青:撰写——审稿与编辑、监督、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

    致谢

    本工作部分得到了中国国家自然科学基金(Grant 62471448)的支持;部分得到了山东省自然科学基金(Grant ZR2024YQ004)的支持;部分得到了山东省泰山学者青年专家计划(Grant No.tsqn202312109)的支持;部分得到了中国博士后科学基金(Grant 2023M733342)的支持;部分得到了青岛市博士后创新项目(Grant QDBSH20230101001)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号