利用前视声纳(FLS)进行密集3D重建的目的是从声纳图像中准确重建水下物体的三维结构(Ayrulu, Barshan, 2001; Brajard, Jamet, Moulin, Thiria, 2006)。这种方法在许多应用领域具有巨大潜力,包括海洋探索(Leatham, Hood, 1959; van der Merwe, Leen, Lu, Frolov, Baptista, 2007)、沉船打捞(Torpy, 2015, Wilder, 2000, Yiyang, Zhang, Lang, Wang, 2023)、生态监测(Lindenmayer and Likens, 2010)以及海底资源勘探(Calvin et al., 2015)。FLS通过发射声波脉冲并分析反射信号的强度来提供三维结构的2D测量数据(Mildenhall, Srinivasan, Tancik, Barron, Ramamoorthi, Ng, 2021, Yan, Xie, Zou, Wei, Luan, 2025)。尽管声纳系统在方位角和距离测量方面具有较高的精度,但高度角存在固有的不确定性,这意味着在给定距离和方位角下检测到的物体可能位于高度弧线上的任何位置。这种高度信息的根本不确定性使得从声纳数据中进行三维重建变得复杂且具有挑战性。尽管已经提出了许多针对光学相机的3D重建技术(Lin, Chen, Chen, Wang, 2025; Ramanarayanan, Rahul, Fahim, Ram, Venkatesan, Sivaprakasam, 2025; Zeng, Luo, Yu, Yang, Zhao, Wang, 2025; Zeng, Yuan, Wang, Liu, Wang, 2019; Zhang, Jia, Zheng, Yu, Tian, Ma, Huang, Liu, 2020),并且先进的深度学习策略进一步增强了多模态领域中的特征融合和场景表示(Zhou, Dong, Lei, Yu, 2023a; Zhou, Dong, Xu, Qian, 2022; Zhou, Lin, Lei, Yu, Hwang, 2021; Zhou, Sun, Jiang, Cong, Hwang, 2023b; Zhou, Yang, Lei, Wan, Yu, 2023c),但由于FLS和光学相机之间的重建原理不同(Castorena, Kamilov, Boufounos, 2016; Olague, Mohr, 2002; Saeed, Guo, Park, Al-Naffouri, Alouini, 2019; Saha, Ifthekhar, Le, Jang, 2015),这些方法不能直接应用于声纳数据。因此,从图像数据中解决高度不确定性成为准确重建FLS测量结果的三维结构的关键挑战(Li et al., 2025)。目前,已经提出了许多使用前视声纳的3D重建方法,这些方法大致可以分为传统方法和基于深度学习的方法。
传统的基于FLS的3D重建方法主要遵循三种范式:带有运动约束的几何驱动方法、基于特征的生成模型和体积网格优化。基于几何的方法(Teixeira, Kaess, Hover, Leonard, 2016; Westman, Gkioulekas, Kaess, 2020a)通过严格的传感器配置规则或机器人路径规划来减轻高度不确定性,但存在可扩展性和环境适应性方面的问题。生成模型(Aykin, Negahdaripour, 2015; Westman, Kaess, 2019)通过从声波阴影和边缘推断表面来减少物理假设,但仍然容易受到声纳噪声的影响,并且对反射率的先验假设不够可靠。体积框架(Wang, Ji, Woo, Tamura, Yamashita, Hajime, 2018; Westman, Gkioulekas, Kaess, 2020b)通过全局网格优化提高了鲁棒性,但由于分辨率-内存 tradeoff 而存在离散化伪影和计算瓶颈。因此,为了克服传统方法的固有局限性,基于深度学习的方法作为有前景的替代方案出现了,主要分为两类:监督学习方法和基于NeRF的方法(Deng, Liu, Zhu, Ramanan, 2022; Gao, Gao, He, Lu, Xu, & Li, Hong, Peng, Xiao, Liu, Zhang, 2022; Pumarola, Corona, Pons-Moll, Moreno-Noguer, 2021; Wang, Wu, Xie, Chen, Prisacariu, 2021b)。
监督学习方法(DeBortoli, Li, Hollinger, 2019; Wang, Ji, Liu, Tsuchiya, Yamashita, Asama, 2021a; Wang, Ji, Tsuchiya, Asama, Yamashita, 2022)通过利用大规模标记的声纳数据集实现了最佳性能(SOTA)。然而,这些方法通常依赖于地面真实标签,而在海洋环境中获取这些标签非常困难。最近,提出了一种使用FLS的无监督密集重建方法NeuSIS(Qadri et al., 2023)。该方法利用神经辐射场,是首个为宽孔径成像声纳定制的基于物理的体积渲染器。NeuSIS具有多个优势,包括在机器人和传感器配置方面的灵活性、无需大型昂贵的标记数据集,以及能够重建高保真度的表面几何形状。然而,NeuSIS面临以下关键挑战:1)使用MLPs(Pinkus, 1999)进行场景表示会导致训练时间变慢,通常需要数小时才能完成重建,并且产生的表面过于平滑,无法捕捉细微的几何细节;2)沿高度弧线的均匀采样效率低下,不仅减慢了训练过程,还影响了重建质量。这些问题严重限制了其实际应用。
为了解决无监督FLS重建中存在的效率和几何细节方面的局限性,我们首先引入了一种显式的体积表示方法,以替代基于MLP的场景表示(图1(a)和dummyTXdummy-(1(b))。我们采用有符号距离函数(SDF)体素网格(Gomes and Faugeras, 2000; Ma et al., 2023; Yamasaki et al., 2010)来表示几何形状,以及特征体素网格来表示外观特征,从而实现更高效和结构化的方法。与缺乏内在空间结构的MLPs不同,体素网格将3D场景划分为离散的立方体单元。这种离散的高分辨率特性使得能够精确捕捉局部几何细节,并显著加速优化过程,从而加快了训练和推理速度。
其次,我们提出了一种沿高度弧线的分层采样策略,以大幅提高采样效率。该策略采用两阶段过程:首先是均匀采样阶段,然后是基于渲染贡献密度的贡献引导采样。这种方法选择性地细化高贡献区域的样本,从而在保持最佳渲染质量的同时提高效率。
最后,为了减轻离散体素网格和复杂声纳成像带来的噪声和表面粗糙度问题,我们引入了一种场景平滑和去噪技术。该技术直接将3D高斯卷积(Burrus and Parks, 1985; Pang et al., 2017; Weisstein, 2003)应用于SDF体素网格,有效提高了重建表面的保真度和质量。
大量实验表明,我们的方法显著优于现有的无监督密集FLS重建技术。值得注意的是,我们的方法在仅10分钟的训练时间内就能达到与现有最佳方法4小时相同的重建质量,同时还能提供更优的最终结果(图1(c))。
主要贡献总结如下:
我们提出了一种针对使用前视声纳的水下物体的高效基于体素的神经隐式表面重建方法。我们提出了一种沿高度弧线的分层采样策略,结合均匀采样和贡献引导采样,以优化效率和重建质量。我们提出了一种基于3D高斯卷积的场景平滑和去噪技术,应用于SDF体素网格,有效提高了表面重建质量。我们展示了显著的性能突破,在仅10分钟的训练时间内就实现了最佳性能,相比现有方法所需的数小时有了显著缩短(图2)。