水下声学目标检测是声纳系统的基本功能,支持诸如目标定位(Li等人,2023年;Moreno-Salinas等人,2011年)、识别(Xie等人,2024年)和跟踪(Isbitiren和Akan,2011年;Yang等人,2025年)等关键任务。然而,在实际应用中,水下声学环境非常复杂,通常受到多种非目标干扰源的支配,包括环境噪声、海洋哺乳动物的叫声以及船舶辐射的噪声。其中,来自其他类型船舶的干扰(其声学特性与目标船舶相似)构成了严重挑战,经常导致误报并降低检测可靠性。
几十年来,传统方法(如匹配场处理(Baggeroer等人,1993年;Bucker,1976年)、Neyman–Pearson和贝叶斯检测器(Guo等人,2025年;Sha和Nolte,2005年;Tucker和Azimi-Sadjadi,2011年)以及基于子空间的技术一直是水下目标检测的主要手段。虽然在受控条件下有效,但它们的性能高度依赖于精确的环境建模和对噪声特性的先验知识。然而,在现实世界中变化的水下环境中,这些假设往往不成立。此外,对人工设计的声音特征的依赖限制了它们模拟目标信号和非目标信号之间复杂非线性关系的能力。因此,与现代基于深度学习的检测系统相比,这些方法的鲁棒性和泛化能力通常较低(Khan等人,2024年;Liu等人,2025年)。
因此,本研究致力于开发一种在各种非目标干扰强度下具有鲁棒性的基于深度学习的水下声学目标检测系统。在本研究中,非目标信号指的是来自目标船舶以外的船舶的辐射噪声。用于检测的数据包括单通道船舶辐射记录,其中可能包含纯非目标信号或目标与非目标干扰的混合信号。目标是在信噪比(SIR)未知的情况下,仅依靠单通道输入来识别包含目标的信号。
在这种具有挑战性的条件下检测目标需要有效的特征表示。目前,传统的和基于深度学习的水下声学目标检测方法通常依赖于固定的时频表示方法,如短时傅里叶变换(STFT)(Zhou等人,2024年)、对数梅尔频谱图(Zhang等人,2024年)或梅尔频率倒谱系数(MFCCs)(Guo等人,2022年)。这些手工设计的前端缺乏对多样化水下声学环境的适应性,导致在非目标干扰下的鲁棒性下降。即使基于深度学习的检测器表现出有希望的性能,也仍然受到固定频谱前端限制的约束。
最近,可学习的前端(包括TD_filterbanks(Zeghidour等人,2018年)、SincNet(Ravanelli和Bengio,2018年)和LEAF(可学习音频前端)(Zeghidour等人,2021年)作为固定特征提取器的有效替代方案出现。这些架构通过任务驱动的滤波器优化实现了性能提升。一个关键优势是它们对动态现实世界声学条件的适应性更强。然而,由于它们直接处理原始波形,这些前端通常比传统的频谱表示方法产生更高的计算成本。这种权衡促使人们寻找一种在保持计算效率的同时实现强检测性能的平衡解决方案。
在这项工作中,我们提出了一种用于在非目标干扰下进行鲁棒水下声学目标检测的可学习声学频谱前端(LASF)。LASF保留了STFT前端,而不是直接处理原始波形。它结合了可学习的Gabor滤波器(Noé等人,2020年)。这种设计使得可以自适应地强调或抑制不同的频率带。此外,受到LEAF的启发,我们用可学习的通道能量归一化(PCEN)(Wang等人,2017年)替换了固定的对数压缩,使表示更好地适应不同的干扰条件。此外,我们开发了一个基于ResNet的水下声学目标检测模型,其中所有参数以端到端的方式共同优化。LASF在检测性能上优于STFT和对数梅尔频谱图等固定前端。同时,与完全可学习的LEAF相比,它显著降低了计算成本并提高了效率。
在三个数据集上进行的实验表明,LASF的有效性得到了验证,这些数据集的信噪比范围分别为?40至49 dB、?46至26 dB和?43至48 dB,数据集来自ShipsEar(Santos-Domínguez等人,2016年)和DeepShip(Irfan,2021年)语料库。与传统固定特征提取方法相比,LASF在几乎不增加推理成本的情况下实现了更优的检测性能。此外,与完全端到端可学习的前端(如LEAF)不同,LASF在保持高检测准确性的同时大幅降低了计算开销。
与对数梅尔频谱图基线相比,LASF在三个数据集中的误报率(FAR)分别降低了5.96、2.11和1.97个百分点。三个数据集的检测概率均超过了90%。此外,即使在信噪比低于?20 dB的情况下,LASF也保持了稳定的高检测概率,证实了其在强干扰条件下的鲁棒性。
本研究的主要贡献总结如下:
(1)我们提出了LASF,一种具有自适应频率过滤和基于PCEN压缩的可学习声学频谱前端。
(2)我们开发了一个在广泛信噪比范围内对非目标干扰具有鲁棒性的深度学习框架用于水下声学目标检测。
(3)在三个水下声学目标检测数据集上的实验结果表明,我们的方法在几乎不增加计算开销的情况下实现了更优的检测性能。
本文的其余部分结构如下。第2节回顾了水下声学目标检测和可学习前端的相关研究。第3节详细介绍了所提出的LASF和目标检测架构。第4节概述了实验设置并提供了结果的全面分析。第5节总结了这项工作。