一种可在非目标干扰环境下用于水下声学目标检测的可学习前端系统

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ocean Engineering》：A learnable frontend for underwater acoustic target detection under non-target interference

【字体：大中小】 时间：2026年03月05日 来源：Ocean Engineering 5.5

编辑推荐：

　　水下声目标检测中提出可学习声谱前端（LASF），结合自适应Gabor滤波与PCEN压缩优化STFT框架，提升复杂干扰下的检测性能与计算效率。实验在三个不同信干比（-40至49 dB）数据集上验证，检测概率均超90%，显著优于传统固定声谱方法且计算成本低于全学习方案。

卢晨|罗新伟|川口健二|周汉璐|环传明|沈启凡|陈龙

教育部东南大学水下声学信号处理重点实验室，中国南京，210096

摘要

长期以来，固定音频表示方法（如短时傅里叶变换（STFT）和对数梅尔频谱图）一直是水下声学目标检测中的主要特征表示方法。然而，这些手工设计的前端本质上缺乏适应性，当目标信号和非目标船舶信号在复杂的声学环境中重叠时，这一问题尤为突出。为了解决这一限制，我们提出了一种可学习的声学频谱前端（LASF），它在STFT框架内结合了可学习的Gabor滤波器和通道能量归一化（PCEN）压缩技术。在LASF中，滤波器组和PCEN参数与下游检测模型一起进行优化，从而提高了特征的可区分性和对干扰的鲁棒性。基于该前端，构建了一个基于ResNet的检测器，以处理不同水平非目标干扰下的水下声学目标检测。实验结果表明，LASF的性能始终优于固定频谱前端（如对数梅尔频谱图），同时计算成本远低于完全可学习的方法（如LEAF）。值得注意的是，所提出的方法在信噪比（SIR）范围为?40至49 dB、?46至26 dB和?43至48 dB的三个数据集中，检测概率均超过了90%。

引言

水下声学目标检测是声纳系统的基本功能，支持诸如目标定位（Li等人，2023年；Moreno-Salinas等人，2011年）、识别（Xie等人，2024年）和跟踪（Isbitiren和Akan，2011年；Yang等人，2025年）等关键任务。然而，在实际应用中，水下声学环境非常复杂，通常受到多种非目标干扰源的支配，包括环境噪声、海洋哺乳动物的叫声以及船舶辐射的噪声。其中，来自其他类型船舶的干扰（其声学特性与目标船舶相似）构成了严重挑战，经常导致误报并降低检测可靠性。

几十年来，传统方法（如匹配场处理（Baggeroer等人，1993年；Bucker，1976年）、Neyman–Pearson和贝叶斯检测器（Guo等人，2025年；Sha和Nolte，2005年；Tucker和Azimi-Sadjadi，2011年）以及基于子空间的技术一直是水下目标检测的主要手段。虽然在受控条件下有效，但它们的性能高度依赖于精确的环境建模和对噪声特性的先验知识。然而，在现实世界中变化的水下环境中，这些假设往往不成立。此外，对人工设计的声音特征的依赖限制了它们模拟目标信号和非目标信号之间复杂非线性关系的能力。因此，与现代基于深度学习的检测系统相比，这些方法的鲁棒性和泛化能力通常较低（Khan等人，2024年；Liu等人，2025年）。

因此，本研究致力于开发一种在各种非目标干扰强度下具有鲁棒性的基于深度学习的水下声学目标检测系统。在本研究中，非目标信号指的是来自目标船舶以外的船舶的辐射噪声。用于检测的数据包括单通道船舶辐射记录，其中可能包含纯非目标信号或目标与非目标干扰的混合信号。目标是在信噪比（SIR）未知的情况下，仅依靠单通道输入来识别包含目标的信号。

在这种具有挑战性的条件下检测目标需要有效的特征表示。目前，传统的和基于深度学习的水下声学目标检测方法通常依赖于固定的时频表示方法，如短时傅里叶变换（STFT）（Zhou等人，2024年）、对数梅尔频谱图（Zhang等人，2024年）或梅尔频率倒谱系数（MFCCs）（Guo等人，2022年）。这些手工设计的前端缺乏对多样化水下声学环境的适应性，导致在非目标干扰下的鲁棒性下降。即使基于深度学习的检测器表现出有希望的性能，也仍然受到固定频谱前端限制的约束。

最近，可学习的前端（包括TD_filterbanks（Zeghidour等人，2018年）、SincNet（Ravanelli和Bengio，2018年）和LEAF（可学习音频前端）（Zeghidour等人，2021年）作为固定特征提取器的有效替代方案出现。这些架构通过任务驱动的滤波器优化实现了性能提升。一个关键优势是它们对动态现实世界声学条件的适应性更强。然而，由于它们直接处理原始波形，这些前端通常比传统的频谱表示方法产生更高的计算成本。这种权衡促使人们寻找一种在保持计算效率的同时实现强检测性能的平衡解决方案。

在这项工作中，我们提出了一种用于在非目标干扰下进行鲁棒水下声学目标检测的可学习声学频谱前端（LASF）。LASF保留了STFT前端，而不是直接处理原始波形。它结合了可学习的Gabor滤波器（Noé等人，2020年）。这种设计使得可以自适应地强调或抑制不同的频率带。此外，受到LEAF的启发，我们用可学习的通道能量归一化（PCEN）（Wang等人，2017年）替换了固定的对数压缩，使表示更好地适应不同的干扰条件。此外，我们开发了一个基于ResNet的水下声学目标检测模型，其中所有参数以端到端的方式共同优化。LASF在检测性能上优于STFT和对数梅尔频谱图等固定前端。同时，与完全可学习的LEAF相比，它显著降低了计算成本并提高了效率。

在三个数据集上进行的实验表明，LASF的有效性得到了验证，这些数据集的信噪比范围分别为?40至49 dB、?46至26 dB和?43至48 dB，数据集来自ShipsEar（Santos-Domínguez等人，2016年）和DeepShip（Irfan，2021年）语料库。与传统固定特征提取方法相比，LASF在几乎不增加推理成本的情况下实现了更优的检测性能。此外，与完全端到端可学习的前端（如LEAF）不同，LASF在保持高检测准确性的同时大幅降低了计算开销。

与对数梅尔频谱图基线相比，LASF在三个数据集中的误报率（FAR）分别降低了5.96、2.11和1.97个百分点。三个数据集的检测概率均超过了90%。此外，即使在信噪比低于?20 dB的情况下，LASF也保持了稳定的高检测概率，证实了其在强干扰条件下的鲁棒性。

本研究的主要贡献总结如下：

(1)

我们提出了LASF，一种具有自适应频率过滤和基于PCEN压缩的可学习声学频谱前端。

(2)

我们开发了一个在广泛信噪比范围内对非目标干扰具有鲁棒性的深度学习框架用于水下声学目标检测。

(3)

在三个水下声学目标检测数据集上的实验结果表明，我们的方法在几乎不增加计算开销的情况下实现了更优的检测性能。

本文的其余部分结构如下。第2节回顾了水下声学目标检测和可学习前端的相关研究。第3节详细介绍了所提出的LASF和目标检测架构。第4节概述了实验设置并提供了结果的全面分析。第5节总结了这项工作。

章节片段

水下声学目标检测方法

传统的水下声学目标检测方法主要依赖于信号处理技术，如能量检测（Yin等人，2023年）、匹配滤波（Deng等人，2023年）和波束成形（Pan等人，2018年），这些技术根据时间或频率域中的统计特征来确定目标的存在和类型（Abraham，2019年）。例如，Yin等人（2023年）通过应用子带峰值能量检测和块匹配来增强弱目标的检测

方法论

本研究将提出的方法分为三个主要阶段：（i）构建水下声学目标检测数据集；（ii）特征提取；以及（iii）基于ResNet模型的目标检测。所提出方法的总体框架如图1所示。

数据集和实验设置

所提出的方法使用了三个非目标干扰目标检测数据集进行评估，这些数据集来自ShipsEar（Santos-Domínguez等人，2016年）和DeepShip（Irfan，2021年）语料库。这两个语料库中的所有音频记录都被重采样到32 kHz，并分割成5秒的片段。预处理后每个类别的样本数量总结在表2中。

三个非目标干扰目标检测数据集的构建如下：

数据集A：基于ShipsEar数据集。

局限性和未来工作

尽管提出的可学习声学频谱前端（LASF）表现出有希望的性能，但本研究仍存在一些需要承认的显著局限性。首先，当前的实验仅限于三个特定的数据集。尽管这些数据集涵盖了广泛的信噪比（SIR）条件，但LASF对其他实际水下声学场景（如浅水区域、极地海洋区域或具有强烈脉冲噪声的环境）的通用性仍有待验证

结论

在这项工作中，我们介绍了LASF，这是一种为鲁棒水下声学目标检测设计的学习型声学频谱前端。通过在STFT框架内集成自适应Gabor滤波和基于PCEN的压缩，LASF提高了对非静态水下声学条件的适应性，同时保持了高计算效率。在三个具有不同数据规模和信噪比范围的数据集上的广泛评估表明，LASF始终优于传统的固定方法

CRediT作者贡献声明

卢晨：写作 – 审稿与编辑，撰写 – 原始草稿，可视化，验证，软件，项目管理，方法论，研究，资金获取，正式分析，数据管理，概念化。罗新伟：写作 – 审稿与编辑，监督，资源，项目管理，资金获取。川口健二：监督，资源，方法论，概念化。周汉璐：写作 – 审稿与编辑，可视化，验证，正式分析。

利益冲突声明

我们声明与可能不恰当地影响我们工作的其他个人或组织没有财务和个人关系，并且对任何产品、服务或公司没有专业或其他形式的个人利益，这些利益可能会影响本文中呈现的观点或对题为“在非目标干扰下的可学习前端用于水下声学目标检测”的手稿的评审。

致谢

本工作得到了国家自然科学基金（项目编号12174053）、中央高校基本科研业务费（编号2242025F20003）和中国 Scholarship Council（编号202406090084）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号