《IEEE Open Journal of Signal Processing》:A Fully Complex-Valued Underwater Acoustic Signal Enhancement Model for Passive Sonar Systems
编辑推荐:
针对被动声呐系统在极低信噪比(SNR)条件下目标信号弱、海洋环境复杂导致的增强难题,研究人员提出全复值U-Net多维注意力网络(CUMA-Net),通过复数域编码器-解码器联合建模幅度与相位信息,结合复数时频Conformer与卷积块注意力模块(CCBAM)捕获线谱结构,采用归一化均方误差(nMSE)损失函数指导训练。实验表明,该方法在 ShipsEar 数据集上显著优于现有方法,增强后信号使船舶识别准确率从76.6%提升至93.3%,为水下目标探测与识别提供了高质量的前端信号处理方案。
在深邃神秘的海洋世界中,声音是水下探测最主要的"眼睛"。与电磁波相比,声波在水中衰减更小、传播距离更远,成为水下通信和目标探测的首选载体。然而,这片蓝色疆域并非寂静之地——风浪拍击、雨水倾泻、洋流涌动,还有海洋生物的鸣叫,共同编织成复杂的"海底交响乐"。对于被动声呐系统而言,这些声音不是美妙的音乐,而是无处不在的干扰。被动声呐依靠静默接收目标船舶辐射的噪声来探测和识别目标,具有隐蔽性好、能耗低的独特优势,但代价是接收到的目标信号往往极其微弱,信噪比(SNR)常常低至-15dB以下,目标信号几乎完全被环境噪声淹没。
传统的信号增强方法在这一挑战面前显得力不从心。基于统计特性的谱减法(Spectral Subtraction)和维纳滤波(Wiener Filtering)虽然理论基础扎实,但容易造成信号失真,且对复杂噪声环境适应性差。经验模态分解(EMD)和小波变换等分解类方法则面临模态混叠、计算开销大、阈值选择困难等问题。更棘手的是,这些方法在极低信噪比条件下性能急剧下降,而恰好在这样的条件下,目标信号中的线谱(Line Spectrum)——那些由船舶机械和螺旋桨产生的稳定窄带频率成分——对于目标识别至关重要。如何在去除噪声的同时,高保真地保留这些微弱的线谱信息,成为困扰该领域多年的技术瓶颈。
近年来,深度神经网络(DNN)在语音增强领域展现出强大潜力,为水下声学信号(UWAS)增强带来了新希望。然而,直接将语音增强方法迁移到水下场景面临诸多挑战:水下目标信号以线谱为主,与语音信号的宽带特性截然不同;被动声呐接收的信号相位信息对目标识别同样重要,但现有方法多采用实值网络,将复数频谱的实部和虚部作为两个独立通道处理,破坏了幅度与相位的内在耦合关系;此外,极低信噪比条件下的训练稳定性也是亟待解决的问题。
正是在这样的背景下,来自University of Science and Technology of China的Zhengzhe Zhang、Jie Zhang、Haoyin Yan,以及iFlytek Research的Hengshuang Liu和Junhua Liu在《IEEE Open Journal of Signal Processing》发表了题为"A Fully Complex-Valued Underwater Acoustic Signal Enhancement Model for Passive Sonar Systems"的研究论文。他们提出了一种名为CUMA-Net(Complex-valued U-Net based Multidimensional Attention Network)的全复值水下声学信号增强模型,首次实现了被动声呐信号增强任务中的全复数域操作,通过幅度相位的联合建模和多维注意力机制,在极低信噪比条件下实现了高质量的线谱恢复。
研究团队采用的核心技术方法包括:(1)全复值编码器-解码器架构:基于深度复值U-Net(DCUNet)扩展的六层对称结构,所有卷积、归一化和激活操作均在复数域进行,通过实部虚部分解策略保持复数代数结构;(2)复数多维注意力模块(CMA):包含复数时频Conformer(CTF Conformer)和复数卷积块注意力模块(CCBAM),前者沿时间和频率轴分别进行复数自注意力计算以捕获全局依赖,后者通过通道和空间注意力选择性增强线谱区域;(3)复数注意力门控跳跃连接:在编码器和解码器之间引入自适应特征重加权机制;(4)归一化均方误差(nMSE)损失函数:针对频谱映射任务设计,通过 clean 频谱能量归一化提高训练稳定性,直接约束频谱估计误差;(5)实验验证:基于 ShipsEar 公开数据集构建合成数据,信噪比范围-15dB至-5dB,采用512点短时傅里叶变换(STFT)提取时频谱。
研究结果部分,作者通过系统的消融实验和对比分析,验证了各模块的有效性及整体性能优势:
模块消融研究表明,仅使用复值编码器-解码器基础架构(w/o Attn)即可将SI-SNR提升10dB以上,船舶识别准确率从76.6%提升至93.2%,证明了复值架构和多尺度特征提取的有效性。引入CCBAM后,nMSE降低0.034,SI-SNR提升0.686dB,但识别准确率略有下降;而引入CTF Conformer则同时改善增强和识别性能。两者结合后,CUMA-Net相比基础架构进一步将SI-SNR提升0.825dB,nMSE降低0.042,准确率达到93.3%,体现了模块间的互补性。与实值对照组相比,CUMA-Net在参数量和计算量(MACs)增加约一倍的情况下,各项增强指标提升约1dB,nMSE降低近0.1,验证了全复值架构的性能-复杂度权衡优势。
损失函数评估显示,直接使用SI-SNR损失导致幅度重建严重失准,nMSE高达12.339;而提出的nMSE损失在所有指标上均表现最优,SDRi达13.847dB,SI-SNRi达11.038dB,SegSNR达3.762dB,且 surprisingly 在SI-SNRi指标上也优于直接优化SI-SNR损失的结果。加权损失实验表明,赋予nMSE更大权重(α=0.25)可稳步提升所有指标,证实了频谱级约束对水下信号增强的关键作用。
频率分辨率探索揭示了增强性能与识别准确率之间的有趣权衡:512点STFT(频率分辨率31.25Hz)获得最佳增强指标,而48000点STFT(频率分辨率0.33Hz)虽使识别准确率提升至96.8%,却导致所有增强指标显著下降。这一现象源于STFT时频分辨率的固有折衷,高频率分辨率意味着低时间分辨率,不利于波形重建;而识别任务更依赖精细的频域特征。这一发现对实际系统设计具有重要指导意义。
与现有方法对比中,CUMA-Net全面超越传统方法(EMD、小波变换)和深度学习方法(DCCRN、DBSA-Net、NAFSA-Net)。相比最优基线,SDR提升2.911dB,SI-SNR提升2.354dB,SegSNR提升3.002dB,识别准确率与最优的NAFSA-Net相当(93.3% vs 93.7%)。可视化分析显示,基线方法存在过度抑制问题,在低频带和高能脉冲区域错误消除目标信号,而CUMA-Net能精确重建线谱的数量和幅度,即使对于频率接近(1156.25Hz和1218.75Hz)的相邻线谱也能清晰分辨。
研究结论与讨论部分强调,CUMA-Net通过全复值操作实现了幅度相位的真正联合建模,克服了实值"伪复数"设计的结构局限;多维注意力机制有效捕获了线谱的时空特征;nMSE损失为极低信噪比条件下的频谱重建提供了稳定的优化目标。该研究不仅推动了被动声呐信号增强技术的发展,更揭示了前端增强与后端识别任务之间的复杂关系——信号质量的提升并不必然转化为识别性能的改善,这一发现为未来的联合优化策略指明了方向。论文所提出的方法论框架对于其他需要精确复数信号重建的领域同样具有借鉴价值。