通过流场匹配实现时变船舶辐射噪声的生成

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

通过流场匹配实现时变船舶辐射噪声的生成

【字体：大中小】 时间：2026年03月13日 来源：Ocean Engineering 5.5

编辑推荐：

　　船舶辐射噪声生成与评估方法研究，提出基于流匹配的连续潜在空间生成框架，通过LOFAR谱特征和DEMON机械调制模式引导，结合参考音频条件，实现时间非平稳噪声的高效合成（16次函数评估）。创新性评估策略采用1-Wasserstein距离量化长期频谱分布演变，实验表明该方法在DeepShip数据集上生成的噪声在时频域均与真实信号高度匹配，有效支撑水下声学数据增强应用。

中国科学院声学研究所语音与智能信息处理实验室

摘要

船舶辐射噪声的生成技术在性能上取得了显著进步，尤其是随着神经网络模型的出现。以往大多数方法依赖于模拟船舶部件的物理振动来生成船舶辐射噪声，这些振动通常被认为在船舶类型和运行条件下是稳定的。然而，现实世界中的船舶发出的噪声具有固有的时间非平稳性，即使在不变的运行条件下也会随时间动态变化。这种时变特性的建模和评估在很大程度上尚未得到探索。为了填补这一空白，本文提出了三个关键贡献。首先，提出了一种基于流匹配的生成模型，通过学习连续潜在空间中的平滑概率轨迹来合成时变船舶辐射噪声。与传统基于物理的方法不同，该方法仅使用参考音频片段以及LOFAR和DEMON提示来生成真实的声波信号。其次，引入了一种评估策略，通过比较真实信号和生成信号之间的低频特征分布演变来衡量长期时间波动。最后，在DeepShip数据集上的实验表明，仅需16次函数评估，该方法就能合成感知上真实的船舶辐射噪声，并且与真实世界记录的时变特性非常吻合。

引言

船舶辐射噪声（SRN）是各种水下声学应用（包括目标识别、故障诊断和声学模拟推断）的关键基础（Xie等人，2022a）。这些数据驱动系统的性能在很大程度上依赖于多样化和高质量的SRN数据集用于训练和增强。然而，收集真实世界的船舶噪声既耗时又资源密集，这凸显了高保真SRN模拟的重要研究价值（Feng等人，2023；Luo和Yang，2011；Xie等人，2023）。

历史上，SRN合成从简化的参数建模发展到复杂的物理模拟（Yan等人，2021）。早期的传统方法，如在AQUO项目（Audoly等人，2017）和Jalkanen等人（2018）中开发的方法，将SRN建模为机械噪声、螺旋桨噪声和空化噪声组件的组合。虽然这些半经验函数基于船舶长度和速度等参数提供了物理可解释性，但它们依赖于理想化的假设，无法捕捉实际声学环境的随机性。为了弥合这一差距，采用了更复杂的数值方法，例如Li等人（2018）提出的混合CFD方法，来模拟细粒度的声学类比。然而，一个根本的局限性仍然存在：这些物理和数值模型主要针对稳态条件设计。这导致在捕捉真实世界信号的固有时变动态和频谱非平稳性方面存在持续的保真度差距。

这一局限性至关重要，因为即使在名义上恒定的运行条件下，由于机械负荷、推进力和流动相互作用以及环境扰动，真实的SRN本质上是时变的（Yang等人，2016）。从概念上讲，时变特性不应与观察到的信号的静态、实例级复制混淆。相反，它们被定义为捕捉控制船舶辐射噪声的潜在分布流形上的连续随机演变。这种时变行为不仅体现在低频线谱特征的分布一致性上，还明确体现在功率谱密度（PSD）在长时间内的时间波动模式中。一些研究尝试引入动态调整，例如通过模拟船舶经过接收器时的时变传输损失（ZHENG等人，2020），但建模的源信号通常是静态的，因此无法再现辐射噪声本身的内在非平稳性。

随着神经网络的快速发展，数据驱动的方法越来越多地被用于SRN合成，以克服显式物理建模的局限性。例如NoiseNet（Wang等人，2021）模型专注于预测特定的音调成分，但其监督信号通常来自静态数值模拟，因此继承了传统方法的稳态假设。其他基于学习的增强方法已被提出，用于从真实数据生成合成SRN。例如，一些方法依赖于在固定长度的频谱图段上操作的卷积架构（Xie等人，2023），这强调了局部频谱的真实性，但隐含地假设了段之间的弱时间依赖性。最近的工作探索了自回归生成策略（Qiu等人，2024）以引入时间连续性；然而，这些模型通常仅基于有限数量的最近帧进行条件化。因此，难以维持长期的时间依赖性和全局统计一致性，使得生成过程在长时间内容易不稳定和崩溃。更根本的是，这些方法主要受确定性频谱重建目标的指导，而不是明确建模控制声学演变的潜在概率分布。因此，虽然可以合成真实的瞬时谱，但真实世界SRN中观察到的连续随机演变和长期非平稳性仍然未能得到充分捕捉。

为了解决这些挑战，本文提出了一种基于连续潜在空间中流匹配的时变SRN生成框架（Lipman等人，2022）。核心动机是将生成机制与真实声学过程的连续演变对齐。流匹配学习了一个时变速度场，将样本从简单的先验分布沿着平滑的概率路径传输到复杂的目标分布。通过明确建模连续的概率传输，所提出的方法非常适合生成保持时间概率依赖性的潜在轨迹，并实现连贯的非平稳演变，特别适用于模拟船舶辐射噪声的时变特性。此外，该模型基于两个具有物理意义的提示进行条件化：一个来自LOFAR分析的低频谱提示，表示为捕捉主导音调成分及其随时间分布演变的低频谱的时间序列；以及一个编码机械调制模式的DEMON提示。模型进一步利用参考SRN片段作为上下文信息，而LOFAR和DEMON特征作为显式条件，从而实现可控和时间一致的生成。

与其他生成范式相比，所提出的方法在稳定性和适合模拟时变SRN方面具有明显优势。生成对抗网络（GANs）依赖于生成器和判别器之间的对抗训练，其中学习信号由分类目标而非连续概率演变隐式定义（Barsha和Eberle，2025）。因此，基于GAN的模型往往难以维持全局统计一致性和时间连续性，并且在模拟长时间、非平稳的声学信号时容易不稳定或模式崩溃。相比之下，传统的扩散模型（如DDPM）将生成过程表述为预定义噪声扩散的随机逆过程，样本通过一系列马尔可夫转换逐步去噪（Ho等人，2020）。尽管该框架可以产生高质量的瞬时谱，但逆过程受局部定义的去噪目标的随机SDE控制，这并不明确限制样本随时间遵循连贯和连续的概率轨迹。此外，依赖于数百次迭代去噪步骤导致采样路径高度间接，使得在长时间信号生成中难以维持全局时间一致性。流匹配通过学习一个确定性的时变速度场并通过ODE公式生成样本，直接模拟了沿着平滑和连续轨迹的概率传输。这导致了一个更直接的生成路径，函数评估次数显著减少，特别适用于模拟船舶辐射噪声中固有的连续时间演变和非平稳特性。

本文的主要贡献总结如下：（1）提出了一种两阶段生成框架，其中基于流匹配的声学模型根据LOFAR和DEMON提示生成连续的潜在表示，然后通过专用神经解码器进行高保真波形合成（Lipman等人，2022）。（2）引入了一种新的评估策略来量化长期时间保真度。通过测量真实信号和生成信号之间的LOFAR分布的1-Wasserstein距离（WD-LOFAR），严格评估了模型捕捉频域非平稳性的能力。（3）所提出的方法在DeepShip数据集上展示了卓越的性能和推理效率。实验结果表明，仅需16次函数评估（NFE），模型就能合成感知上和结构上真实的SRN，与真实世界记录的时变特性非常吻合。

部分摘录

方法

如图2所示，所提出的框架使用神经音频自动编码器获得船舶辐射噪声的紧凑潜在表示，并构建了一个基于流匹配的生成模型，根据给定的LOFAR和DEMON提示合成新的潜在表示。然后通过自动编码器的解码器将生成的潜在表示转换回波形。在本节中，首先在第2.1节描述了LOFAR和DEMON特征的提取。

实验

实验中考虑了三个主要问题：1）生成的噪声在时域和频域是否与真实噪声相似？2）生成信号是否会被识别模型识别为同一艘船，就像参考SRN一样？3）生成的SRN能否作为有效的数据增强源来提高水下声学目标识别模型的性能？

基础分析

首先进行了一个基本的生成实验，以评估模型使用10秒参考信号作为条件输入来合成10秒SRN片段的能力。为了更好地说明模型的生成行为，在推理过程中LOFAR提示被设置为与从参考片段中提取的特征相同。实验是在DeepShip中的四种船舶类型（货船、客船、油轮、拖船）上进行的。对于每个类别，采用了相同的预处理步骤和生成

讨论

局限性。所提出的基于流匹配的框架展示了高效和高保真的船舶辐射噪声生成，但仍存在几个局限性。首先，尽管与基于扩散的方法相比，推理成本显著降低，但它仍然相当高：16次函数评估和每次步骤的成本为11.5 GFLOPs，总计算需求达到每单位时间184 GFLOPs。这可能限制了在操作场景中的实时部署或长时间

结论

本文提出了一种基于连续潜在空间中流匹配的时变船舶辐射噪声生成的新框架。通过利用神经音频自动编码器并将生成过程条件化为LOFAR和DEMON提示，该模型能够合成保留全局频谱结构和细粒度时间波动的真实SRN，而无需依赖详细的物理参数。进一步引入了一种评估策略

CRediT作者贡献声明

Biao Liu：撰写——原始草稿、可视化、软件、方法论、概念化。Xuyuan Li：撰写——审阅与编辑、监督、调查。Zengqiang Shang：撰写——审阅与编辑、监督。Shuli Chen：调查、形式分析。Li Wang：监督、调查。Zhengkun Liu：验证、数据管理。Pengyuan Zhang：撰写——审阅与编辑、监督、资源。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。作为潜在的竞争性利益：Zengqiang Shang报告称获得了中国国家自然科学基金的支持。Zengqiang Shang报告称获得了中国博士后科学基金的支持。如果有其他作者，他们也声明没有已知的竞争性财务

致谢

本研究得到了CPSF博士后奖学金（编号GZB20230811）和中国国家自然科学基金（编号12504548）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

方法

实验

基础分析

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行