对比学习用于被动声学监测：一种用于海洋声景中声源发现与跨站点比较的框架

《PLOS Computational Biology》：Contrastive learning for passive acoustic monitoring: A framework for sound source discovery and cross-site comparison in marine soundscapes

【字体：大中小】 时间：2026年03月07日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　本文介绍了一种用于海洋被动声学监测（PAM）的无监督对比学习框架。该框架（PAM-SimCLR）通过引入针对海洋声学特性优化的多视图增强、教师引导的多正例对比目标及稳定性正则化，能够在无人工标注的情况下，从嘈杂、信号重叠的加勒比海产卵场大规模录音中，学习稳健的声学表征。实验表明，相比传统特征（MFCC/GTCC）、变分自编码器（VAE）和有监督方法，该框架产生的嵌入支持更紧凑、稳定的无监督聚类，并能发现跨站点可复现的声学模式（包括鱼类叫声、合唱及船舶噪声等），为可扩展、探索驱动的海洋声景分析提供了有效工具。

材料与方法

实验概述：研究评估了从多站点被动声学监测（PAM）录音中提取声学表征的框架。所有实验遵循通用流程：原始录音经过预处理，分割为短时间窗口，并通过下文详述的特征提取或表征学习方法转换为声学嵌入。随后对这些嵌入进行聚类，并使用互补的定量和定性指标进行评估。首先描述了基线方法，随后介绍了本研究提出的针对PAM的自监督对比学习框架。

数据集与预处理：研究汇编了一个多站点数据集，包含2017年至2024年间在加勒比海地区七个产卵场点收集的水下声学录音。这些站点分布于墨西哥沿海水域、波多黎各西部的莫纳海峡以及美属维尔京群岛。录音器被编程为在3-6个月期间内，以五分钟间隔记录20秒的音频片段。每个点位的主导物种通过专家审核和使用鱼类声学检测研究算法（FADAR）的自动分类进行识别。FADAR应用于所有录音，为2秒片段生成六个类别的软标签预测：（1）红鲷，（2）黑石斑鱼，（3）黄鳍石斑鱼，（4）拿骚石斑鱼，（5）松鼠鱼，以及（6）船舶/其他声音。被分类为“噪声”的片段被排除。最终数据集包含413,272个带标签的片段，在所有站点和年份间平衡分布。研究提供了每个类别的示例谱图。

在预处理中，所有录音从原始的44.1 kHz下采样至10 kHz，以在保留鱼类叫声和船舶噪声相关频率范围（0-5 kHz）的同时减少存储和计算量。每个20秒片段被分割成不重叠的2秒窗口。对于深度学习方法，每个波形使用短时傅里叶变换（STFT）、投影到128个MEL间隔频率区间、对数压缩以及归一化，转换为对数MEL谱图。为防止数据泄露，在分割前在原始20秒录音级别进行了80/20的训练/测试集划分。

特征提取方法：为评估表征选择对聚类性能的影响，研究比较了经典声学特征、生成模型和对比学习变体与提出的PAM-SimCLR框架。经典特征包括梅尔频率倒谱系数（MFCCs，13个系数）和伽马通倒谱系数（GTCCs，80个系数），并将两者拼接，因为初步测试显示其性能优于单独使用。此外还生成了对数MEL谱图（64频带）并应用主成分分析（PCA），保留前100个成分。生成模型基线是在对数MEL谱图上训练变分自编码器（VAE），并使用高斯混合模型（GMM）对嵌入进行聚类。

对比学习方法：研究提出了一个基于SimCLR、针对PAM数据挑战（重复但非相同的声学事件、重叠声源、低信噪比、稀疏或不完美的标签）进行领域适应的对比学习框架。该框架引入了三个主要组件：（i）多尺度事件中心视图，以捕获粗略的叫声上下文和精细的时-频细节；（ii）教师引导的多正例对比目标，允许将声学相似但非相同的事件视为正例；（iii）辅助正则化项，以稳定训练并防止表征坍塌。每个音频片段被渲染成多分辨率对数MEL谱图，作为对比框架的输入。事件中心裁剪生成全局和局部视图，并通过一系列反映珊瑚礁噪声条件的操作（时/频掩码、频谱陷波、时间偏移、截断、高斯噪声）进行增强。

教师引导的多正例对比学习旨在解决标准SimCLR中将不同但相似的叫声类型视为负例导致生物有意义结构碎片化的问题。该公式允许模型将多个声学相似的叫声视为有效正例，同时从批次和先进先出特征库中保留信息丰富的负例。此外，使用两个局部视图通过辅助目标来促进稳定性和不变性。整体训练目标是这些组分的加权组合。研究还实现了半监督变体，将FADAR提供的标签纳入对比损失，以及作为监督上限的、使用有监督对比（SupCon）损失训练的ResNet-18编码器。作为基线，还使用了具有相同预处理但无PAM特定增强的普通SimCLR模型。

聚类：对每种特征提取方法，研究使用六种算法对聚类性能进行了基准测试，这些算法涵盖不同范式：基于质心的（K-Means, GMM）、层次的（Agglomerative）、基于图的（Spectral）和基于密度的（DBSCAN, HDBSCAN）。需要固定聚类数量的方法被设定为k=6，以匹配六个FADAR标签，而基于密度的方法则从邻域和密度标准自适应推断结构。

评估设计与指标：使用三种互补的评估策略来评估不同特征提取方法的质量：（a）无监督聚类与已知生态类别（FADAR标签）的匹配程度；（b）独立于标签的聚类内在质量，关注其紧密度和分离度；（c）该框架能否揭示跨地理区域的可复现声学特征。实验1（标签一致性）使用调整兰德指数（ARI）、调整互信息（AMI）和匈牙利准确度。实验2（无监督聚类质量）在固定k=60下应用轮廓系数、戴维森-堡丁指数（DBI）和卡林斯基-哈拉巴斯指数（CH）评分。实验3（声学模式发现）评估框架是否能发现跨站点的可复现声学特征。

结果

在标准声学基准上的验证：在应用于海洋PAM之前，研究首先在两个广泛使用的、标签丰富的数据集（BirdSet-NES和UrbanSound8K）上验证了PAM-SimCLR编码器。在这些受控、高信噪比环境下，PAM-SimCLR编码器在轮廓系数、DBI和CH评分上均大幅优于MFCC+K-means基线，证实了学习表征在干净数据集中能形成紧凑、分离良好的聚类。

嵌入质量与聚类评估：接下来，研究使用外部和内部指标评估了所有特征提取方法的嵌入质量，并比较了针对最佳表征（PAM-SimCLR）的聚类算法。有监督对比学习（CNN–SupCon）实现了最高的标签一致性（ARI=0.372, AMI=0.396, Hungarian=0.646）和较强的内部聚类指标。然而，定性检查表明SupCon倾向于将声学上不同但共享标签的信号聚集在一起，压缩了类内变异。相比之下，无监督PAM-SimCLR模型产生的标签一致性较低（Hungarian=0.317），但产生了最强的内在结构（Silhouette=0.220, DBI=1.279, CH=16,200），形成了紧凑的聚类，捕捉了预定义类别之外潜在有意义的声学模式。定量聚类内余弦相似性分析支持这一解释：SupCon聚类的相似性（0.0989）低于PAM-SimCLR（0.2144），表明监督模型在每个类别内聚集了更多异构的声学信号。

普通SimCLR基线在相同的预处理、增强和优化下训练，但没有PAM特定增强，表现出较弱的内在聚类结构和降低的聚类内凝聚力（Silhouette=0.137, DBI=1.926）。倒谱特征（GTCC+MFCC）与标签适度对齐（Hungarian=0.333），但显示出最弱的内在结构（Silhouette=0.114, DBI=2.020）。VAE–GMM实现了与PAM-SimCLR相似的标签对齐（Hungarian=0.294），但轮廓系数最低（0.074），表明有限的聚类内组织。

为了可视化嵌入结构的这些差异，研究提供了有监督SupCon和PAM-SimCLR模型测试集的3D UMAP投影图，按六个粗略的FADAR类别着色。正如对有监督目标的预期，SupCon嵌入形成了反映物种边界的、广泛的标签同质区域。然而，定量结果显示聚类内余弦相似性低，且UMAP投影显示每个标签区域内存在显著分散。相比之下，PAM-SimCLR嵌入产生了多个更小、更清晰划分的区域，与其更高的聚类内相似性和更强的内在结构指标一致。

所有方法的绝对聚类得分均低于在更干净的生物声学和环境声音基准（如BirdSet-NES和UrbanSound8K）上报告的分值。这种差异是预期的，反映了现实世界被动声学监测数据的常见特征，包括较低的信噪比、重叠事件、较高的事件密度、声音信号较低的刻板性以及针对连续长期录音的特定预处理步骤。

聚类算法比较：为评估聚类选择对PAM-SimCLR嵌入空间的影响，研究比较了六种算法。高斯混合模型（GMM）和K-Means在轮廓系数和CH指标上表现相当。这表明PAM-SimCLR嵌入包含大致凸或椭球形的聚类，这与两种算法的几何假设吻合良好。基于密度的方法（DBSCAN, HDBSCAN）实现了较高的内部得分，但仅返回2-3个聚类，反映了PAM-SimCLR嵌入流形的主要连续密度结构。谱聚类表现中等，但未超过GMM或K-Means。考虑到方法间的微小差异，K-Means提供了一个具有竞争力且计算高效的选择。关于聚类数量，增加k会导致轮廓系数逐渐下降，反映了随着粒度增加凝聚力降低的预期趋势。

声学模式发现：基于聚类比较，研究使用PAM-SimCLR编码器配合GMM聚类来识别所有珊瑚礁站点中重复出现的声学模式。超过内聚力阈值（平均聚类内余弦相似性>0.10）的聚类被保留用于分析。这些聚类代表具有一致时频结构的事件组，并使用平均谱图和简单的声学描述符进行总结。所得集合构成了在加勒比数据集中观察到的重复声学模式的初步字典。学习到的嵌入空间中聚类的空间组织通过波多黎各BDS数据集的UMAP投影图展示，该图显示了应用阈值后该站点存在的11个GMM派生聚类。跨站点的声学特征数量及其平均内聚力的定量总结表明，不同站点发现的声学特征数量从5到15个不等。所得声学特征字典的示例条目和代表性声学特征的谱图画廊被提供，说明了跨多个站点出现的广泛声音以及与特定站点相关的声音特征。这些结果表明，无监督框架可以将长期珊瑚礁录音组织成稳定且连贯的时频模式，这些模式未被预定义的类别标签捕获。保留的聚类包含一致的声学结构而非噪声或信噪比驱动的伪影，并且一些模式在多个站点广泛出现，而其他模式则是局部的。这为构建用于加勒比PAM数据集的可扩展声学模式字典奠定了基础。

讨论

机器学习影响：由于重叠叫声、异构环境和细微的物种间变异，PAM中的无监督聚类仍然困难。本研究的结果重现了先前生态声学研究报告的模式，包括倒谱特征对噪声和栖息地变异的敏感性。像MFCC和GTCC这样的倒谱特征捕捉了广泛的光谱差异，但倾向于在嘈杂背景条件下分裂成不稳定的聚类。自编码器流程，包括VAE和与GMM的深度嵌入聚类，已在鸟类和海洋哺乳动物的刻板叫声中显示出前景，但本研究结果表明VAE+GMM方法可能难以推广到多样化的珊瑚礁声景。VAE+GMM方法在PAM数据上的轮廓系数低于0.10，表明聚类定义和边界非常弱。这一限制反映了VAE+GMM方法的一个核心假设，即潜在聚类近似高斯且叫声是刻板的，这在低信噪比、重叠且高度可变的珊瑚礁环境中失效。

有监督嵌入空间与已知标签密切对齐，这与先前的生物声学监测研究一致。然而，在最大化分类准确性的同时，有监督目标将具有相似频谱模式的不同声音类型折叠为单个类别，掩盖了潜在生态相关的变异。标签准确性与发现之间的权衡常常被忽视，但却是表征现实世界声景的核心。

本研究的PAM适应对比学习流程为表示复杂海洋声景提供了一种替代基于重构的无监督方法的方案。通过针对水下声学特性（包括事件中心裁剪、频率掩码和教师引导的多正例配对）定制增强，学习到的嵌入在保持对噪声和重叠信号鲁棒性的同时，保留了声音类型之间的变异性。与主要依赖重构误差来构建潜在空间并可能难以分离声学相似事件的GMVAE风格方法相比，对比目标施加了关系约束，鼓励不同声音模式之间的分离，而不会压缩模式内的变异性。

自监督表征的类似优势已在鸟类和一般音频领域中被报告，其中学习到的嵌入捕获了超出预定义物种标签的时间和站点级别变异。在本研究中，大规模应用该框架在数十万珊瑚礁录音中产生了稳定的聚类结构，并促进了在0-800 Hz频带内识别出33个候选声学特征。这些发现表明，对比学习为探索性和大规模的生态声学分析提供了一个实用、标签高效的基础。

区域和站点级别特征的验证：研究提供了所识别聚类如何反映所选站点底层声景特征的一些示例。在不同站点中，聚类揭示了几个特征。特别是，波多黎各表现出最大的声学多样性，拥有15个不同的特征，涵盖石斑鱼叫声、未知脉冲和脉冲串、被识别为座头鲸的海洋哺乳动物低频叫声以及大量的船舶声音。多样生物和人为特征的共存表明，人为产生的噪声是这些声景的突出组成部分。位于美属维尔京群岛圣托马斯的RHB是一个显著的例子。RHB是主要为红鲷记录的产卵聚集地，其录音以异常清晰的合唱时段和与求偶相关的叫声类型（如RH1和RH2）为特征。因此，这证实了RHB是一个单一物种聚集产卵的特定地点。这种声学清晰度可能是由于在红鲷叫声频率范围内缺乏其他生物产生的个体重叠声音。因此，这些特性可能使RHB成为将生物特征与人为噪声分离以及基准聚类内聚力的有价值的低噪声对照。仅在非拿骚石斑鱼产卵站点（RBH, Mona H6, ALS）发现了与红鲷合唱相关的特定聚类，所有这些站点在0-200 Hz频带都表现出红鲷合唱。这种一致的分离表明了声学标记物可预测特定物种产卵站点，可以通过提供可扩展、非侵入性的海洋栖息地分类来补充潜水员调查和渔业监测。

三个加勒比墨西哥站点表现出鲜明对比。Xcalak和Punta Allen被蟾鱼音调谐波序列（0-600 Hz）主导，这在其他站点不存在。这种站点限制性主导突出了该框架分离特定物种活动的能力。相比之下，San Juan几乎没有表现出一致的生物聚类，这可能反映了鱼类丰度降低或声音传输不良。这些差异强调了无监督方法在检测邻近栖息地声景特征方面的价值。在波多黎各的BDS站点，检测到强烈的低频海洋哺乳动物叫声（200-600 Hz）——在所有站点中独一无二。这证明了对鱼类以及更广泛生态系统贡献者（如海洋哺乳动物）的敏感性，支持了最近对多类群声学指标的呼吁。跨站点模式也出现了。例如，一个聚类出现在多个区域的录音中，表明了一个广泛共享的人为源，如航运路线。相反，另一个聚类仅在San Juan观察到，表明了一种站点特定的声音类型。更广泛地说，23个聚类出现在多个站点，而10个聚类仅限于单个位置。这些观察表明，聚类产生了跨站点和站点特定声学模式的混合。

局限性与未来工作：一些局限性仍然存在。首先，本研究专注于加勒比珊瑚礁；尚未测试对太平洋、温带或深海系统的可转移性。其次，尽管PAM-SimCLR产生了内部连贯的聚类，但生态学解释需要通过现场观察和行为研究进行验证。分离相似模式的叫声，例如红鲷RH2和黄鳍石斑鱼的音调叫声是一个挑战，并且属于同一聚类。分离低频船舶声音和黑石斑鱼叫声也观察到类似的挑战，强调了需要更大、更平衡的数据集以及潜在的分层对比学习。这也可能是增强的缺陷，增强有助于分离不同的叫声和模式，但当差异过于细微时，实际上可能鼓励聚类。涉及扩散驱动对比学习的新兴框架可能提供更精细的潜在组织，潜在地改善声学相似的细微叫声变异的分离。

在方法论上，研究将分析限制在与石斑鱼叫声相关的0-800 Hz频带。考虑到对产卵聚集监测的关注，这是有意的，但可能排除了具有生态重要性的更高频率信号。此外，所有录音都下采样至10 kHz并分割为2秒窗口。虽然适用于中低频鱼类叫声和船舶噪声，但这些设置限制了对更高频率类群（如鼓虾或海豚）的适用性。使框架适应此类物种将需要保留更高的采样率并使用不同的时间窗口。研究还使用来自FADAR石斑鱼分类器的预测来平衡数据集，这可能过滤掉了微弱或未被识别的叫声。这对于处理大型未标记数据集是必要的，但代表了潜在的偏差来源。

未来的工作应探索基于变换器的音频模型，包括源自语音的架构和最近的生物声学基础模型。NatureLM-audio代表了一个为生物声学定制的大规模音频-语言基础模型，并在未见过的类群中展示了强大的零样本泛化能力。物种特定的自监督学习模型，如Dolph2Vec，进一步说明了基于变换器的编码器如何能够捕获特定发声库内的细粒度结构。虽然这些模型在跨域和物种内性能方面表现出色，但其计算需求以及对精心策划的、预分割语料库的依赖，使得直接部署在连续的珊瑚礁PAM数据上具有挑战性。其他方向包括考虑昼夜节律或鼓虾干扰的增强，以及使用有限的专家标签进行半监督微调，以更好地将无监督发现与物种级别分类联系起来。

结论：本研究表明，对比学习为无需密集标注即可表征复杂海洋声景提供了一个实用框架。虽然有监督流程与预定义标签密切对齐，且传统的无监督方法常常遭受不稳定性，但当对比目标适应于被动声学监测数据时，可以在鲁棒性和声学变异性之间取得平衡。通过使用声学知情的增强和多正例配对，学习到的嵌入支持跨站点的大规模珊瑚礁录音的一致无监督组织。所得表征捕获了重复出现的声音模式，区分了站点共享和站点特定的特征，并支持在不依赖物种级别标签的情况下构建初步的声学字典。总之，这些发现表明，对比学习为探索性生态声学分析和未来在复杂海洋环境中进行生态验证及针对性监测提供了一个可扩展的、发现导向的方法。

热点排行

新闻专题