基于生物学信息呼叫类型平衡的萨利希海虎鲸种群水平声学分类：构建稳健模型以支持保护监测

《Marine Mammal Science》：Population-Level Acoustic Classification of Salish Sea Killer Whales: Integrating Biologically Informed Call Type Balancing to Build Robust Models for Conservation Monitoring

【字体：大中小】 时间：2026年01月20日 来源：Marine Mammal Science 1.9

编辑推荐：

　　本研究通过整合生物学信息指导的呼叫类型平衡策略，构建了首个能够区分萨利希海南方居留型虎鲸（SRKW）和西海岸过客型虎鲸（TKW）的种群特异性声学分类器。研究基于BirdNET框架开发神经网络模型，系统评估了九种不同训练数据集（各含12,000样本）在不同呼叫类型标注替换比例（0%、10%、30%）下的性能。结果表明，模型在样本内数据上表现优异（AUC>0.873），但对不同水听器系统采集的外部分类数据泛化能力强烈依赖于呼叫类型平衡策略。这项工作凸显了在训练生物声学神经网络时融入领域知识（如公开可用的呼叫类型目录）对提升保护监测模型鲁棒性的关键价值。

1 引言

虎鲸（Orcinus orca）作为全球性分布的海洋捕食者，在不同海域形成了遗传和行为上迥异的种群。在东北太平洋，存在三种同域分布但社会隔离的虎鲸生态型，它们具有独特的声学特征、食性偏好和觅食策略。其中，南方居留型虎鲸（SRKW）因其濒危 status 受到广泛保护关注，其生存受到船舶噪声、猎物减少和栖息地退化的累积威胁。有效的保护措施依赖于对其存在和行为的准确监测，而被动声学监测（PAM）因其可进行连续、非侵入式观测而成为关键工具。

虎鲸能产生多种声学信号，包括回声定位咔嗒声、嗡嗡声、哨声和脉冲呼叫。其中，脉冲呼叫已被证明具有种群特异性，是区分种群的诊断性特征。尽管专家可通过谱图人工识别种群，但手动标记难以扩展，推动了自动化方法的发展。机器学习，特别是神经网络，已成为检测和分类鲸类声学信号的有效手段。然而，在实际的被动声学监测中，区分同域分布的虎鲸种群（如SRKW与TKW）仍是一个悬而未决的挑战，这对执行特定种群保护措施和评估减缓措施效果至关重要。

本研究旨在填补保护声学领域的这些空白，其三个主要目标是：首先，开发并开源首个能够区分萨利希海SRKW和TKW的分类器；其次，评估仅使用种群级别标注（而非更精细的呼叫类型标注）是否足以构建能够区分SRKW、TKW、座头鲸（HW）和环境背景噪声（BG）的模型；最后，测试融入经过专家指导、平衡了虎鲸呼叫类型的精选数据如何影响分类器的性能和泛化能力。

2 材料与方法

2.1 数据来源

研究数据源自两个来源：一是为2027年海洋哺乳动物被动声学检测、分类、定位和密度估算（DCLDE）研讨会整理的开源数据集；二是来自萨利希海的独立数据集（Malahat数据）。DCLDE数据集汇集了来自多个机构的声学记录和标注，时间跨度超过十年（2011-2023年），涉及21个不同的部署，使用了多种平台和记录系统。标注粒度不一，大部分虎鲸声学标注仅到种群水平，少数包含了根据已有目录手动分配的脉冲呼叫标签。

2.2 数据清理

在模型开发之前，所有标注都经过筛选以去除模糊或不可靠的条目。保留的标注被审核以识别包含脉冲呼叫类型信息的条目。呼叫类型标签被组织成种群特定的集合：SRKW有26种呼叫类型，TKW有9种。所有音频文件被重采样至48 kHz以确保一致的频谱分辨率。为所有标注创建了3秒的音频片段用于训练和评估。

2.3 实验设计

为评估呼叫类型多样性的影响，创建了SRKW和TKW的训练数据集，通过混合两个不同来源：大量未标注呼叫类型的标注（未标记）和少量明确标注已知脉冲呼叫类型的标注（呼叫类型标记）。设置了三种训练条件，分别用呼叫类型标记的样本替换基线数据集中0%、10%或30%的未标记样本。这三种替换水平在SRKW和TKW上独立进行，形成了一个包含九个训练数据集的因子设计（例如 BirdNET_01 至 BirdNET_09）。

2.4 模型架构与训练

研究选择了开源BirdNET框架（基于ResNet的CNN架构）来实现从鸟类鸣声到虎鲸种群分类的迁移学习。每个模型都使用自动调优的超参数进行训练，最多50个周期并启用早停。

2.5 模型评估

模型在两种数据集上评估：DCLDE留出集和独立的Malahat数据集。评估指标包括类别特定的精确度-召回率（PR）曲线、精确度-召回率曲线下面积（AUC）、平均平均精度（MAP）以及用于衡量误分类的马修斯相关系数（MCC）。分类性能还在P90分类置信度阈值下进行评估。

3 结果

3.1 基于检测的性能

所有九个模型变体均成功收敛。在DCLDE留出集上，SRKW分类表现 uniformly 强劲，AUC值高于0.87。PR曲线紧密聚集，未观察到随着SRKW呼叫类型平衡水平增加而出现一致的改进。然而，当模型应用于来自不同水听器系统的Malahat数据时，性能出现下降且变异性更大。SRKW的AUC值在0.803至0.916之间，对训练条件更敏感。TKW分类表现出更广泛的变化，并且更依赖于呼叫类型平衡策略。在Malahat数据上，TKW的AUC值范围在0.692至0.721之间。座头鲸（HW）类别在Malahat数据集上的分类准确性在所有模型中均下降（AUC值在0.255至0.349之间），反映了在新声学条件下泛化能力的降低。

3.2 操作模型性能

在DCLDE留出集上，MAP值 uniformly 很高（0.815至0.922），模型间差异很小。在Malahat数据集上，MAP值下降至0.602至0.659的范围。这种下降很大程度上与SRKW和HW类别的可分离性有限有关。模型对呼叫类型平衡策略表现出不同的敏感性，某些模型（如BirdNET_03和BirdNET_08）在SRKW和TKW的召回率上表现出极端的权衡。

4 讨论

声学监测虎鲸种群面临一个基本挑战：虽然发声能揭示存在、身份和行为，但广泛的种群内和种群间变异使自动分类复杂化。本研究引入了首个经过监督训练、能够区分SRKW和TKW以及座头鲸的分类模型。研究结果表明，易于使用的预训练BirdNET模型经过调整可以区分SRKW和TKW的示例呼叫。在DCLDE留出数据集上，无论呼叫类型平衡策略如何，都表现出优异的检测和分类性能，但在应用呼叫类型平衡时，检测性能有适度改善。

正如预期，当模型应用于Malahat数据时，性能显著降低且变异性更大。呼叫类型平衡策略通过减少对类别内主导信号的过拟合来改善泛化能力，显示出前景，但收益受到TKW训练池中多样性不足的限制。未来改善萨利希海虎鲸分类的工作应侧重于扩展TKW呼叫类型标注，并需要结合平衡的呼叫类型表征与更广泛的训练多样性和扩展的标注资源，以开发能够更好支持保护驱动监测和管理的分类器。

热点排行

新闻专题