《Marine Mammal Science》:Increasing Efficiency of Detection and Validation of Baleen Whale Call Presence on Large Acoustic Datasets: A Case Study Using Sei Whale Downsweeps Recorded in Atlantic Canada
编辑推荐:
本文介绍了一种用于分析大型被动声学监测(PAM)数据集效率的分层(“Tiered”)检测与验证方法。通过案例研究(塞鲸降调声),展示如何结合不同精度(P)和召回率(R)的检测器(如AA和LFDCS)输出,以最少的人工验证工作量,在达到100%日尺度精度的同时,最大限度降低漏检率,为大规模PAM研究提供高效、准确的物种存在分析方案。
引言
随着被动声学监测(PAM)技术的进步,用于研究海洋哺乳动物的声学数据集已从兆字节增长到太字节,规模远超纯手工分析所能处理。因此,自动检测器在分析须鲸时空声学出现率的研究中日益普遍。然而,自动技术会产生假阳性(非目标信号被检测)和假阴性(目标信号未被检测)等错误,影响结果的准确性。为了减轻这些错误并理解检测器性能,需要辅以人工审查(验证)。在开发这种人机协作方法时,必须仔细考虑研究的总体目标和最终结果所需的准确性。例如,若需要完全确信物种存在,则应设计检测器以最大化精度(P),代价是更多的漏检(较低的召回率,R);若检测数据集中所有目标叫声很重要,则应设计检测器以最大化召回率(R),但这会导致更高的假阳性率和更低的精度。对于旨在评估声学存在时空趋势的研究,目标通常是同时减少漏检和假阳性。传统上,许多研究使用参数范围较宽的自动检测器来捕获所有潜在目标信号,然后验证这些检测结果并移除假阳性,这过程劳动和时间密集。本文提出了一种分层验证方法,旨在提高分析大型PAM数据集的效率。
方法
本研究以加拿大东部海域记录的塞鲸(Balaenoptera borealis)降调声为案例,开发和测试了分层检测器方法的效率。塞鲸在西北大西洋发出短(1.6秒)、低频(30–130赫兹)的降调声。研究使用了两种之前曾用于检测该区域塞鲸降调声的检测器:JASCO声学分析轮廓检测器(AA检测器)和低频检测与分类系统(LFDCS)音高追踪检测器。数据来自加拿大东部的三个记录站:Emerald Basin (EMB)、Mid Gully (MGL) 和 Station (STN) 15,记录时间在2015年至2017年之间。为了评估检测器性能,研究将三个记录站的文件与先前已验证的塞鲸降调声(“真实数据”)进行了比较。
分层方法的建立涉及为每个检测器开发多个“层”。通过调整阈值和/或检测器参数,创建了从非常严格(以最大化精度,P)到非常宽泛(以最大化召回率,R)的多个层。精度(P)是真阳性占所有检测(真阳性和假阳性)的比例,召回率(R)是真阳性占所有真实存在叫声(真阳性和假阴性)的比例。研究最终为每个检测器保留了三个层:高精度层(High-P,检测大多数“高质量”塞鲸叫声)、高召回率层(High-R,检测大多数存在的塞鲸叫声)和中精度层(Mid,精度和召回率介于两者之间)。对于AA检测器,通过手动测试和修改时间和频率参数以及振幅阈值来定义各层。对于LFDCS检测器,则通过调整马哈拉诺比斯距离(M-dist)的阈值来定义各层:M-dist ≤ 2.00为High-P层,> 2.00 至 ≤ 3.00为Mid层,> 3.00 至 4.00为High-R层。
验证过程按层顺序进行:首先验证High-P层的检测,确认存在塞鲸降调声的日期;然后,在验证Mid层之前,移除已确认有塞鲸叫声的日期对应的所有文件;最后,在验证High-R层之前,移除所有已确认有塞鲸叫声的日期对应的文件。通过这种方式,仅对先前层级未捕获到叫声的额外日期进行验证,从而减少总体人工验证工作量。研究评估了各单独层在应用于整个数据集时的性能,包括精度(P)和代表性召回率(RR)。并将分层方法的效率与使用单一检测器层(对于AA检测器为High-R层,对于LFDCS为Mid层)的传统方法进行了比较,“效率”以验证数据集时需要检查的文件百分比来衡量。
结果
真实数据显示,三个站点总计11,579个文件中,有1,043个(9%)包含已确认的塞鲸降调声;总计939天中,有278天(25%)有降调声。总体上,三个层级在每文件和每天基础上都表现出预期的P和RR平衡:High-P层几乎始终具有最高的P,而High-R层具有最高的RR。LFDCS在层级性能上最为一致,而AA检测器在STN 15站的每文件性能和在EMB站的每天性能中存在个别异常值,其High-P层的P值较低。
在效率方面,除个别情况外,使用分层方法找到相同或更多确认有塞鲸叫声的日期时,需要检查的文件百分比低于单一检测器方法。对于AA检测器在STN 15站的情况,达到相似结果需要检查的文件百分比相等;对于LFDCS在EMB站的情况,分层方法找到的有塞鲸的日期数少于单层方法。尽管分层方法与单一检测器在检查文件百分比上的差异有时很小,但使用分层方法实际花费的分析时间大幅减少。这是因为High-P层的文件通常包含清晰明显的叫声,验证速度快(通常不到一分钟),而High-R层的文件叫声可能微弱、失真或缺失,且背景噪声可能更多,验证耗时更长(通常超过一分钟)。通过首先针对易于快速验证的文件,节省了大量工作时间。
讨论
研究发现,分层方法对两种检测器都比单层方法更高效。具体而言,与单一检测器相比,分层系统需要检查更少的文件,就能在日尺度上达到100%的精度,同时保持较高的召回率,这对于旨在减少漏检的研究非常有益。检测器和层级的性能受到非塞鲸声音的干扰,如蓝鲸的拱形叫声和降调声、座头鲸的降调声以及地震气枪脉冲,这些声音有时会被检测并错误分类为塞鲸叫声,增加了假阳性,影响了各层级的性能,也影响了分层方法的效率。尽管如此,分层方法始终比使用单层更高效。
分层方法不仅有助于单物种研究,也可应用于多物种存在分析。在多物种方法中,首先检查每个物种的High-P层,打开的每个文件都针对所有目标物种进行验证。当分析人员从一个物种转到下一个物种时,先前物种High-P层的结果会被纳入并在检查下一个物种的High-P层之前移除,这一过程随后的层级中重复。这种方法已显著提高了研究团队进行多物种日存在分析的效率。
结论
尽管此处描述的多层方法需要投入初始时间来测试适当的检测器设置和阈值,但应用多层方法所节省的时间远远超过了初始投入。分层方法通过结合准确锁定叫声和限制漏检机会,克服了单检测器性能的限制,使其成为评估小时或日出现率的更高效手段。随着收集用于评估须鲸(及其他物种)时空出现率的声学数据集因技术进步而持续扩大,找到在不牺牲结果准确性的前提下分析这些大数据的高效方法变得日益重要。