评估一种信号处理和机器学习框架在检测和分类破壳捕食事件方面的有效性

《Ecological Informatics》：Evaluation of a signal processing and machine learning framework to detect and classify shell-crushing predation events

【字体：大中小】 时间：2026年05月11日 来源：Ecological Informatics 7.3

编辑推荐：

　　A.K. Ibrahim|L.M. Chérubin|C. Hampton|B.C. DeGroot|H. Zhuang|M.J. Ajemian
佛罗里达大西洋大学电气工程与计算机科学系，博卡拉顿，33431，FL，美国

**摘要**
大型移动捕食者对贝类死亡率的贡献尚未得到充分理解，这限制了我们对它们在水生生态系统中如何控制猎物种群的科学认识。在这项研究中，我们提出了一种先进的方法，用于从白点鹰鳐（Aetobatus narinari）捕食各种硬壳软体动物的聲學记录中检测和分类碎壳事件。数据主要来自受控的圈养实验，我们记录了4只个体捕食代表性的双壳类和两种腹足类软体动物的过程。通过使用匹配滤波器结合时间-频率手工特征（如Gamm潭频率系数GTCC）和深度卷积神经网络（CNN）作为无监督特征提取器，我们开发了一种综合的方法来检测和分类碎壳声音。此外，我们还基于自然条件下的野外实验验证了我们的检测和分类方案，在实验中我们模拟了硬壳蛤蜊的破裂过程，并记录了白点鹰鳐自然捕食硬壳蛤蜊和其他有壳生物的过程。机器学习技术的集成，包括传统算法（如随机森林、支持向量机）和深度学习的长短期记忆（LSTM）网络，使得能够根据被捕食的猎物种类来表征这些生物声学事件。研究结果表明，LSTM分类器具有更强的性能，而GTCC和CNN特征在分类碎壳事件方面表现相似。此外，这项研究强调了在野外检测和分类碎壳事件的可能性，从而提高了我们对海洋生态相互作用的理解和监测能力。这些进展增强了我们研究大型移动捕食者的觅食生态、它们对海洋底栖群落的自然影响以及与贝类恢复计划的互动的能力。

**1. 引言**
硬壳海洋软体动物与其捕食者之间的捕食-猎物相互作用在塑造海岸生态系统方面起着关键作用。双壳类和腹足类软体动物对于维持沿海水质、提供栖息地以及稳定海岸线至关重要，因此在生态和经济上都非常重要（Gutierrez等人，2003年；Fortunato，2015年）。然而，这些物种面临着来自海洋酸化的日益增加的威胁（Wootton等人，2008年；Cooley和Doney，2009年；Kroeker等人，2010年；Kroeker等人，2013年），以及活动范围扩大的碎壳捕食者（Aronson，2001年）。此外，许多这些捕食者具有高度移动性，并在潮间带水域与软体动物互动，这使得观察变得复杂，需要新技术来在空间和时间上追踪这些互动。幸运的是，捕食过程中壳的破坏是可听见的，因此可以通过被动声学手段间接测量软体动物的死亡率（Zheng和James，2010年；Song和Belytschko，2009年；Patek和Caldwell，2005年；Chen等人，2017年）。

被动声学监测（PAM）已成为一种成功的方法，可以在不干扰动物自然行为的情况下观察海洋生物（Parijs等人，2009年；Au和Giorli，2016年）。自主水下传感器的进步，这些传感器经常被集成到监测系统中以预测长期模式、跟踪季节变化，并评估环境退化和人类活动的影响，显著扩展了PAM的潜力（Johnson和Tyack，2003年；Johnson等人，2009年；Elise等人，2019年；Erbe等人，2025年）。传统上，海洋声源是通过手动分析频谱图上的声学信号或通过听觉评估记录来识别的。然而，这种手动检测方法既繁琐又耗时，容易出错，并且鉴于现代PAM系统产生的大量数据集，这种方法变得不切实际。

为了解决被动声学研究中手动检测的挑战，许多研究人员提出了用于自动检测海洋生物活动的机器学习（ML）方法。一些方法基于用户定义的声学特征，而其他方法则基于领域专家未定义的深度学习（DL）无监督特征。基于用户定义的声学特征的方法已被应用于检测水生和陆地环境中的各种声音。传统的ML技术，受到自动语音识别的启发（Vieira等人，2015年），需要一个预处理步骤将原始音频数据转换为特征，然后作为输入用于分类器以识别感兴趣的声音（Pace，2008年；Bahoura和Simard，2010年；Kottege等人，2015年；Urazghildiiev和Van Parijs，2016年；Choi等人，2019年）。在Ibrahim等人（2016年）的研究中，采用了离散小波变换和梅尔频率倒谱系数（MFCC）的混合特征提取程序来检测北大西洋露脊鲸。在Ibrahim等人（2018年）的研究中，使用了时间-频率特征（包括梅尔频率）和多分辨率声学特征来分类加勒比海棘皮鱼类产生的声音。在陆地领域，Chesmore和Ohya（2004年）提出了一种基于波形形状和连续零交叉点之间持续时间的时间特征的直翅目物种识别方案，随后使用多层感知器（MLP）进行分类。在鸟类鸣叫的分类中，MFCC常用于特征提取。然后将特征输入分类器，使用支持向量机（Martinez等人，2014年；Leng等人，2014年；Joly等人，2015年）、决策树和随机森林（Stowell和Plumbley，2014年；Lasseck，2015年；Stowell，2015年）或最近邻聚类方法（Joly等人，2014年；Northcott，2014年）来识别鸟类叫声。

基于无监督特征提取的方法在生物声学中迅速成为一种变革性工具，因为它在图像分类、对象检测、语音识别和音乐处理等多个领域取得了显著成功（He等人，2016年；Zhao等人，2019年；Meng等人，2019年；Nam等人，2019年）。作为深度神经网络（DNN）架构中的一个重要特征提取器，深度学习技术在通过多层神经网络学习复杂的非线性数据表示方面表现出色（LeCun等人，2015年；Kamper等人，2015年；Wu等人，2023年）。这种内在的简单性和多功能性使DNN能够以前所未有的准确性处理各种分类任务，通常通过提供更细致和更具区分度的特征提取而超越传统机器学习方法（Goodfellow等人，2016年）。Cominelli等人（2024年）使用VGGish提取了声学特征，以探索、表征和可视化大型海洋声学数据集中的海洋哺乳动物栖息地的声音景观。

无论采用哪种方法，基于ML或DL的生物声学研究已成为实现以前难以实现的保护目标的强大工具（Kahl等人，2021年；White等人，2022年；Ibrahim等人，2024年；Raza等人，2025年）。这些应用包括但不限于基于声音的海洋哺乳动物实时预警系统（Davis等人，2020年；Winship和Jones，2023年）；在关键繁殖地点推断鱼类种群的长期趋势（Chérubin等人，2025年）；以及根据声学指标确定的人类噪声对海洋生物的影响和管理措施（Winship和Jones，2023年）。然而，大多数这些发展都集中在海洋哺乳动物的声音和其他作为其自然行为产生的海洋生物声音上，这些行为涉及领地防御、求偶、合唱和警告。其他与声音相关的行为活动，如甲壳类动物产生的声音（Radford和Stanley，2023年）、游泳行为（Larsson，2024年；Zhou等人，2024年）、空气释放声音的产生（Rountree等人，2018年）、进食行为的副产品或有意产生的声音以震晕猎物或吓退捕食者（Radford和Stanley，2023年）的研究较少。

捕食者碎壳产生的声音包含多个脉冲，且这种声音也取决于捕食者类型，正如Hagihara等人（2008年）所展示的。开发了一种被动声学方法来表征白点鹰鳐（Aetobatus narinari）在池塘中碎壳的声音（Ajemian等人，2021年）。这项工作表明，碎壳事件由高度动态和非平稳的脉冲序列组成，其变化性和复杂性随时间显著变化。这些声学脉冲的变化可以归因于多个因素，包括处理的猎物种类、捕食者采用的具体技术及其形态，以及周围的环境条件。这些脉冲在猎物捕获和处理过程中表现出频率、幅度和持续时间的变化。这种变异性使得难以使用统计方法分析捕食事件，因此需要更先进的技术来有效地捕获和解释与这些事件相关的声学特征。不幸的是，迄今为止尚未有尝试开发自动化检测-分类方案来有效处理这种类型的声学数据，但这些都是必要的，以便利用部署在自然环境中的传感器提取和解释觅食生态学信息。

在这项研究中，我们提出了一种先进的方法，利用用户定义的时间和频率特征以及深度学习来检测和分类碎壳事件。首先，实现了一个匹配滤波器（MF）来检测白点鹰鳐觅食声学数据集中的进食事件。然后，使用Gamm潭频率系数（GTCCs）和MFCCs获得碎壳声音的特征特征。此外，还探索了其他频谱形状特征以捕获这些事件的独特声学特征及其变化性。除了手工特征外，我们还应用了定制设计的卷积神经网络（CNN）和预训练的分类器作为特征提取器。一旦提取并分类了每种进食声音的声学特征，就使用传统的分类器（如支持向量机（SVM）和随机森林（RF）根据猎物种类对碎壳声音进行分类。此外，还在声学特征上训练了一个长短期记忆（LSTM）神经网络，以根据猎物种类对相应声音进行分类。

在第2节中，我们描述了本研究中使用的数据收集方法，并介绍了喂给圈养白点鹰鳐的猎物种类。该部分还详细介绍了各种特征提取方法、使用的分类器以及用于评估分类器性能的指标。还描述了用于探索真实世界环境中模型性能的有限野外数据。在第3节中，我们评估了与分类器配对的特征提取器的性能，包括传统机器学习和深度学习方法在测试和野外数据集上的表现。最后，在第4节讨论和第5节结论中分别提出了讨论和结论。

**2. 方法**
**2.1. 圈养实验和声学失真**
本研究中提到的圈养实验在Ajemian等人（2021年）中有详细描述。简而言之，白点鹰鳐是从野外捕获并饲养在一个直径10米、深度1.5米的圆形池塘中（图1）。这些动物被喂食多种软体动物，并用同步的视频-音频系统进行记录和拍摄。实验中使用了4只白点鹰鳐，共提供了8种活猎物供圈养的鹰鳐食用（Ajemian等人，2021年）。在这项研究中，我们关注了其中三种猎物种类，因为它们提供了足够的碎壳事件数量来支持和验证此处介绍的算法。这三种猎物种类包括硬壳蛤蜊（Mercenaria mercenaria）、带状郁金香螺（Cinctura lilium）和皇冠螺（Melongena corona）。每种猎物在放入池塘前都会测量壳的尺寸并分配一个唯一的编号。在试验过程中，猎物是随机单独引入的。

池塘对宽带声音（如碎壳产生的声音）的物理影响很大，这些声音在池塘中无法准确表征（Jézéquel等人，2022年）。主要有三个物理影响：（1）池塘共振频率强烈扭曲了宽带声音的频谱形状；（2）混响增加了高频段的声音持续时间；（3）低频声音由于波长较长且池塘壁边界条件（零压力）而减弱，导致无法准确测量。因此，研究中提出的算法可能仅偏向于检测池塘中的碎壳声音。尽管如此，它仍然被应用于野外收集的鹰鳐进食事件，并对其性能进行了分析。

**下载：下载高分辨率图像（277KB）**
**下载：下载全尺寸图像**
**图1. 池塘实验设计的平面示意图。**红海龟和固定的GoPro相机面向水箱的立管，可以清晰地看到进食区域的猎物。下载：下载高分辨率图像（1MB）下载：下载全尺寸图像

图2. 实验室训练数据（水箱记录）、分类的野外事件和检测到的干扰因素之间的三重声学比较。第1-2行：(a) 皇冠螺（CC，橙色）、(b) 条纹郁金香螺（BT，绿色）和(c) 硬壳蛤（HC，蓝色）在受控水箱实验中的训练频谱图和波形。第3-4行：代表性的野外事件频谱图，显示了(d,f) HC（E1）和(b) BT（E4）在动物携带的声学记录器实验中通过匹配滤波算法检测到的捕食事件（第2.5节）。第5-6行：(g–i) 在系泊记录器实验中，基于裂缝间时间间隔超过8秒的情况，分离出的非捕食声学瞬态干扰因素（第2.5节）。

2.2. 数据收集
用于开发该检测器的捕获进食声学数据是用红海龟双被动声学记录器和相机（Loggerhead Instruments Inc.）以及GoPro Hero4动作相机收集的，以辅助验证进食事件。水箱中的实验设置如图1所示，提供这些研究数据的实验逻辑在Ajemian等人（2021年）的文章中有描述。记录声音的采样率设置为44.1 kHz。Cyclops系统配备了一个灵敏度为-180 dB的HTI96-mini麦克风。所有试验的增益都设置为零，以最小化信号 clipping。

2.3. 进食事件特征
根据猎物类型和个体捕食者的不同，压碎壳体事件的声学特征也有所不同（Hagihara等人，2008年；Ajemian等人，2021年）。不同类型的猎物在同一捕食者的每次攻击中表现出不同数量的脉冲（我们也称之为裂缝）。每个裂缝都与猎物壳体的破裂或部分破裂有关（图2）。然而，处理每种猎物所需的裂缝数量不同。硬壳蛤（HC）和条纹郁金香螺（BT）的裂缝数量是三种猎物中最少的（图3）。BT猎物的进食事件显示，消耗一只BT猎物平均需要五个裂缝，且第一个裂缝的能量显著高于后续裂缝。每个裂缝包含一个宽带脉冲声，由于壳体结构的差异，这种脉冲声对于每种猎物都是特定的。对于HC，消耗一只猎物平均需要13个裂缝。由于HC壳体的均匀结构，裂缝表现出一致的光谱特征，但其幅度在事件间有所变化（图2）。对于皇冠螺（CC），消耗一只猎物平均需要十个裂缝，裂缝间的能量水平有显著差异。CC独特的壳体结构导致了这种变化（图2）。

下载：下载高分辨率图像（164KB）下载：下载全尺寸图像

图3. 每种猎物类型处理事件中裂缝数量的箱形图。红线表示中位数值。

2.4. 声学数据处理
基于猎物裂缝声学特征进行分类的一般方法如图4所示。该方法分为两部分：首先检测裂缝，然后根据猎物种类进行分类。第一步是使用匹配滤波来检测裂缝，接着使用MFCC结合SVM进行初步分类以消除误报。这一步的结果是一组代表一种猎物处理事件的裂缝。第二步是从每组的裂缝中提取特征，使用MFCC、GTCC、定制设计的CNN和预训练模型。根据组特征将裂缝按猎物种类进行分类，则使用RF、SVM和LSTM来实现。
从数据集中分离出了7157个裂缝声音，每个声音持续约0.12秒。其中5127个裂缝用于训练，其余用于测试。裂缝被分组为不同的猎物事件：HC为81个事件（3150个裂缝），BT为79个事件（1185个裂缝），CC为24个事件（792个裂缝）。使用80%–20%的分层训练-测试分割来评估每种猎物事件的方法，其中80%的裂缝序列用于训练，20%用于测试，同时确保没有时间相邻的片段出现在不同的分区之间。这种评估协议确保了训练集和测试集中类别的平衡表示，并提供了对模型性能的稳健评估。其次，我们采用了Leave-One-Event-Out（LOEO）方法（Kneser等人，1995年），其中分类器在N-1个事件上进行训练，然后在剩余的一个事件上进行测试。这种方法模拟了实际世界的泛化情况，确保了模型在实际场景中的稳健性。虽然分层k折交叉验证是一种有效的评估策略，但它是在样本级别操作的，可能会允许同一事件的裂缝同时出现在训练集和测试集中，从而引入依赖性，可能会夸大性能估计。相比之下，LOEO协议强制事件级别的分离，消除了这种依赖性，提供了对未见猎物事件更严格的泛化评估。

图4. 提出的壳体裂缝分类算法流程图。

2.4.1. 裂缝检测
裂缝检测使用匹配滤波方法进行，这种方法特别适合识别特定的声学模式。匹配滤波是一种将信号模板与输入信号相关联以检测所需信号的技术。MF能够在存在噪声的情况下在其输出端产生最大的信噪比（SNR）。类似的方法也被用来检测声学记录中的窄带巨石鲈声音脉冲（Altaher等人，2023年）。MF检测过程如下：首先将输入信号分成1分钟的时间段，然后每个时间段与裂缝模板进行卷积。我们为每种猎物选择了一个高SNR的裂缝模板，以确保背景噪声或重叠事件的污染最小。这确保了声音的清晰启动和代表性的波形，提高了后续检测过程的可靠性。阈值是通过将输入信号与延迟的功率平均滤波器卷积计算得出的（图5）。为了最大化检测效果并减少误报，引入了一个增益因子。通过调整MF中的阈值，我们确保所有真阳性（TP）都被检测到，实现了完美的灵敏度。自适应检测阈值是通过将功率域平均滤波器应用于信号包络得到的，窗口长度等于模板持续时间的12倍。这种长期平均捕捉到局部噪声底限，并考虑到了背景噪声的时间变化。通过验证实验确定的固定增益因子用于缩放平均功率，从而定义检测阈值。所选的增益在灵敏度和误报率之间提供了最佳平衡，适用于鹰鳐的进食声音检测。

附录A中的表格总结了匹配滤波检测算法中使用的关键参数。标准化模板匹配、12×模板长度平均窗口的自适应阈值设置以及0.2秒的峰值间隔的组合确保了稳健的检测，同时最小化了来自背景噪声和重叠声学事件的误报。

图5. 匹配滤波流程图。

2.4.2. 裂缝确认
仅使用MF检测会导致大量误报（FP），从而降低了检测系统的特异性和整体准确性。为了解决匹配滤波的局限性，实施了一种基于MFCC结合SVM的误报消除过程。该过程包括提取每个检测到声音周围的0.12秒段进行进一步处理。首先将线频谱转换为非线性梅尔谱。使用1024点快速傅里叶变换（FFT），帧长度为0.1秒，并采用汉明窗口来减少频谱泄漏。FFT之后，通过计算每个帧的FFT平方幅度生成频谱图。然后将三角滤波器组应用于频谱图，通过对结果值进行离散余弦变换（DCT）提取MFCC系数。这些提取的MFCC系数随后被输入SVM进行分类。SVM准确判断声音是真实的裂缝还是误报，从而确保了高精度的检测。这两个阶段协同工作，既能识别真实的裂缝声音，又能最小化误检测，提高了裂缝检测过程的总体可靠性和准确性。

2.4.3. 特征提取
前几步检测到的裂缝根据猎物类型进行了标记，形成了不同的组。然后提取了每组特有的特征，以提高分类算法区分猎物类型的能力。在这项研究中，使用了GTCC以及通用形状特征描述符（表1）。选择MFCC特征而不是GTCC的理由在于MFCC的计算效率。MFCC特征提取所需的处理时间显著减少，同时保持了足够的频谱信息以进行准确分类。MFCC特征提取过程遵循标准流程：首先对输入信号进行预加重处理，分割成重叠的帧，然后使用快速傅里叶变换（FFT）进行变换。接着对功率谱应用梅尔刻度滤波器组，随后进行对数压缩和离散余弦变换（DCT）以获得倒谱系数。本实现中使用的具体MFCC参数在附录B中提供，这些参数经过优化，以平衡特征维度与区分能力，适用于压碎壳体声音的分类。
此外，将匹配滤波作为预处理步骤进一步加快了处理流程，使关注点更加集中到感兴趣的区域。然而，GTCC由于其对人类听觉系统的建模，在噪声环境中表现得更为稳健，相比对信号低频成分更敏感的MFCC来说可能更适合这种环境（Valero和Alias，2012年）。为了计算GTCC特征，对信号的频谱应用了伽马音滤波器组。随后计算每个重叠帧的短时能量（STE）。伽马音滤波器组是非线性的且重叠的，模拟了人类听觉系统的响应。中心频率fc的伽马音滤波器由公式（1）定义：(1)h(t)=ta?1e?2πβ(fc)tcos(2πfct)。其中参数a表示滤波器阶数，fc表示中心频率，β(fc)表示与fc相关的带宽。伽马音滤波器的频率响应如图6所示。伽马音滤波器函数常用于听觉模型中作为关键带滤波器（Slaney等人，1993年），其中中心频率fc沿等效矩形带宽（ERB）尺度均匀分布。β(fc)和fc之间的关系由公式（2）给出：(2)β(fc)=1.019×ERB(fc)=1.019×24.74.37×fc1000+1。

图6. 本研究中使用的64个伽马音滤波器的频率响应。每种颜色对应一个滤波器。

图7. GTCC特征提取流程图。首先使用伽马音滤波器组对输入信号进行滤波。然后将滤波器组的输出分割成重叠的分析窗口，每个窗口有50%的重叠，并对每个窗口应用汉明窗口。计算每个窗口的能量，并将结果STE在通道间连接起来。随后对连接后的信号进行对数压缩，并使用离散余弦变换（DCT）转换到倒谱域。本研究中用于GTCC提取的具体参数在附录C中提供。这些参数针对44.1 kHz采样率捕获的压碎壳体声音的频率特性进行了优化。此过程中使用的所有特征的完整列表见表1。伽马调音频系数（GTCC）特征提取流程图。除了手工制作的特征外，我们还使用了1D卷积神经网络（CNN）直接从贝壳破碎声音的频谱图中自动学习具有区分性的特征。CNN处理通过短时傅里叶变换（Short-Time Fourier Transform）获得的时间频率表示，其中每个裂纹都使用128样本的汉明窗口（重叠率为75%，即96个样本）和256点FFT转换为频谱图，覆盖0-22.05 kHz的频率范围。功率谱密度计算为10log10(|STFT|2)的dB刻度，并在输入网络之前进行z分数标准化。与依赖领域专业知识的传统特征提取方法不同，CNN可以通过多个卷积层自动发现层次化的表示。该网络由三个卷积块组成，这些卷积块的滤波器深度逐渐增加（分别为32、64和128个滤波器），以在多个抽象层次上捕捉特征（附录D）。每个卷积块包括批量归一化以稳定训练，ReLU激活函数用于非线性处理，以及最大池化用于降维。在最后一个卷积层之后应用全局平均池化来聚合空间信息，接着是全连接层和dropout正则化以防止过拟合。网络使用Adam优化器进行训练，初始学习率为α=1×10^-3，该学习率遵循分段衰减计划（每30个周期衰减因子为0.5）。训练最多进行100个周期，小批量大小为32，L2正则化参数λ=1×10^-4以防止过拟合。

表1. 用于贝壳裂纹分类的特征列表。

特征数量描述
GTCC 13 伽马调音频系数
Delta13 13 GTCC的差值
Delta-Delta13 13 GTCC的差值的差值
Spectral slope 1 ∑k=b1b2(fk?μf)(sk?μS)
Spectral Rolloff point 1 ∑k=b1isk=k
Spectral skewness 1 ∑k=b1b2(fk?μ1)
Spectral kurtosis 1 ∑k=b1b2(fk?μ1)
Spectral flatness 1 ∏k=b1b2(sk1/(b2?b1)
Spectral crest factor 1 max(sk∈[b1,b2])
Spectral decrease 1 ∑k=b1+1b2(sk?sb1)/(k?1)
Spectral spread 1 ∑k=b1b2(fk?μ1)2

预训练的CNN模型也被用作LSTM分类器的特征提取器。VGG-16（Simonyan和Zisserman，2015年）最初是为图像分类开发的，通过将音频信号转换为128×128像素的频谱图并从中提取特征来进行适应。ResNet-50（Deng等人，2009年）利用残差连接来通过减轻梯度消失问题来训练更深的网络。Inception-v3（Szegedy等人，2016年）通过不同核大小的并行卷积过滤器捕获多尺度特征。对于特定于音频的迁移学习，Wang等人（2023年）的VGGish在包含超过200万个人类标记的YouTube片段的AudioSet数据集上预训练，从频谱图中提取128维嵌入。同样，YAMNet（Williams等人，2025年）是基于MobileNet-v1深度可分离卷积架构的预训练音频事件分类器。

2.4.3. 事件分类
为了对HC、BT和CC三种物种的捕食事件进行分类，我们使用了每种物种的一分钟声音片段。现在，裂纹组已经根据其频谱特征进行了特征描述，最终的分类步骤是通过应用传统和深度学习分类器来完成的。本评估中使用的传统分类器包括RF和SVM，而深度学习模型是LSTM神经网络。这两种传统算法都常用于根据提取自MFCC的声学信号特征来分类鱼类声音（Noh，2021年；Ibrahim等人，2018年）。LSTM是一种特殊的循环神经网络（RNN），旨在解决时间序列中存在的梯度消失问题（Bengio等人，1994年）。然而，RNN也以其对时间信号的模式识别能力而闻名（Noh，2021年；Hu等人，2018年）。LSTM架构由称为记忆块的循环连接子网组成，每个记忆块包含一个或多个自连接记忆单元以及三个乘法单元：输入门、输出门和遗忘门。这些门为单元提供了写入、读取和重置操作的连续类比（图8）。

给定输入数据序列x={x1,…,xN}，LSTM单元通过从t=1到N迭代以下方程来计算隐藏序列h={h1,…,hN}和输出序列y={y1,…,yN}：(3)ft=σ(Wfxt+Ufht?1+bf)(4)it=σ(Wixt+Uiht?1+bi)(5)ot=σ(Woxt+Uoht?1+bo)(6)pt=tanh(Wcxt+Ucht?1+bc)(7)ct=ft°ct?1+it°pt(8)yt=ht=ot°tanh(ct)，其中it、ft、ot和pt分别是输入门、遗忘门、输出门和单元输入激活向量，ct是一个自连接的状态向量，°表示Hadamard积。W和U表示权重矩阵，b表示偏置向量。

下载：下载高分辨率图像（252KB）
下载：下载全尺寸图像

图8. 长短期记忆网络架构，其中it、ft、ot和pt分别是输入门、遗忘门、输出门和单元输入激活向量，Ct是自连接的状态向量。输入数据序列是Xt，LSTM隐藏序列是ht，输出序列是yt，t=1到N。

GTCC+LSTM和CNN+LSTM模型的完整架构规格详见附录E和附录F。CNN+LSTM架构处理129维的CNN提取特征，覆盖T个时间步长，而GTCC+LSTM架构处理48个GTCC特征。这两种架构都采用了具有128个和64个隐藏单元的双层LSTM网络，随后是用于正则化的dropout层和用于分类的全连接层。用于模型优化的训练超参数总结在附录G中。对于所有预训练模型，提取的特征都被输入到LSTM网络中，以捕获喂食事件中连续裂纹声音的时间依赖性。

2.4.4. 评估指标
我们使用标准指标来评估该方法的有效性，即敏感性（Sens，也称为召回率）、特异性（Spec）、F1分数和分类准确性（Acc）。准确性是指正确分类的声音数量占总声音数量的百分比。F1分数是精确度和敏感性的调和平均值。精确度表示正确识别的类别占所有预测类别的比例。敏感性是指正确分类的裂纹数量占总裂纹数量的百分比。特异性是指正确分类的非裂纹声音数量占非裂纹声音总数的百分比。此外，还使用了下面定义的Matthews相关系数（MCC）来衡量二元分类的质量。如果TP、TN、FP和FN分别表示真阳性、真阴性和假阳性、假阴性，那么准确性为Acc=TP/(TP+TN)，敏感性为Sens=TP/TN，特异性为Spec=TN/(TN+FP)，F1分数为F1=2×TP/(TP+FP+FN)，MCC=TP×TN/(TP+FP)(TN+FP)。

除了上述指标外，还计算了每个模型的接收者操作特征曲线下的平均面积（AUC-ROC）。它通过AUC指标提供了与阈值无关的区分能力评估。为了更深入地了解每种分类方法学习的特征表示，我们应用了t分布随机邻域嵌入（t-SNE）将高维特征空间投影到二维可视化图中。

2.5. 应用于模拟和野生环境中的贝壳破碎声音
2.5.1. 实验设置
为了开始验证在此提出的算法在基于水箱记录的数据上的适用性，我们将表现最好的模型应用于通过三种方法收集的现场数据：
1. 在美国佛罗里达州东海岸的Indian River Lagoon目标环境中进行的模拟贝壳处理事件。选择该目标位置（即Sebastian Inlet附近的潟湖“平地”是因为那里是已知的白点鹰鳐觅食的地方（DeGroot等人，2020年；Cahill等人，2023b）。实验包括在一个名为Loggerhead Cyclops的装置在一分钟的时间内对位于沙底混凝土锚定点的8个不同距离（1、5、10、25、100、200和500米）处的HC破碎事件的记录。硬壳蛤蜊在距离底部0.5米处、深度1.1米的地方被用一种改进的重型40.6厘米的带槽钳子（Crescent Tool Company制造）粉碎，该钳子的上下颚分别焊接了两块6.4厘米×5.1厘米×0.4厘米的钢板，模仿了白点鹰鳐的颚（Ajemian等人，2021年）。模拟的HC裂纹的信号特性用于评估我们的检测器在距离源头不同距离处的性能。信号损失是从距离水听器1米的距离计算得出的。2023年7月28日在百慕大北潟湖中，一个带有标签的白点鹰鳐在沙底觅食的音频记录。标签和附件的描述见Hampton等人（2025年）。所有记录的觅食事件都来自一个雌性鹰鳐（盘宽92厘米），水深在5到7米之间。这些记录中的猎物类型未知。内置在动物携带的标签中的HTI-96-Min水听器距离鹰鳐的口腔腔10-15厘米，采样率为48 kHz，增益设置为0，灵敏度为?170.1 dB re: 1 V/μPa。

2.5.2. 后处理和事件识别
在匹配滤波器检测和MFCC-SVM确认之后，实施了一个后处理阶段，以区分真实的觅食事件和虚假检测（干扰因素）。虽然检测流程有效地识别了单个裂纹声音，但并非所有确认的检测都对应于实际的觅食活动。孤立的声音可能来源于环境因素，如船只空化、虾的 snapping 声音、沉积物扰动或设备伪影。为了解决这个问题，我们根据Ajemian等人（2021年）描述的鹰鳐破碎贝壳行为的时间特征建立了事件识别标准。在 active觅食过程中，鹰鳐会连续快速地产生破碎贝壳的声音。行为观察表明，一个觅食事件中的连续裂纹通常间隔不到5秒。基于此，我们设置了10秒的间隔阈值，将时间上相邻的检测分组到一起。这个保守的阈值考虑了在处理猎物时的短暂暂停，同时有效地分隔了不同的觅食事件。连续检测之间的间隔≤10秒的被归入同一个簇，而间隔超过10秒的标记为簇边界。此外，还强制执行了每个簇至少需要3次检测的最低要求。真实的贝壳破碎事件需要多次机械交互来破坏贝壳结构，包括初始破裂、逐步破碎和消耗。包含少于3次检测的簇被分类为干扰因素，因为孤立的声音（1-2次裂纹）更可能代表假阳性检测、非觅食声源或不完整的觅食尝试。只有同时满足两个标准（裂纹间间隔≤10秒和簇大小≥3）的簇被分类为有效的觅食事件，并随后通过猎物分类流程进行处理。被识别为干扰因素的检测被排除在猎物类型确定之外，但保留在分析输出中以进行质量控制和方法透明度。

表2. 用于事件识别的后处理参数。
参数值理由
Gap threshold 10秒在一个觅食事件中连续裂纹间隔<5秒；10秒提供了一个保守的间隔来区分不同的事件
Minimum cracks per event 3 真实的贝壳破碎需要多次破裂；孤立的1-2次裂纹可能代表假阳性或非觅食声音

3. 结果
3.1. 裂纹检测
为了优化匹配滤波器检测性能，系统地评估了自适应阈值的增益因子，测试的值范围从0.5到10，增量为0.2。图9中的检测曲线揭示了增益因子和检测到的事件数量之间的关键关系：较低的增益值会导致更高的检测数量和更高的敏感性，而较高的增益值会通过过于激进地提高阈值来抑制检测。我们没有尝试仅通过MF达到完美检测，而是故意选择一个较低的增益因子，以最大化可检测性并捕获所有潜在的裂纹事件，包括那些在噪声地区的事件。这种宽容的方法确保了在初始检测阶段不会遗漏任何真正的阳性事件。随后，通过使用MFCC + SVM分类器系统地消除了由于这种低阈值策略而产生的不可避免的误报。MFCC + SVM作为二次细化阶段，用于区分真实的裂缝事件和虚假检测。这种两阶段方法利用了两种方法的互补优势：MF提供了具有高灵敏度的全面事件捕获能力，而MFCC + SVM则提供了强大的区分能力和特异性，以抑制误报。表3中呈现的结果突出了单独使用MF以及结合MFCC和SVM时的性能比较。尽管匹配滤波器在灵敏度方面表现优异，但MF + MFCC-SVM的组合方法更为均衡，实现了更高的总体准确性、更好的特异性以及更低的误报率。这使得该组合方法更适合实际应用，在这些应用中，灵敏度和特异性之间的权衡至关重要。

下载：下载高分辨率图像（258KB）
下载：下载全尺寸图像
图9. 匹配滤波器阈值的增益因子优化。随着增益的增加，检测数量迅速减少，最佳值出现在与真实值的交点处（4283次检测），由绿色星号标记。

在野外对模拟的HC裂缝信号进行的可检测性实验表明，在1米的距离上，MF能够以完美的灵敏度检测到所有模拟裂缝，且没有误报。在1米的距离上，信号强度很强，路径损失的影响很小。然而，随着距离的增加，路径损失导致信号强度逐渐减弱，降低了裂缝检测的可靠性（图10）。在1到50米之间，灵敏度从1下降到0.84，这仍然足以检测和分类事件。在50到100米之间，灵敏度降至0.63。在50到100米之间，信号显著减弱，使得检测器难以区分真正的裂缝信号和背景噪声。为了解决路径损失导致的信号减弱问题，降低了检测阈值以确保捕捉到所有裂缝事件。然而，这种调整也增加了检测到非裂缝信号（例如背景噪声或环境干扰）的可能性，从而导致误报率升高，灵敏度降低。

表3. MF与MF + MFCC-SVM性能指标的比较。
特征类型准确率（Acc）灵敏度（SE）特异性（SP） FPR F1分数
MF 0.60 1.00 0.40 0.60 0.70
MF + MFCC-SVM 0.94 0.96 0.93 0.07 0.98

下载：下载高分辨率图像（261KB）
下载：下载全尺寸图像
图10. 灵敏度与距离的关系。
下载：下载高分辨率图像（343KB）
下载：下载全尺寸图像
图11. 分类性能（80%–20%分割）以及95%置信区间，显示了三种猎物物种（皇冠鲍鱼（橙色）、条纹郁金香（绿色）和硬壳蛤蜊（蓝色）每种方法的准确性、灵敏度和特异性。

3.2. 80%–20%分层训练-测试分割评估
3.2.1. 手工特征模型
GTCC+LSTM成为表现最佳的模型，始终优于GTCC+RF、GTCC+SVM和MFCC+LSTM（图11）。然而，后者在总体排名上仅次于GTCC + LSTM。基于LSTM的模型在捕捉与裂缝相关的声学特征的时间依赖性方面表现出优势。在所有机器学习分类器中，GTCC + RF在HC和BT的所有指标上均优于GTCC + SVM。有趣的是，SVM分类器在CC方面的表现优于RF。在所有评估中，分类系统在HC上的表现最好，实现了最高的准确性、灵敏度和特异性，其次是BT和CC。LOEO评估（图12）缩小了模型之间的性能差距，并显著提高了整体性能，特异性几乎完美。最佳模型仍然是GTCC+LSTM，HC的性能最高，其次是BT和CC。MFCC和GTCC特征在分类器性能方面的差异也有所减小。

3.2.2. 学习到的特征模型
由于GTCC在手工特征提取方面的优越性能，现在将其性能与六种深度卷积架构（1D CNN、VGG CNN、ResNet、Inception CNN、VGGish和YAMNet）进行了比较。所有架构都与LSTM模型结合用于最终猎物物种的分类。图13a展示了所有深度学习和最佳机器学习方法（即GTCC + LSTM）的总体分类准确性及95%置信区间。Inception CNN + LSTM实现了最高的准确性（99.8%），其次是ResNet + LSTM（98.9%）和GTCC + LSTM（98.0%）。深度CNN架构ResNet、Inception CNN的表现优于预训练的音频模型VGGish和YAMNet。我们自定义设计的CNN模型比前两者和VGG CNN + LSTM表现更好。

灵敏度比较（图13b）显示，Inception CNN + LSTM和ResNet + LSTM在所有类别中都实现了最平衡的性能，并在所有类别中获得了最高分数。GTCC + LSTM对BT的灵敏度尤其强，其次是1D CNN + LSTM、VGG CNN + LSTM和YAMNet + LSTM，然后是HC。GTCC + LSTM在HC上的灵敏度最高。CC分类在所有模型中表现最差，特别是对于GTCC + LSTM和VGGish + LSTM（<90%）。

下载：下载高分辨率图像（680KB）
下载：下载全尺寸图像
图13. 80%–20%交叉验证分类性能，用于鹰鳐猎物声学识别。
(a) 按方法划分的总体分类准确性，误差条表示95%置信区间；表现最好的方法（Inception CNN + LSTM）用红色标出。
(b) 每种猎物类别的灵敏度（召回率），显示了对皇冠鲍鱼、条纹郁金香和硬壳蛤蜊的检测率。
(c) 每种猎物类别的特异性，表示真阴性率。
(d) 每种猎物类别的F1分数。
(e) 性能热图，显示了所有八种分类方法的宏观平均准确性、灵敏度和特异性。

特异性比较（图13c）显示，所有方法对所有三种物种的特异性均很高（>95%）。CC的特异性最高（>98%），表明该类别的误报率很低。BT的特异性最低（95.5%），表明有其他物种被误分类为BT的倾向。VGGish + LSTM与GTCC + LSTM和1D CNN + LSTM（95.5%）的特异性也最低。Inception CNN + LSTM和ResNet + LSTM在物种间保持了相对的特异性平衡，显示出它们在保持高检测率的同时最小化误报的能力。总体而言，在这80%–20%评估中表现最好的两个模型是Inception + LSTM和ResNet + LSTM（图13e, d）。F1分数表明BT的总体性能最佳（图13e）。

3.2.3. 留一事件外评估
LOEO交叉验证实验在所有猎物物种上的分类性能优于传统的80%–20%训练-测试分割评估（图14）。在评估的七种方法中，Inception CNN + LSTM实现了最高的总体准确性，为99.20%，其次是GTCC + LSTM（98.80%）和VGG CNN + LSTM（98.50%）（图14a）。类别特定分析显示，大多数方法对BT的灵敏度最高，VGG CNN + LSTM、ResNet + LSTM和Inception CNN + LSTM分别实现了接近完美的检测率，分别为99.5%、99.8%和99.8%（图14b, d）。HC分类也表现出出色的灵敏度，VGG CNN + LSTM和ResNet + LSTM实现了98.5%，Inception CNN + LSTM达到了98.7%。由于CC具有独特的贝壳挤压特征，在方法间的变化最大，范围从85.5%（1D CNN + LSTM）到98.0%（Inception CNN + LSTM）。GTCC + LSTM对CC的灵敏度最高。所有方法中CC分类的表现最低，特别是GTCC + LSTM和VGGish + LSTM（<90%）。

下载：下载高分辨率图像（744KB）
下载：下载全尺寸图像
图14. 留一事件外（LOEO）交叉验证分类性能，用于鹰鳐猎物声学识别。
(a) 按方法划分的总体分类准确性，误差条表示95%置信区间；表现最好的方法（Inception CNN + LSTM）用红色突出显示。
(b) 每种猎物类别的灵敏度（召回率），显示了对皇冠鲍鱼、条纹郁金香和硬壳蛤蜊的检测率。
(c) 每种猎物类别的特异性，表示真阴性率。
(d) 每种猎物类别的F1分数。
(e) 性能热图，显示了所有八种分类方法的宏观平均准确性、灵敏度和特异性。

3.2.4. 接收者操作特征曲线下面积（AUC）评估
AUC值显示，GTCC + LSTM和ResNet + LSTM在所有三种猎物物种上都获得了接近完美的AUC分数，CC的AUC = 1.000，BT的AUC = 0.999，HC的AUC = 1.000（图15）。这种出色的性能表明，这两种分类器在所有分类阈值上都保持了出色的排名能力，意味着真正的阳性样本始终比阴性样本获得更高的置信度分数。Inception CNN + LSTM也展示了出色的区分能力，对BT和HC的AUC值分别为1.000和0.999，证实了其学习高度可区分特征表示的能力。尽管预训练在通用音频事件上，预训练的音频模型VGGish（AUC范围：0.997–0.998）和YAMNet（AUC范围：0.994–0.998）的区分能力较差，表明它们学习到的音频表示在学习到专门用于贝壳挤压声学特征的领域时效果有限。GTCC + LSTM在所有类别中始终保持较高的AUC值，证实了伽马音调倒谱系数有效地捕获了贝壳挤压声音的区分性声学特征，LSTM架构成功模拟了裂缝序列中的时间依赖性。相比之下，GTCC + RF在CC上的AUC值较低（CC: 0.989，BT: 0.974，HC: 0.976），表明尽管模型实现了合理的分类性能，但其置信度校准不如基于神经网络的方法可靠。

下载：下载高分辨率图像（367KB）
下载：下载全尺寸图像
图15. 所有八种分类方法的接收者操作特征（ROC）曲线。每个子图显示了皇冠鲍鱼（橙色）、条纹郁金香（蓝色）和硬壳蛤蜊（绿色）的ROC曲线，相应的AUC值显示在图例中。虚线对角线表示随机分类（AUC = 0.5）。

3.3. 特征表示
3.3.1. 手工特征模型
t-SNE图揭示了明显的聚类模式，阐明了学习到的表示的潜在结构，并解释了观察到的分类性能差异（图16）。GTCC + RF（91.9%准确性）在类别之间有相当多的重叠，特别是在CC（红色）和HC（灰色）样本之间，这解释了CC分类较低的灵敏度。RF模型汇总了GTCC系数在裂缝序列中的统计摘要，似乎丢失了一些LSTM架构保留的时间区分信息。实际上，GTCC + LSTM（98.4%准确性）为所有三种猎物物种展示了清晰的聚类，CC在右上角形成了一个明确的紧凑群体，HC在左中部形成了一个单独的细长群体，BT（蓝色）占据了其他两个群体周围的两个明确定义的区域。这种清晰的类别分离解释了高分类准确性和所有物种之间的平衡性能。

3.3.2. 学习到的特征模型
深度CNN架构所学习到的表示比手工特征模型更加紧密且分离得更好。Inception CNN + LSTM（98.9%准确性）和VGG CNN + LSTM（98.1%准确性）都展示了紧密且分离良好的类别群，类别之间的边界清晰，解释了它们的高分类准确性。ResNet + LSTM（97.9%准确性）显示了明显的类别群，但HC类别被分成两个群。预训练的音频模型YAMNet + LSTM（97.1%准确性）和VGGish + LSTM（96.9%准确性）展示了分离良好的群体，但类别之间有点重叠，这似乎影响了它们的较低性能。此外，在VGGish特征空间中，BT类别被分成了两个簇，这似乎进一步降低了模型性能，与YMANet相比。尽管这些模型是在包含多种音频事件的大规模AudioSet数据集上预训练的，但壳体破碎声音的声学特性与典型的音频类别有显著不同，这可能解释了为什么像GTCC + LSTM这样的领域特定方法能够取得更好的性能。1D CNN + LSTM（准确率为95.3%）显示出更加分散的簇和更大的类间重叠，这与其较低的总体准确率相对应。t-SNE可视化结果共同表明，具有更高分类准确性的方法对应于类间分离更明显、类内聚类更紧凑的特征空间，从而验证了学习到的表示质量与分类性能之间的关系。

下载：下载高分辨率图像（599KB）
下载：下载全尺寸图像

图16. 使用80%-20%训练-测试分割的所有八种分类方法的特征空间的t-SNE可视化。每个点代表一个测试样本，根据猎物种类进行着色：皇冠蜗牛（红色）、带状郁金香（蓝色）和硬壳蛤（绿色）。每种方法的分类准确率用括号表示。

表4. 模型复杂性比较。

方法 | 参数 | 输入类型 | 训练时间 | 准确率 |
| --- | --- | --- | --- | --- |
| GTCC+RF | ～200棵树 | 116维向量 | 非常快 | 91.90% |
| GTCC+LSTM | ～50K | 48维序列 | 快速 | 98.40% |
| 简单CNN | ～200K | 128 × 128图像 | 中等 | 95.30% |
| VGG CNN | ～15M | 128 × 128图像 | 慢速 | 98.10% |
| ResNet CNN | ～11M | 128 × 128图像 | 慢速 | 97.90% |
| Inception CNN | ～8M | 128 × 128图像 | 慢速 | 98.90% |
| VGGish | ～62M | Mel频谱图 | 非常慢 | 96.90% |
| YAMNet | ～3.2M | Mel频谱图 | 慢速 | 97.10% |

3.4. 实际考虑因素

尽管深度CNN架构展示了具有竞争力的分类准确率，但在海洋生物声学监测系统中的实际部署需要仔细评估计算复杂性、可解释性和泛化能力。表4总结了与现场部署场景相关的模型复杂性特征。尽管深度CNN架构在受控实验环境中具有竞争力，但我们认为GTCC+LSTM是海洋生物声学监测应用中的首选方法。这一推荐基于多个互补的考虑因素，包括计算效率、声学可解释性、时间建模能力和泛化性能。从计算角度来看，GTCC+LSTM仅需要大约50,000个参数，而深度CNN架构需要800万到1500万个参数，这意味着模型复杂性降低了160到300倍，从而直接导致更快的推理时间，适合实时处理，更低的存储需求，与嵌入式系统和现场录音设备兼容，并且显著降低了能耗，这对于电池供电的水下声学监测部署至关重要。GTCC特征本身来自gammatone滤波器组，它模拟了人类听觉系统的频率选择性，并提供了基于CNN的频谱图特征所缺乏的声学可解释性。这种可解释性使研究人员能够分析哪些频率带对分类决策贡献最大，理解特定猎物的声学特征，并将学习到的模式与声学理论进行验证，这些都是科学研究和系统改进所必需的能力。

3.5. 在现场数据上的模型评估

3.5.1. 动物搭载的声学记录

为了评估训练有素的分类器的实际适用性，将表现最佳的模型部署在由动物搭载的声学记录器收集的连续现场记录上（图17）。在2.5小时的观察期间（11:45–14:15），该系统自动检测并分类了17个捕食事件，这与人类专家（CH）识别的事件数量相同（Hampton等人，2025年）。然而，观察者并未识别出猎物种类。分类器识别出了10个HC消费事件（E1, E2, E3, E6, E8, E10, E11, E14, E15, E17）和7个BT捕食事件（E4, E5, E7, E9, E12, E13, E16），在此记录期间没有检测到CC事件。事件的时间分布显示了集群模式，在11:45–12:00和13:15–13:45期间有多个HC事件连续发生，这表明魟鱼可能有潜在的觅食行为。事件的时间分布与人类观察者识别的时间分布相同（Hampton等人，2025年）。事件持续时间在图17中通过标记大小表示，HB事件通常比BT事件具有更长的破碎持续时间。这些现场结果展示了分类器自主处理连续声学数据的能力，并提供了关于鹰魟觅食行为、猎物选择和时间活动模式的实时洞察，而无需手动注释记录。

下载：下载高分辨率图像（135KB）
下载：下载全尺寸图像

图17. 2023年7月28日收集的现场记录中自动分类的捕食事件的时间分布。每个标记代表一个检测到的壳体破碎事件，垂直位置表示分类后的猎物种类（硬壳蛤、带状郁金香或未分类），标记大小与事件持续时间成正比。在2.5小时的监测期间共检测到17个事件，包括10个硬壳蛤和7个带状郁金香捕食事件。

3.5.2. 固定站的声学记录

在这个实验中，已知猎物种类是HC。最佳性能模型也被应用于声学记录。对于这次评估，我们关注的是白斑鹰魟的进食事件，这些事件发生在一个短时间内，在此期间可以听到大量的壳体破碎声音（图18）。模型识别出了32个破碎事件，所有这些事件都发生在魟鱼存在期间。在分析的300秒记录中，没有检测到超过4个干扰事件（误报）。大多数事件被分类为HC，少数被分类为BT和CC。分析的一个关键参数是将裂纹间隔阈值设置为10秒。

后处理算法从记录中总共计检测到36次事件。应用事件识别标准（裂纹间隔≤10秒且至少有3个裂纹），检测到一个有效的进食事件，包含32个裂纹，持续时间从90.7秒到124.1秒，总持续时间为33.4秒。其余4次检测被分类为干扰，因为它们是孤立的单个裂纹，未满足最低裂纹要求，表明它们可能是由环境噪音引起的误报，而非真实的进食活动。

下载：下载高分辨率图像（378KB）
下载：下载全尺寸图像

图18. 已知硬壳蛤猎物的固定站声学记录的检测和分类结果。(a) 匹配滤波器（MF）相关输出显示检测到的裂纹，事件裂纹（红色圆圈）和干扰（灰色圆圈）由后处理算法区分。绿线显示MF的阈值。(b) 音频信号的波形显示被识别为裂纹的个别信号（红色条形）和误报（干扰，灰色虚线条形）。(c) 裂纹间隔分析显示时间聚类；间隔超过10秒（红色条形）分隔不同的簇，而间隔≤10秒（绿色条形）将裂纹分组在同一事件内。10秒的阈值由红色虚线表示。(d) 事件和猎物种类识别分类结果。(e) 个别裂纹分类按预测的猎物种类进行颜色编码。单个有效的进食事件（32个裂纹，90.7–124.1秒）通过基于序列的多数投票正确分类为硬壳蛤，而4个孤立检测被识别为干扰并排除在分类之外。

在有效的进食事件中，个别裂纹级别的分类产生了混合预测：带状郁金香占12个裂纹（37.5%），硬壳蛤占13个裂纹（40.6%），皇冠蜗牛占7个裂纹（21.9%）。尽管在个别裂纹级别存在这种变异性，基于序列的分类方法表现得更好。使用25个连续事件裂纹的序列（持续时间从90.7秒到114.3秒），分类器以100%的置信度正确识别出猎物种类为硬壳蛤，与已知真实情况一致。这一结果突显了基于序列方法的稳健性，该方法通过利用进食事件中声学特征的时间一致性有效过滤掉了个别误分类。表5总结了检测和分类结果。

表5. 已知硬壳蛤猎物的固定站声学记录的检测和分类结果。

指标 | 值 |
| --- | --- |
| 总检测次数 | 36 |
| 有效进食事件 | 1 |
| 事件裂纹 | 32 |
| 事件持续时间 | 33.4秒 |
| 事件时间范围 | 90.7–124.1秒 |
| 干扰检测 | 4 |
| 个别裂纹分类（事件） | 带状郁金香（BT）12（37.5%） | 硬壳蛤（HC）13（40.6%） | 皇冠蜗牛（CC）7（21.9%） |
| 基于序列的分类 | 预测猎物 | 硬壳蛤 | 真实情况 | 硬壳蛤 |

3.5.3. 水箱数据与现场数据的比较

对检测到的声学特征进行定性检查显示，水箱数据和现场记录之间的光谱模式是一致的（图2）。来自事件E1和E4的现场事件频谱图与其各自的HC和BT郁金香训练类原型有着显著的声学相似性，尽管在自然条件下的幅度低了一个数量级，但仍保留了特征性的宽带脉冲特征和多组分光谱结构。干扰频谱图显示出明显不同的声学模式——以较低的频率能量内容和缺乏特征性的宽带裂纹特征为特点——这证实了8秒的裂纹间隔阈值有效地区分了真正的捕食事件和虚假检测。这种三方面比较验证了从水箱中衍生出的声学模型向现场条件的可转移性，并对自主分类结果提供了信心。

4. 讨论

我们的结果突显了我们提出的系统在检测和分类各种声学记录中的壳体破碎事件方面的有效性，该系统使用的是基于水箱记录开发的算法。首先，使用MF来检测与壳体破碎事件相关的裂纹。为了通过降低MF阈值来捕捉所有壳体裂纹从而减少误报率，我们结合使用了MFCC和SVM。MFCC提取光谱特征以区分真实裂纹信号和噪声，而SVM作为分类器过滤掉误报，提高了整体检测的可靠性。为了捕捉尽可能多的相关信号而降低敏感性是一个需要后处理技术来提高检测准确性的权衡。

其次，一旦检测到裂纹，就对裂纹信号应用了两种类型的特征提取器。从MFCC和GTCC获得了手工制作的特征，而从预训练的CNN和自定义设计的网络中获得了无监督特征。裂纹根据猎物种类进行分类，分别使用了传统的和深度学习分类器，如RF和LSTM。在两种手工制作的特征提取方法中，GTCC的表现最好，这强调了使用更高级的光谱形状特征进行生物声学事件分类的价值。GTCC特征的成功，特别是当与LSTM结合使用时，可以归因于它们捕捉壳体破碎声音的复杂光谱特征的能力，这对于准确检测至关重要。然而，MFCC特征与LSTM的组合仍然是一个很好的替代方案，因为它们具有计算效率高和实现容易的优点。有趣的是，在音频数据上训练的模型并不如在随机图像上训练的模型表现好。此外，表现最好的模型仅比GTCC略好，这使得GTCC成为资源有限情况下高效分离壳体破碎特征的主要方法。总体而言，这项研究的发现表明，将GTCC特征与传统的机器学习算法（如RF和SVM）相结合，仍然可以达到与深度学习分类器相当的性能指标。

不同分类器的比较分析还提供了有关三种壳类中哪种最容易识别的宝贵见解。对于手工制作的特征模型，HC通常显示出分类器表现最好的物种，其次是BT和CC。对于预训练的模型，BT似乎是分类器表现最好的物种，其次是CC和HC。这并不令人惊讶，因为手工制作的特征和基于CNN的特征已被证明是互补的，并且在样本量较小时可以提高分类器的性能（Lin等人，2020年）。

LSTM架构对时间依赖性的显式建模自然地与壳体破碎的物理过程相一致，其中多个裂纹事件以不同猎物种类特有的序列发生。与将频谱图视为静态图像的CNN不同，LSTM处理从连续裂纹中提取的序列GTCC或CNN特征，捕捉进食事件内的过渡和时间模式，这些模式区分了不同类型的猎物。这种时间建模提供了对变长序列的稳健处理，并与底层声学现象自然对齐。此外，80%-20%分割评估的结果表明，GTCC + LSTM实现了与基于CNN的模型相似的特异性性能，但在敏感度性能上有所下降，特别是在少数类CC方面。LOEO评估也证实了GTCC与基于CNN的模型之间的这种差异，其中前者更适合检测CC，尽管在非音频数据上训练的模型获得了最佳结果。然而，基于CNN的模型的显著更大计算开销仍然是一个挑战。GTCC特征提取流程仅需要应用gammatone滤波器组、离散余弦变换和delta系数计算，这些都是计算效率高的操作，可以在资源受限的嵌入式平台上实现。这与CNN方法形成对比，后者需要计算频谱图、调整图像大小、进行归一化，并通过数百万个参数进行处理。Gammatone滤波器专为瞬态声音分析而设计，与VGGish和YAMNet使用的梅尔频率特征相比，它能提供更优越的时频分辨率，以捕捉压碎贝壳时产生的裂纹声音的快速起始和衰减特性。总体而言，表现最佳的模型是Inception CNN + LSTM。虽然所有训练数据都是从水族箱实验中收集的，但评估模型在野外检测压碎贝壳事件的能力是通过使用动物携带式和底部安装的声学记录器来进行的。对于第一种记录方式，虽然已知实验地进行地存在双壳类和腹足类等不同种类的猎物（S Sterrer和Schoepfer-Sterrer，1986），但具体是哪种猎物尚不清楚。结果表明，该算法能够识别出魟鱼的觅食时间和持续时间。对于固定位置的录音，结果显示与魟鱼觅食事件相关的所有裂纹都被检测到，其中只有4个事件受到干扰（灵敏度为0.89）。大多数检测结果被归类为HC，这证实了该模型尽管使用的是水族箱数据，但仍能正确分类野外猎物种类。尽管存在水族箱数据的局限性，我们的模型提供的信息与人类观察者的发现以及第二次实验中使用的猎物种类是一致的。

生态意义：捕捉海洋生态系统中的捕食者-猎物互动（即软体动物消耗）对于量化大型移动捕食者的生态重要性及其对底栖群落的捕食压力是必要的。这些数据的重要性已被认可了数十年（Estes和Peterson，2000），但由于各种原因一直无法实现。现在，我们可以通过声学手段检测和分类捕食者对多种猎物的消耗情况，从而更接近于远程量化对软体动物的捕食率。此外，还可以建立一种新的方法来研究移动海洋生物的觅食行为（包括猎物偏好）。如果这些信息可以通过动物携带式标签获得（如已经对海洋哺乳动物和其他大型捕食者所做的那样（Tournier等人，2021；Hampton等人，2025）），研究人员可以利用声学数据来获取个体层面的捕食率和猎物选择信息，从而填补海洋大型动物生态学研究中的重要空白（Hays等人，2016）。训练阶段使用的所有猎物处理数据均来自水族箱实验，涉及四种不同的魟鱼。特征空间可视化（t-SNE）中簇的紧凑度或分散程度可能是由于同一物种猎物大小的变化（因此是贝壳厚度）以及捕食者处理时间和每次觅食事件产生的裂纹数量的不同所致。这些信息最终可用于识别个别捕食者及其潜在的猎物大小。

研究应用：重要的是，这里研究的猎物范围从固定的底栖滤食者（如HC）到更移动的表层食肉动物（BT和CC）都有。因此，在现场记录中训练出的检测分类方案将能够追踪沿海生态系统中各种环境下的软体动物死亡率。这项工作具有重要意义，因为它扩展了软体动物恢复工作和贝类水产养殖的研究，并有助于了解魟鱼与这些项目的相互作用。正如Cahill等人（2023c，2023a）所指出的，尽管这些地点存在魟鱼，但人们对它们的消耗行为了解甚少。此外，魟鱼只是众多可能对这一行业构成挑战的捕食者之一，因此仍需要进一步研究其他物种的觅食声学特征，以解析它们在这一过程中的作用。

局限性与机遇：尽管我们成功地检测和分类了捕食事件，但技术和后勤挑战仍存在。例如，用于训练机器学习和深度学习模型的数据集主要基于水族箱记录，其中声学信号可能会发生反射和失真，并且低频信号会减弱（Okumura等人，2002；Jézéquel等人，2022）。新的动物携带式传感平台和现场部署可以支持采集现场训练数据，扩充现有数据集并提高模型性能。虽然捕食事件只能在距离声源50米范围内成功检测到，但在已知存在移动捕食者（如魟鱼）的区域远程检测捕食事件并收集现场数据的可能性是令人鼓舞的。然而，现场声学数据的不可控性质可能会限制检测和分类方法的效果。自然声景充满了噪声，这些噪声来自多种来源，强度和频率各不相同，经常包含可能被误判为压碎贝壳事件的宽带信号（Erbe等人，2025）。此外，由于水文特征导致的信号失真也可能使相关声学事件无法被检测到。这些限制可能因研究系统和物种的不同而异，因为特定地点的声学条件和物种组合可能通过频谱失真或传输损失模仿出已学习的捕食信号特征，从而引入偏差。当真正成功的检测到觅食事件时，这些信号的来源可能仍然不明确。当前的模型依赖于断裂声音的时间聚类来定义觅食事件并识别猎物种类，而在面对多个捕食者或产生重叠断裂声音的多个猎物时可能会遇到困难。这种限制还受到生态变异性的影响，因为大多数猎物的分布并不均匀，捕食者和猎物的大小及分布也可能随栖息地而变化。这些效应可能导致对捕食者存在或猎物死亡率的低估。

在这项研究中使用的猎物类型仅代表现存双壳类和腹足类物种的一小部分，且仅与收集声学数据的地点相关。因此，当前框架的分类分辨率无法达到直接观察捕食事件所能达到的水平。此外，如果分类特征受壳形态和大小的强烈影响，则在腹足类和居住在壳中的生物（如寄居蟹（Paguroidea）之间可能存在误分类的情况，因为在某些地点这些生物很常见且与有壳猎物共存。与所有水下传感器一样，水听器会受到时间漂移、生物污染以及其他与长期海洋部署相关的技术挑战的影响。如果没有定期维护，这些因素会随着时间的推移降低系统性能并减少检测范围（Heupel等人，2008），从而影响潜在的捕食事件和物种识别。有限的数据挑战也可以通过迁移学习方法和少量野外直接观察觅食的记录来克服（Tricas和Boyle，2014）。使用现有的预训练模型作为特征提取器，我们发现正确分类CC觅食事件的能力有所提高。少量样本学习也被提出作为一种解决训练数据量不足问题的方法（Ijaz等人，2024）。此外，水族箱记录可以用于监测圈养动物的觅食行为，因为白斑鹰魟在公共水族馆中很受欢迎，而饮食监测（即猎物偏好）对于它们的展示成功至关重要。更广泛地说，我们的研究属于音频事件检测的一般概念，用于识别、分类和量化咀嚼、碾碎或溅泼等声音特征。例如，近年来，通过使用深度学习的自动声学事件检测算法，已经实现了水产养殖系统中鱼类觅食行为的量化。智能 feeding 控制通过准确监测饲料摄入量和减少浪费，显著提高了水产养殖的盈利能力和动物福利（Mysore Guruprasad等人，2024；Iqbal等人，2024；Huang等人，2025）。

这项研究为未来的海洋生物声学研究奠定了坚实的基础，继续发展此类技术可以提高对海洋物种及其相互作用的监测准确性和效率。

5. 结论：在这项研究中，我们开发并评估了一种新的方法，用于从水族箱记录中检测和分类压碎贝壳的事件，该方法具有明显的可迁移性，适用于现场环境，利用了先进的时频特征（如GTCCs）和预训练的CNN模型。我们展示了选择适当的特征集的重要性，以准确捕捉与压碎贝壳事件相关的独特声学特征，尤其是在信号类似的贝壳裂纹普遍存在的浅海沿海环境中。此外，我们对各种分类器的比较分析表明，可以根据具体应用需求优化不同的特征组合，无论是为了最大化总体准确性还是确保高灵敏度。总体而言，这项研究表明，将GTCC特征与先进的机器学习算法相结合可以显著提高实时环境中压碎贝壳声音和捕食者行为的检测和分类能力，因为其计算开销较低。这些发现为未来的海洋生物声学研究提供了坚实的基础，为更准确和高效地监测海洋物种及其生态相互作用铺平了道路。未来的工作可以探索将这种方法应用于其他生物声学事件，并研究其在各种海洋环境中的实时监测潜力。

作者贡献声明：
A.K. Ibrahim：撰写——原始草案、验证、软件开发、方法论、正式分析。
L.M. Chérubin：撰写——审阅与编辑、验证、监督。
C. Hampton：正式分析、数据管理。
B.C. DeGroot：正式分析、数据管理。
H. Zhuang：监督、方法论。
M.J. Ajemian：撰写——审阅与编辑、项目管理、资金获取、概念化。

热点排行