鱼类对生态系统和人类社会都至关重要(Olden等人,2020年)。然而,由于人类活动的影响,洄游鱼类正面临令人担忧的数量下降(Limburg和Waldman,2009年)。中华鲟(Acipenser sinensis)就是这一危机的典型例子:近几十年来,其数量急剧下降,导致国际自然保护联盟(IUCN)将该物种列为“极危”物种。这种下降是由多种因素共同造成的,包括栖息地破碎化、污染和过度捕捞(Xie,2020年;Zhang等人,2011年)。因此,中国建立了八个主要的中华鲟保护和繁殖基地,并计划到2025年释放100万条中华鲟以补充野生种群(中国渔业局,2025年)。
对养殖中华鲟的持续监测对于验证其生长状况和健康状况至关重要。目前的方法依赖于传统采样、光学成像和基于声纳的声学成像(Zhou等人,2024年)。传统技术如物理网捕捞和手动采样具有侵入性,会对鱼类造成显著的压力和潜在的物理伤害,从而削弱保护效果(Bastardie,2020年;Hilborn,2023年)。虽然光学成像是非侵入性的,但它受到水质透明度的根本限制。繁殖基地的高浊度会导致光线迅速衰减,限制了检测范围和图像质量(Hao等人,2024年)。此外,光学成像高度依赖充足的环境光,在夜间或深水区域效果不佳(Williams等人,2023年)。
相比之下,声纳成像能够提供关于鱼类位置、大小和运动的关键信息(Character等人,2021年)。高频成像声纳(通常称为声学相机)利用声学透镜系统聚焦声波束,生成高分辨率的类似视频的图像。与传统的水声方法不同,这些设备使用更高的频率和更多的子波束来提高图像分辨率,即使在浑浊的水中也能详细观察鱼类的形态和游泳行为。此外,作为一种非侵入性方法,声学成像允许进行长期监测,而不会干扰鱼类的自然行为或完整性(Martignac等人,2014年;Wei等人,2022年)。随着声纳技术的不断发展,高分辨率声纳成像已成为精确水下目标检测和监测不可或缺的手段。Bennett等人(2020年)利用DIDSON技术量化了进入恢复的潮汐沼泽的大型鱼类的生物量流量,成功揭示了视觉调查由于沉积物负荷过高而无法检测到的连通性模式。Lankowicz等人(2020年)使用移动ARIS声纳调查了结构复杂的浅水支流,发现这些区域的饵料鱼密度显著高于传统拖网捕鱼方法能够到达的区域。McSpadden等人(2023年)应用成像声纳监测了24小时周期内的河口鱼类活动,发现高达77%的鱼类生物量流量发生在夜间。Cotter等人(2020年)使用BlueView声纳和随机森林算法对海洋生物进行高精度分类,减少了环境监测的数据存储需求。总体而言,这些研究突显了成像声纳提供非侵入性、高分辨率和全面数据的能力,使其适用于持续监测。
然而,手动处理持续监测产生的大量数据非常耗时且劳动强度高(Reid,2000年),复杂的水下环境使声纳容易受到噪声、混响和多路径传播的影响。这些因素会降低图像质量,导致空间分辨率低、普遍的斑点噪声和目标边界模糊(Shang等人,2008年)。
基于深度学习的对象检测提供了一种解决方案,可以分为两阶段算法和一阶段算法。两阶段对象检测算法采用顺序框架,首先进行区域提案提取,然后使用卷积神经网络(CNN)对这些候选区域进行分类和定位,代表性的例子包括基于区域的卷积神经网络(R-CNN)(Girshick等人,2014年)、Fast R-CNN(Girshick,2015年)、Faster R-CNN(Ren等人,2016年)、Mask R-CNN(He等人,2017年)和空间金字塔池化(SPP)-Net(He等人,2015年)。尽管这些方法实现了卓越的检测精度,但它们在实时数据处理过程中存在显著的运算效率低下问题。一阶段检测算法将区域提案生成与对象识别相结合,在计算效率和检测精度之间取得了平衡,代表性的例子包括You Only Look Once(YOLO)系列(Redmon等人,2016年;Redmon和Farhadi,2017年;Redmon和Farhadi,2018年;Terven等人,2023年;Wang等人,2024年)和Single Shot MultiBox Detector(SSD)(Liu,2016年)。YOLO是一个广泛采用的开源对象检测框架,由于其出色的速度-精度平衡和易于部署的特点,得到了PyTorch等主流深度学习工具的支持,并可以在GitHub等代码托管平台上免费用于研究和开发。
一些关于声学成像的研究已经采用了深度学习方法。Tong等人(2023年)和Ma等人(2024年)使用YOLO算法在回声图中进行鱼类检测和识别。Mahoro和Akhloufi(2023年)使用YOLOv7和Detection Transformer(DETR)在DIDSON数据集上进行训练,结果表明YOLOv7不仅表现出更好的性能,还证明所提出的系统可以有效利用高分辨率声纳数据检测和分类鱼类物种。Kandimalla等人(2022年)使用深度学习模型分析Ocqueoc河和Wells Dam的声学数据,成功从声纳图像中分类出八种鱼类,平均精确度为0.73,并展示了使用Norfair算法进行有效的实时鱼类跟踪。在对象检测领域,YOLO算法已被广泛验证为动态水下监测的优越工具,在效率和鲁棒性方面均优于传统方法。
然而,这项技术对于养殖中华鲟的潜力尚未得到充分实现。鱼类养殖场的复杂声学环境需要一个既准确又轻量级的模型,以便在嵌入式设备中完成监测任务。
因此,本文提出了一种基于YOLOv8的鱼类检测模型,命名为GAI-YOLOv8。在该模型中,“G”代表C2f-GhostDynamicConv模块,“A”代表带有P2采样层的Attentional Scale Sequence Fusion(ASF)颈部架构,“I”代表Inner-CIoU损失函数。该模型旨在使存储容量有限的设备能够实现精确的实时监测,我们的主要贡献总结如下:
(1)我们提出了两项架构创新:C2f-GhostDynamicConv模块和ASF-P2颈部。C2f-GhostDynamicConv通过将轻量级的Ghost模块与动态卷积相结合,替换了标准的主干网络,使网络能够自适应地调整内核权重以捕获细粒度特征,同时减少参数。ASF-P2颈部增加了高分辨率检测层和注意力融合,显著提高了网络在复杂声纳环境中感知和定位小目标的能力。
(2)我们使用Inner-CIoU来解决传统Intersection over Union(IoU)损失在泛化方面的局限性。通过利用辅助边界框和缩放因子来优化回归过程,该函数克服了标准CIoU的缺点,从而加快了收敛速度,并更精确地描绘了小尺度目标。
(3)我们在数据集上进行了大量实验,结果表明,与其他检测算法相比,我们提出的GAI-YOLOv8模型不仅减少了所需的参数数量,还进一步提高了检测精度,为未来养殖中华鲟的持续监测工作提供了理论支持。