GAI-YOLOv8:一种专注于精确度的检测算法,用于在声纳图像中识别鱼类目标

《Fisheries Research》:GAI-YOLOv8: A precision-oriented detection algorithm for identifying fish targets in sonar images

【字体: 时间:2026年03月04日 来源:Fisheries Research 2.3

编辑推荐:

  中国鲟鱼监测中提出GAI-YOLOv8模型,通过动态卷积、多尺度注意力融合和改进的CIoU损失函数实现轻量化(1.9M参数)与高精度(80.8% mAP)平衡,适用于水下嵌入式设备。

  
姚俊凡|童建峰|薛明华|马俊刚
上海海洋大学海洋生物资源科学与管理学院,中国上海201306

摘要

中华鲟(Acipenser sinensis)是长江水生生物多样性保护的重要物种,但由于栖息地退化和人类活动的影响,目前被列为极危物种。虽然声纳成像技术克服了光学方法的局限性,但它面临着复杂环境噪声的挑战,同时需要适用于资源受限的嵌入式设备的轻量级算法。为了解决这些问题,本文介绍了基于生成对抗网络(GAI)的YOLOv8检测模型。该模型包含三个关键创新点:(1)C2f-GhostDynamicConv模块,它将轻量级的Ghost架构与动态卷积相结合,以在减少参数的同时自适应地增强特征提取;(2)ASF-P2颈部架构,增加了高分辨率检测层,以捕捉对小目标至关重要的细节;(3)Inner-CIoU损失函数,用于优化边界框回归并提高泛化能力。在包含1079张声纳图像的自定义数据集上进行评估时,GAI-YOLOv8的精确度达到80.8%,召回率为80.8%,mAP@0.5为84.9%,mAP@0.5:0.95为40.7%,分别比基线YOLOv8n高出4.5%、8.0%、5.0%和3.3%。该模型仅具有190万个参数,就在准确性和效率之间取得了出色的平衡,超越了其他YOLO变体和高精度目标检测模型。这项工作推动了实时、资源高效的水下监测技术的发展,为生态保护提供了强大的工具。未来的工作将集中在硬件部署和进一步架构优化上。

引言

鱼类对生态系统和人类社会都至关重要(Olden等人,2020年)。然而,由于人类活动的影响,洄游鱼类正面临令人担忧的数量下降(Limburg和Waldman,2009年)。中华鲟(Acipenser sinensis)就是这一危机的典型例子:近几十年来,其数量急剧下降,导致国际自然保护联盟(IUCN)将该物种列为“极危”物种。这种下降是由多种因素共同造成的,包括栖息地破碎化、污染和过度捕捞(Xie,2020年;Zhang等人,2011年)。因此,中国建立了八个主要的中华鲟保护和繁殖基地,并计划到2025年释放100万条中华鲟以补充野生种群(中国渔业局,2025年)。
对养殖中华鲟的持续监测对于验证其生长状况和健康状况至关重要。目前的方法依赖于传统采样、光学成像和基于声纳的声学成像(Zhou等人,2024年)。传统技术如物理网捕捞和手动采样具有侵入性,会对鱼类造成显著的压力和潜在的物理伤害,从而削弱保护效果(Bastardie,2020年;Hilborn,2023年)。虽然光学成像是非侵入性的,但它受到水质透明度的根本限制。繁殖基地的高浊度会导致光线迅速衰减,限制了检测范围和图像质量(Hao等人,2024年)。此外,光学成像高度依赖充足的环境光,在夜间或深水区域效果不佳(Williams等人,2023年)。
相比之下,声纳成像能够提供关于鱼类位置、大小和运动的关键信息(Character等人,2021年)。高频成像声纳(通常称为声学相机)利用声学透镜系统聚焦声波束,生成高分辨率的类似视频的图像。与传统的水声方法不同,这些设备使用更高的频率和更多的子波束来提高图像分辨率,即使在浑浊的水中也能详细观察鱼类的形态和游泳行为。此外,作为一种非侵入性方法,声学成像允许进行长期监测,而不会干扰鱼类的自然行为或完整性(Martignac等人,2014年;Wei等人,2022年)。随着声纳技术的不断发展,高分辨率声纳成像已成为精确水下目标检测和监测不可或缺的手段。Bennett等人(2020年)利用DIDSON技术量化了进入恢复的潮汐沼泽的大型鱼类的生物量流量,成功揭示了视觉调查由于沉积物负荷过高而无法检测到的连通性模式。Lankowicz等人(2020年)使用移动ARIS声纳调查了结构复杂的浅水支流,发现这些区域的饵料鱼密度显著高于传统拖网捕鱼方法能够到达的区域。McSpadden等人(2023年)应用成像声纳监测了24小时周期内的河口鱼类活动,发现高达77%的鱼类生物量流量发生在夜间。Cotter等人(2020年)使用BlueView声纳和随机森林算法对海洋生物进行高精度分类,减少了环境监测的数据存储需求。总体而言,这些研究突显了成像声纳提供非侵入性、高分辨率和全面数据的能力,使其适用于持续监测。
然而,手动处理持续监测产生的大量数据非常耗时且劳动强度高(Reid,2000年),复杂的水下环境使声纳容易受到噪声、混响和多路径传播的影响。这些因素会降低图像质量,导致空间分辨率低、普遍的斑点噪声和目标边界模糊(Shang等人,2008年)。
基于深度学习的对象检测提供了一种解决方案,可以分为两阶段算法和一阶段算法。两阶段对象检测算法采用顺序框架,首先进行区域提案提取,然后使用卷积神经网络(CNN)对这些候选区域进行分类和定位,代表性的例子包括基于区域的卷积神经网络(R-CNN)(Girshick等人,2014年)、Fast R-CNN(Girshick,2015年)、Faster R-CNN(Ren等人,2016年)、Mask R-CNN(He等人,2017年)和空间金字塔池化(SPP)-Net(He等人,2015年)。尽管这些方法实现了卓越的检测精度,但它们在实时数据处理过程中存在显著的运算效率低下问题。一阶段检测算法将区域提案生成与对象识别相结合,在计算效率和检测精度之间取得了平衡,代表性的例子包括You Only Look Once(YOLO)系列(Redmon等人,2016年;Redmon和Farhadi,2017年;Redmon和Farhadi,2018年;Terven等人,2023年;Wang等人,2024年)和Single Shot MultiBox Detector(SSD)(Liu,2016年)。YOLO是一个广泛采用的开源对象检测框架,由于其出色的速度-精度平衡和易于部署的特点,得到了PyTorch等主流深度学习工具的支持,并可以在GitHub等代码托管平台上免费用于研究和开发。
一些关于声学成像的研究已经采用了深度学习方法。Tong等人(2023年)和Ma等人(2024年)使用YOLO算法在回声图中进行鱼类检测和识别。Mahoro和Akhloufi(2023年)使用YOLOv7和Detection Transformer(DETR)在DIDSON数据集上进行训练,结果表明YOLOv7不仅表现出更好的性能,还证明所提出的系统可以有效利用高分辨率声纳数据检测和分类鱼类物种。Kandimalla等人(2022年)使用深度学习模型分析Ocqueoc河和Wells Dam的声学数据,成功从声纳图像中分类出八种鱼类,平均精确度为0.73,并展示了使用Norfair算法进行有效的实时鱼类跟踪。在对象检测领域,YOLO算法已被广泛验证为动态水下监测的优越工具,在效率和鲁棒性方面均优于传统方法。
然而,这项技术对于养殖中华鲟的潜力尚未得到充分实现。鱼类养殖场的复杂声学环境需要一个既准确又轻量级的模型,以便在嵌入式设备中完成监测任务。
因此,本文提出了一种基于YOLOv8的鱼类检测模型,命名为GAI-YOLOv8。在该模型中,“G”代表C2f-GhostDynamicConv模块,“A”代表带有P2采样层的Attentional Scale Sequence Fusion(ASF)颈部架构,“I”代表Inner-CIoU损失函数。该模型旨在使存储容量有限的设备能够实现精确的实时监测,我们的主要贡献总结如下:
  • (1)
    我们提出了两项架构创新:C2f-GhostDynamicConv模块和ASF-P2颈部。C2f-GhostDynamicConv通过将轻量级的Ghost模块与动态卷积相结合,替换了标准的主干网络,使网络能够自适应地调整内核权重以捕获细粒度特征,同时减少参数。ASF-P2颈部增加了高分辨率检测层和注意力融合,显著提高了网络在复杂声纳环境中感知和定位小目标的能力。
  • (2)
    我们使用Inner-CIoU来解决传统Intersection over Union(IoU)损失在泛化方面的局限性。通过利用辅助边界框和缩放因子来优化回归过程,该函数克服了标准CIoU的缺点,从而加快了收敛速度,并更精确地描绘了小尺度目标。
  • (3)
    我们在数据集上进行了大量实验,结果表明,与其他检测算法相比,我们提出的GAI-YOLOv8模型不仅减少了所需的参数数量,还进一步提高了检测精度,为未来养殖中华鲟的持续监测工作提供了理论支持。
  • 部分摘录

    YOLOv8

    YOLOv8是一种先进的一阶段对象检测框架,以其精确性和效率之间的平衡而闻名,适用于多种操作场景(Terven等人,2023年)。它在之前的YOLO框架基础上进行了新颖的架构优化:其主干网络和颈部架构保留了来自YOLOv7的扩展潜在聚合网络(ELAN)(Wang等人,2022年)的梯度增强C2f模块设计理念。

    数据采集

    我们的数据集来自上海水生野生动物保护与研究中心的中华鲟养殖网箱。声学数据采集使用了BlueView M900/220.5-MKII(Teledyne BlueView,丹麦)多波束成像声纳,采样时间为2024年6月24日的09:00–13:00。声纳的工作频率为2250 kHz,检测范围为10米。为了平衡空间覆盖范围和时间分辨率,数据使用两个

    环境

    所有实验都在相同的计算平台上进行,详细信息见表1。使用的深度学习框架是PyTorch 1.13.1 + cu11.7 + cudnn8.0,运行在配备NVIDIA GeForce RTX 4050笔记本电脑GPU和Windows 11操作系统的系统上。CPU模型是AMD Ryzen 9 7940 H,频率为4.00 GHz。集成开发环境(IDE)是PyCharm,编程语言是Python 3.9。
    选择了YOLOv8系列中的YOLOv8n模型进行训练。图像被调整大小为640 × 640像素。

    对保护和渔业管理的意义

    提出的GAI-YOLOv8模型为中华鲟的保护提供了进步,提供了一种非侵入性的、高精度的监测解决方案,克服了光学系统在浑浊、噪声较大的养殖环境中的局限性。通过验证轻量级深度学习在声学成像中的有效性,本研究为其他低可见度水域的底栖物种建立了一种可转移的技术范式,为未来部署高效的实时监测提供了明确的方向。

    CRediT作者贡献声明

    姚俊凡:撰写——原始草稿、软件、方法论、调查、正式分析。童建峰:撰写——审阅与编辑、监督、资金获取、概念化。薛明华:撰写——审阅与编辑、软件、方法论。马俊刚:撰写——审阅与编辑、调查、正式分析。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

    致谢

    本研究得到了中国国家重点研发计划(2023YFD2401301)和上海农业应用技术开发计划(中国,授权号X 20220201)的资助。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号