双分支注意力机制与接收域增强网络在海洋小型生物检测中的应用

《Digital Signal Processing》:Bi-branch Attention and Receptive Field Enhanced Network for Marine Small Organism Detection

【字体: 时间:2026年02月16日 来源:Digital Signal Processing 3

编辑推荐:

  针对水下复杂环境和小目标检测难题,本文提出BARENet架构,通过双向分支协同注意力机制(BCAM)实现多尺度语义与空间特征融合,结合可扩展感受野模块(RFEB)增强小目标表征能力,在多个数据集上验证其有效性。

  
Xinbin Li|Yunkun Wang|Yankai Feng|Song Han|Hengshuai Pan|Hao Yan|Muge Li
河北省工业计算机控制工程重点实验室,以及燕山大学河北省智能康复与神经调控重点实验室,中国秦皇岛市,066004

摘要

基于光学图像的水下物体检测长期以来一直面临重大挑战,这主要是由于水下环境的复杂变化。此外,水下生物通常体型较小,具有伪装机制,并且分布具有多尺度特性,这些因素进一步加剧了水下物体检测的难度。为此,我们提出了双分支注意力与感受野增强网络(BARENet),以更好地实现多尺度特征融合并提高海洋小型生物检测任务的性能。接着,我们提出了双分支协作注意力模块(BCAM),以更有效地融合来自语义信息层和空间信息层的特征。BCAM能够进一步提高海洋小型物体检测任务的性能。最后,我们提出了感受野增强块(RFEB),以增强主干网络的表征能力,从而解决海洋目标形状多样和尺度变化的问题。实验结果表明,BARENet在水下图像数据集上的mAP达到了88.16%,在PASCAL VOC数据集上的mAP达到了85.6%。与一些现有的物体检测方法相比,我们提出的方法不仅在实验中表现良好,还具有较好的泛化能力。

引言

随着对海洋资源探索需求的增长,水下机器人逐渐取代了传统的手动方法,现在被广泛应用于复杂的操作场景中,如海洋探索和检测。作为水下机器人环境感知的核心技术,水下物体检测在实现自主导航和决策中起着关键作用[1],[2]。然而,如图1所示,水下图像通常会严重退化,这大大增加了水下目标特征提取的难度。同时,图像中的水下生物还具有尺度变化大、目标小和目标重叠等特点。这些因素共同对水下目标检测构成了严峻挑战。近年来,许多水下物体检测算法被提出并应用于图像和视频分析[3],[4],[5]。传统的算法如Viola-Jones、HOG和SIFT依赖于颜色、纹理和边缘等手工制作的特征。这些非鲁棒特征对光照变化、水浊度和物体外观的变化非常敏感,导致检测失败。基于深度学习的方法作为一种更强大的替代方案应运而生,它们可以从数据中自动学习鲁棒特征,减少了对先验假设的依赖。因此,基于深度学习的方法更适合在复杂的水下环境中进行物体检测。基于深度学习的方法可以分为两阶段和单阶段算法。尽管两阶段算法能够实现高精度,但其较慢的检测速度影响了水下物体检测的实时性能。为了解决这个问题,单阶段算法如YOLOv7[6]、YOLOv9[7]、DSSD[8]和FSSD[9]省略了区域提议阶段,从而实现了更快的检测速度。因此,单阶段算法更适合实时水下物体检测任务。在水下场景中,光吸收和散射会导致图像的颜色失真、对比度下降和模糊,从而无法充分保留目标边缘和详细特征。YOLOv7和YOLOv9分别引入了高效层聚合网络(ELAN)及其扩展结构。这些结构可以提高主干网络的特征提取能力,并更有效地聚合不同特征层的信息。因此,单阶段算法在复杂水下环境中保留和增强退化特征的表现方面具有优势。然而,传统的检测框架在降采样过程中往往会丢失细粒度细节。在水下环境中,严重的颜色失真和复杂的背景噪声进一步加剧了这一根本问题,导致已经衰减的细节特征变得难以识别,使得小型目标的可靠检测变得极其困难。
目前,注意力机制已被证明可以有效地增强目标特征,同时抑制背景信息[10],[11],[12]。在水下物体检测任务中,注意力机制为输入的不同区域分配不同的权重,使模型能够专注于与当前任务相关的部分,同时忽略背景干扰,从而增强模型对小型和伪装目标的关注[13]。但在特征融合阶段,当前的注意力机制仅独立地增强了低级空间信息或高级语义信息。这种方法忽略了特征图融合过程中引入的冗余信息,导致背景干扰增强,而关键目标特征未能得到充分强调,从而丢失了水下小型目标和重叠目标的信息。
此外,海洋生物目标的多尺度变化也对现有物体检测器的检测精度产生了不利影响。现有网络主要使用固定的卷积核大小,无法有效捕获不同感受野的特征。因此,小型目标容易被背景噪声淹没,失去区分特征;而大型目标由于感受野有限,特征表示不完整[14],[15]。当前的物体检测器缺乏有效的特征提取机制来应对多尺度变化,导致定位精度降低,漏检率和误报率增加。
为了解决捕捉小型和多尺度目标特征的问题,我们提出了双分支注意力与感受野增强网络(BARENet)用于水下物体检测。BARENet有效地促进了不同语义层次特征之间的交互,改善了多尺度特征传播。具体来说,我们设计了一种新的双分支协作注意力模块(BCAM),它整合了空间和通道注意力,以增强关键的小型目标特征,同时在特征融合过程中减少冗余背景信息。此外,我们的方法还加入了感受野增强块(RFEB)。RFEB捕获来自多种感受野形状的特征,提高了BARENet对形态多样水下物体的识别能力。
本文的主要贡献如下:
  • 1.
    提出了BARENet用于海洋物体检测。这种新颖的网络架构结合了BCAM和RFEB,可以引导多级特征进行交互和融合,从而获得具有不同尺度和形状的感受野的特征图。
  • 2.
    BCAM旨在利用语义和空间信息流中不同层次的特征信息,使不同层次的特征信息相互补充。这种方法在特征融合阶段减少了背景信息的干扰,从而增强了小型和重叠目标的特征表示。
  • 3.
    RFEB旨在获取具有不同尺度和形状的感受野的特征图。通过结合可变形卷积和扩张卷积,RFEB有助于解决海洋物体检测中目标形状和尺度多样性的问题。
  • 部分摘录

    水下物体检测器

    计算机视觉在许多核心任务中推动了快速进展,例如物体检测[7],[16]、语义分割[17]、重新识别[18]和多视图聚类[19],[20]。其中,物体检测是许多高级视觉任务的基本前提。因此,物体检测在水下环境中有广泛的应用。现有的物体检测器根据其工作方式分为单阶段检测器和两阶段检测器

    方法机制和网络架构

    BARENet在3.1小节中介绍,而双分支协作注意力模块和感受野增强块分别在3.2小节和3.3小节中介绍

    实验

    在本节中,我们通过多项实验验证了所提出方法的有效性,包括消融研究和与其他物体检测器的比较。我们的实验使用了UPRC2020数据集来验证该方法在水下场景中的效果。该数据集包含来自中国大连张子岛的5,455张水下图像,包含四种目标类别的物种和位置信息:海胆、海参、扇贝和海星。

    结论

    本文提出了用于海洋物体检测的双分支注意力与感受野增强网络(BARENet)。首先,我们提出了BARENet结构以更好地实现多尺度特征融合。BARENet结构在水下图像数据集上的mAP提高了4.01%。然后,我们在特征融合过程中引入了新的注意力模块BCAM,使mAP提高了2.64%。此外,我们还提出了RFEB来捕获形态多样的水下目标的特征,提高了

    未引用的参考文献

    缺少引用表7。

    CRediT作者贡献声明

    Xinbin Li:概念化、方法论、软件、撰写-原始草稿准备。
    Yunkun Wang:数据整理、软件、撰写。
    Yankai Feng:可视化、软件、概念化、调查。
    Song Han:监督可视化、调查。
    Hengshuai Pan:软件、验证。
    Hao Yan:撰写-审阅和编辑。
    Muge Li:可视化、监督。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号