《Computers and Electrical Engineering》:Underwater object detection based on channel expansion and feature fusion
编辑推荐:
水下目标检测模型YLOv11-DFSE通过DCNv2扩展感受野、FasterCSP增强特征融合及STConv优化空间变换,并新增Extra检测头提升小物体识别精度,在RUOD数据集上mAP@50和mAP@50:95分别达到88.8%和68.3%,较原模型提升1.6%和3.5%。
Huhao Shen|Liang Shi|Xi Yan|Xin Shu
江苏科技大学计算机科学学院,镇江,212100,中国
摘要 在水下环境中,光线衰减尤为严重,这使得水下物体检测变得极具挑战性。传统的水下检测模型在特征提取方面存在困难,并且在识别水下目标时准确率较低。为了解决这些问题,我们提出了一种针对水下图像物体检测的增强型YOLOv11模型,命名为YOLOv11-DFSE。首先,YOLOv11-DFSE采用了DCNv2模块来扩展特征提取的感受野,使用FasterCSP来丰富特征通道,并减轻了主干网络中细节信息的丢失。其次,YOLOv11-DFSE利用STConv的信息交互能力,使得模型在特征融合过程中能够更有效地学习和分析数据。最后,我们增加了一个额外的检测头,以提高模型对小型水下生物的检测能力。实验结果表明,在RUOD数据集上,YOLOv11-DFSE的mAP@50和mAP@50:95分别为88.8%和68.3%,比原始YOLOv11分别提高了1.6%和3.5%。这些成果凸显了YOLOv11-DFSE在水下物体检测方面的潜力,有助于海洋环境的监测。源代码可访问:
https://github.com/snmae/yolov11 。
引言 水下图像在海洋生物学、考古学和环境监测中具有重要意义。在海洋工程领域,水下数据有助于检查海底结构、管道和其他关键基础设施。然而,由于光线衰减、后向散射和细节损失,水下环境中的精确物体识别仍然具有挑战性。解决这些挑战并提升检测性能是图像检测研究的主要目标。已经开发了多种策略,包括机器学习和深度学习。这些方法能够高效地识别和跟踪水下目标,如海洋生物、污染物和关键水下基础设施,为保护海洋生态系统提供了必要的技术支持。
传统的水下物体检测技术包括光谱特征分析、高斯聚类算法和分类器。例如,Xiao等人[1]通过窗口化快速傅里叶变换检测到了水下连续波信号,能够在强烈的海洋背景噪声中准确检测和分割这些信号。Huang等人[2]结合了光谱校正模型和多种分类器来识别水下微塑料。Salman等人[3]提出了一种结合高斯混合模型和像素级后验的架构,用于检测鱼类,在复杂背景数据集上取得了最高的F分数。尽管这些方法在样本量较少时表现良好,但它们无法满足日益增长的水下检测需求,且检测效率较低。随后,许多研究人员将机器学习集成到了水下物体检测中。例如,Cai等人[4]引入了一种弱监督的双重训练框架,在噪声条件下提升了检测性能。Jin等人[5]通过相机图像映射解决了水下目标定位问题,并实现了无人水下航行器(UUV)的实时定位和控制。与手动检测相比,上述方法具有更高的检测效率。然而,这些模型的计算复杂性较高,导致泛化能力较差,从而使得对小目标(如海参)的检测准确率较低,这仍然是需要解决的问题。
最近的水下物体识别进展依赖于两种机器学习范式:监督学习和无监督学习[6]。无监督学习的优势在于无需标记数据即可自主发现内在数据结构和模式,具有较高的效率,但可解释性较低。监督学习通过理解输入与已知输出之间的关系来预测新数据的输出。像You Only Look Once(YOLO)和Region-CNN(R-CNN)这样的模型利用了这种方法,通过前向传播和反向传播来计算损失并最小化预测值与真实标签之间的差异。例如,Liu等人[7]用Wise损失函数替换了CIOU损失函数,以解决检测小型水下物体的挑战。类似地,Yi等人[8]提出了一个考虑坐标的掩码R-CNN(CAM-RCNN),通过引入交叉熵损失来提高商业拖网中的鱼类检测准确率。Guo等人[9]用FasterNet架构替换了原始的主干网络,利用其轻量级特性来提升效率。Shen等人[10]将K-means聚类集成到YOLOv8中,实现了自主通道信息过滤,从而提高了水下信息的精确校准。Ding等人[11]提出了一个多尺度跨通道注意力(MSCCA)模块,增强了感知多样性并整合了通道混洗操作。监督学习虽然比其他方法具有更高的准确率,但计算开销较大,且需要大规模的标记数据。
尽管上述方法在水下物体检测中表现出了一定的效果,但仍存在一些局限性。基于YOLO的模型不仅支持数据增强策略的兼容性,还利用分层架构来提高检测准确率。相比之下,依赖无监督方法的模型通常具有更复杂的检测流程,这可能会阻碍实际应用,尽管它们的性能可能更优。为了解决由于照明不足、背景模糊和细节损失导致的水下图像中小目标检测准确率低的核心问题,本研究提出了一种优化模型,该模型具备感受野扩展和小目标特征增强功能。通过加强弱特征的捕获和目标信息的提取,该模型有效克服了复杂水下环境中物体检测的性能瓶颈。通过广泛的实验,该模型在水下环境中检测物体时表现出强大的性能。本研究的主要贡献如下:
(1) 在主干网络中,我们引入了可变形卷积v2(DCNv2)来扩展特征提取时的感受野,从而增强了模型捕获信息特征的能力并防止了信息丢失。
(2) 在特征融合阶段,我们引入了Faster Cross-Stage Partial(FasterCSP)模块,增强了特征融合能力,使网络能够捕获更多边缘细节。此外,在FasterCSP结构中嵌入了注意力机制,提高了模型的感知能力。我们还设计了空间变换卷积(STConv)来保留更丰富的语义信息,增强了模型检测微小水下生物的能力。
(3) 在检测头部分,我们增加了额外的检测分支以提高对小型海洋生物的检测准确率。此外,还在特征融合阶段增加了额外的卷积层以改善最终预测结果。
其余部分安排如下:第2节回顾了深度学习方法的相关工作。第3节详细介绍了我们提出的YOLOv11-DFSE。第4节通过将其与最先进的方法进行比较来分析YOLOv11-DFSE的性能。最后,我们在第5节总结了本文。
章节片段 传统的水下物体检测方法 水下检测技术已广泛应用于目标定位和环境监测,主要分为机器学习方法和深度学习方法。一些传统的机器学习方法依赖于手工制作的特征和经典分类器进行水下检测。例如,Fatan等人[12]使用Canny和Hough变换检测水下电缆,通过基于纹理的边缘分类、背景过滤等方法实现AUV跟踪
方法 在本节中,我们介绍了原始的YOLOv11以及加入了创新模块的YOLOv11-DFSE。
实验设置 实验在Ubuntu 16.04系统上进行,配备了GeForce RTX 3090 GPU(CUDA 11.3)、Ryzen 9 5900X CPU和32 GB内存。使用SGD优化器对模型进行优化,并需要Pytorch来实现YOLOv11-DFSE模型。我们使用YOLOv11的内置马赛克模式进行实验。训练周期为300轮,批量大小为16。
模块的性能不仅与模型架构有关,初始参数配置也会影响模型的
结论 我们提出了YOLOv11-DFSE用于水下图像检测。我们模型的主要创新在于对主干网络的改进。我们用DCNv2替换了部分标准卷积层,扩大了感受野,增强了模型捕获丰富特征信息的能力,特别是对于不规则形状的水下物体。此外,我们用FasterCSP模块替换了C3K2模块,增强了通道间的特征表示能力。这提高了模型的感知能力