GSA-YOLO：一种集成了“幽灵模块”（ghost module）和空间-通道协同注意力（spatial-channel synergistic attention）的水下物体检测器

《Frontiers in Marine Science》：GSA-YOLO: an enhanced underwater object detector integrating ghost module and spatial-channel synergistic attention

【字体：大中小】 时间：2026年05月11日 来源：Frontiers in Marine Science 3.0

编辑推荐：

　　摘要传统的自主水下机器人感知目标检测算法面临两大主要挑战。首先，明显的水下图像退化会阻碍算法性能。其次，水下目标的多样性和复杂性要求使用复杂的算法，但现有方法往往存在计算资源消耗高、检测精度低和效率降低的问题。本研究提出了GSA-YOLOv11，这是一种基于YOLOv11的

　　摘要
传统的自主水下机器人感知目标检测算法面临两大主要挑战。首先，明显的水下图像退化会阻碍算法性能。其次，水下目标的多样性和复杂性要求使用复杂的算法，但现有方法往往存在计算资源消耗高、检测精度低和效率降低的问题。本研究提出了GSA-YOLOv11，这是一种基于YOLOv11的模型，旨在提升水下机器人的感知能力。首先，将Ghost模块集成到Backbone中，以替代C3k2模块。与传统压缩通道的做法不同，我们策略性地配置了该模块来扩展通道宽度，同时利用其低成本的运算，实现了“扩展-适度”平衡，从而在不增加参数数量的情况下提高模型容量。这种设计生成了大量的Ghost特征图，以捕获更丰富的固有特征信息，从而增强了模型在复杂水下环境中的表征能力和目标检测性能，并提高了检测的鲁棒性。其次，将SCSA（空间-通道协同注意力）机制集成到检测头中，有效地捕捉通道和空间维度上的特征。这种协同作用提升了跨尺度目标检测的能力，实现了精度、检测速度和模型复杂性之间的最佳平衡。在DUO数据集上进行的对比实验表明，与基线模型相比，GSA-YOLOv11模型的50%平均精度（mAP50）和50%到95%的平均精度（mAP50-95）分别提高了2.73%和3.52%。同时，该模型的GFLOPs为10.6，FPS为836.59，足以在小型机载设备的计算限制下增强环境感知能力。此外，在UDID数据集上的对比实验表明，GSA-YOLOv11的表现优于基线模型。消融实验验证了这两个模块的优化性能和协同作用。通过针对光学退化的水下环境中的小目标检测进行有针对性的增强，该模型为提升水下机器人的环境感知和操作能力提供了见解。

1 引言
水下目标检测（UOD）是计算机视觉的一个关键分支，最近已成为推动海洋科学、水下机器人技术及海洋资源可持续发展的重要力量。视觉感知系统是水下机器人的关键能力，对于探索和利用占地球表面70%以上的水下世界至关重要。自主水下航行器（AUV）和遥控潜水器（ROV）在国家海洋安全保护、海洋勘探、环境监测、深海资源开发和水下基础设施检查等领域日益普及（Zhang等人，2024；Gao等人，2025）。这导致了对它们的自主感知和决策能力的需求不断增加。一个强大的UOD算法是AUV/ROV自主性的基石，使它们能够实时感知周围环境并完成复杂的水下任务。然而，Jaff-Mcglamery模型指出，由于光散射和吸收，水下图像质量显著下降，导致图像模糊、色彩偏差和亮度不均等问题。保留目标的高频特征（如边缘和纹理）是一个重大挑战（Farhadi Tolie等人，2024；Xiao等人，2024）。同时，水下目标还面临聚集、伪装和遮挡等挑战（Chen等人，2024），这要求检测算法具有精确性和韧性。
传统的检测方法依赖于手工制作的特征（如边缘、形状、纹理），仅在特定且简单的场景下有效。这些方法缺乏鲁棒性和环境适应性，无法满足动态和复杂水下场景对精确度和实时性的严格要求。深度学习，特别是卷积神经网络（CNN）的出现，为UOD带来了革命性的突破。基于深度学习的检测器可以从大量数据中自动学习层次化和高度区分的特征，在精度、速度和泛化能力方面超越了传统方法。这些检测器可以分为两类（Chen等人，2024）：两级检测器，以Faster R-CNN为代表，采用“粗到细”的策略，精度高但速度慢；以及一类检测器，以YOLO（You Only Look Once）系列为代表（Xiao等人，2024），将检测视为回归问题并实现端到端快速检测。它们出色的实时性能使它们在需要快速响应的水下任务中受到青睐。
Zhou等人（ZhouCA等人，2024）提出了基于YOLOv3算法的YOLO-TADR，一种海洋生物识别方法。该方法整合了残差构建单元和双端注意力机制，以及嵌入了改进的通道注意力机制的残差结构。该模型在UPRC数据集上的mAP50指标提升了9.52%，同时显著减少了参数数量。Cao等人（Cao等人，2025）提出了YOLOv8n-fish模型，用于低光照和高干扰下的水下鱼类识别。该网络采用了DualConv和C2f模块，并结合了高效的重新参数化颈部网络EffQAFPN，增强了模型捕获位置和生物特征的能力，同时减少了模型参数数量并提高了识别精度。Liu等人（Liu等人，2020）提出了基于YOLOv3的领域通用水下目标检测算法DG-YOLO，引入了DIM和IRM惩罚机制。在UPRC2019数据集上的实验验证了该模型在不同水域环境中的强泛化能力。Hu等人（Hu等人，2025）开发了一种基于YOLOv10的水下目标检测方法，在UPRC2020数据集上相比YOLOv5模型提高了1.2%的mAP50。该系统展现了高检测精度和处理速度，为精确和快速的水下目标检测提供了有力支持。在他们的工作中（Wu等人，2025），试图减轻冗余特征对识别结果的影响。为此，他们引入了ECA注意力机制，并使用标准化Wasserstein距离来计算边界框精度。他们的方法在UPRC2019数据集上实现了86.19%的mAP50指标和124 FPS的性能提升。这种识别精度的提升伴随着网络性能的显著加速。此外，Zhang等人（Zhang等人，2024）提出了基于YOLOv8的YOLOv8-CPG水下目标检测模型。该模型通过将C2f模块集成到主干网络中，插入PSA注意力模块以改进模型的关键特征提取能力，并最终引入Gold-YOLO模型的颈部组件，在水下环境中相比YOLOv8实现了显著的性能提升。这些发现证实了YOLO架构作为UOD基础框架的有效性，并强调了通过针对网络结构的优化进行大幅改进的潜力。此外，Bajpai等人提出的Transformer和CNN混合模型改进的特征提取机制可以进一步增强检测网络，使在低对比度水下条件下更好地捕捉弱化和模糊的目标特征，这对于弥合图像质量退化和检测性能之间的差距具有重要意义（Bajpai等人，2024；Tiwari等人，2025）。
深度学习算法的发展促进了YOLO系列目标检测算法的快速进步，提高了水下目标的检测精度。然而，由于当代水下机器人的计算能力有限以及任务的高实时性要求，对检测算法的参数数量和兼容性提出了更高要求。现有方法优先开发越来越复杂的注意力机制来提升性能，这一过程不可避免地导致模型复杂性的增加。因此，基于YOLOv11n框架，本研究提出了一种水下目标检测网络GSA-YOLOv11，它在不显著增加参数数量的情况下提高了水下目标识别的精度，并确保了即使在严重光学退化的复杂水下环境中也能保持快速和全面的对象检测。并发实验验证表明，该模型展现出显著的鲁棒性和泛化能力，在不同的水下环境和变化的目标检测要求下保持高识别精度。
尽管YOLOv11模型在精度和效率方面取得了可观的平衡，但在具有挑战性的水下环境中部署时仍存在某些局限性。首先，其特征提取模块可能缺乏足够的鲁棒性来有效处理严重的图像退化，如色彩偏差和低对比度，这些问题在水下光学中非常普遍。这可能导致特征表示受损和检测精度降低。其次，该模型检测小型和密集遮挡目标的能力仍然不理想，因为其多尺度特征融合策略可能无法完全适应水下对象的极端尺度变化和复杂排列。最后，尽管YOLOv11在计算上高效，但在陆地场景中的性能提升并不能直接应用于水下领域，除非针对UOD的独特挑战进行有针对性的架构改进。
本研究对YOLOv11网络架构提出了两项增强措施。首先，将Ghost模块集成到Backbone中。与传统压缩通道的做法不同，我们通过绕过默认的宽度缩放来有意扩展通道宽度，同时利用Ghost模块的低成本运算来控制参数增长——实现了“扩展-适度”平衡，从而在不增加参数数量的情况下提高模型容量。这种设计生成了多样化的Ghost特征图，增强了模型在复杂水下场景中的表征能力、检测性能和鲁棒性。其次，将注意力机制集成到检测头中。为了在模型复杂性和性能之间实现最佳平衡，选择了高效的空间-通道协同注意力（SCSA）模块。该模块使用了有限的参数数量，但能够同时捕捉通道和空间维度上的特征。因此，该模块增强了模型检测多尺度目标的能力，并实现了有效的性能提升。
本文的其余部分组织如下：第二部分详细描述了水下生物检测和视觉引导水下机器人对接的相关研究工作。第三部分详细介绍了GSA-YOLOv11模型的结构和改进。第四部分描述了实验设置、数据集和评估指标，并通过对比实验和消融实验分析了模型检测结果。最后，讨论了该方法在实际应用中的重要性和局限性。第五部分总结了全文。本研究的目标有两个：首先是提供高效可靠的水下目标识别解决方案，其次是促进水下智能感知技术的发展。
本文的贡献总结如下：
将Ghost模块与Backbone集成，以替代原始的C3k2模块。与传统压缩通道的做法不同，我们通过绕过YOLOv11n的默认宽度缩放来有意扩展通道宽度，同时利用Ghost模块的低成本运算来控制参数增长。这种“扩展-适度”平衡提高了模型容量，而不会导致参数数量爆炸。由此产生的Ghost特征图捕获了更丰富的固有信息，增强了模型在水下目标检测中的多尺度特征提取、鲁棒性和泛化能力。
将SCSA注意力机制模块集成到检测头中。通过为不同通道和空间位置的特征分配权重，网络更加关注与目标相关的特征，抑制了无关或干扰特征，提高了模型的特征聚焦能力。合理的权重分配已被证明可以增强小目标与背景之间的区分度，从而有助于在复杂背景中准确检测小目标。这反过来又提高了小目标检测的召回率和精度。
通过对水下目标检测数据集（DUO）的全面实验验证了上述增强的有效性。这些实验表明，GSA-YOLOv11在0.5 IoU阈值下的平均精度（mAP50）达到了82.9%，比YOLOv11提高了2.2%。此外，其在50%到95%范围内的mAP50达到了61.7%，比YOLOv11提高了2.1%。同时，GFLOPs为10.6，与YOLOv11模型本身相比几乎没有提升。此外，在水下对接图像数据集（UDID）上的通用对比实验表明，GSA-YOLOv11模型的mAP50高于基线模型，表明该模型在水下目标识别领域具有出色的迁移能力。这些增强在精度和实时性能之间取得了平衡，为未来的研究提供了宝贵的见解。

2 相关工作
2.1 水下生物检测
水下视觉环境带来的独特挑战使得目标检测成为一个复杂的问题。水下传播过程中的光吸收和散射会导致多种成像问题，包括色彩偏差、图像模糊和失真。此外，水下生物目标的多样性和复杂性共同导致了低信噪比、目标边缘模糊以及水下图像对比度低的问题。传统的目标检测方法在这种退化的图像上表现不佳（Xiao等人，2024年）。因此，水下目标识别算法必须经过精心设计，以应对这些环境挑战，例如增强关键特征提取并提高对小目标和低质量图像的鲁棒性。水下目标识别技术的发展得益于深度学习技术的进步。通过研究现有文献中概述的性能指标，可以更清晰地了解现代深度学习检测器的有效性，尤其是在像DUO这样权威的水下目标检测（UOD）数据集上。如表1所示，这些模型通过实施各种架构改进，取得了显著的准确率和效率提升。例如，专门为UOD开发的Aqua-DETR在DUO数据集上达到了69.3%的准确率（Xiao等人，2024年），而基于YOLOv8的增强版本FEB-YOLOv8达到了82.9%的mAP50。从YOLOv11衍生出的MAS-YOLOv11也在DUO数据集上达到了77.4%的mAP50。这些发现证明了YOLO架构作为UOD基础框架的有效性，并强调了通过针对网络结构进行优化来进一步提升潜力的可能性。

表1
模型基础算法主要架构改进数据集 mAP50 mAP50-95 GFLOPs
Faster R-CNN - 0.81 90.6 - (Xiao等人，2024年)
YOLOv7 - 0.85 80.6 - (Xiao等人，2024年)
GCC-Net - 0.87 80.6 - (Xiao等人，2024年)
Aqua-DETR DETR - 0.87 60.6 - (Xiao等人，2024年)
FEB-YOLOv8 YOLOv8 n 0.82 90.6 6.2 (Zhao等人，2024年)
MAS-YOLOv11 YOLOv11 C2PSA_MSDA 0.77 40.5 - (Luo等人，2025年)
改进版Faster R-CNN - - 101 OHEM, Soft-NMS - (Wang和Xiao，2023年)

近年来，一些深度学习检测器在水下生物检测领域表现优异，证明了深度学习的有效性。这些基于深度学习的检测器展示了深度网络在这一特定应用中的有效性，并强调了YOLO系列作为进一步研究和开发可靠基础的重要性。对各种增强模型的性能进行比较分析后发现，诸如注意力机制和新型颈部结构等架构创新对于提高准确率和效率至关重要。

2.2 基于视觉的水下对接技术
3. 自主水下航行器（AUV）在水下导航过程中具备完全的自主能力，具有高机动性、自主规划和无需监督的独立操作等优点（Zhou等人，2023年）。这些技术的应用显著提升了海洋探索的灵活性和自主性，从而确保了相关操作的效率。然而，由于AUV携带的能量有限且无法直接从外部获取能量，其操作时间和范围受到电池容量的限制，操作时间通常在几小时到十几个小时之间（Ni等人，2025年）。此外，陆地通信技术与水下系统不兼容，这增加了AUV与陆地设备之间实时信息交换的复杂性。目前，使用水面母舰部署和回收AUV的方法在成本上非常昂贵。因此，成功实施AUV与水下对接平台之间的对接过程可以便于直接从AUV本身获取观测数据、下达新的任务指令并补充AUV运行所需的能量（Wu等人，2014年）。这反过来又提高了AUV的水下观测时间、操作效率和操作范围。AUV的归航和对接技术是确保AUV与对接站之间精确可靠对接的关键组成部分。在对接阶段，需要更高精度的导航方法，包括声学导航、电磁导航和视觉导航。计算机视觉提供的高精度和高清晰度定位数据，在AUV回收中的应用，以及基于对接站预设目标特征的AUV对接识别和定位，是实现高效可靠AUV对接的重要解决方案。

4. 现有文献的回顾显示，四种主要方案展示了有效性并具有广泛的应用范围：声波定位（USBL）引导、电磁引导、光学引导和视觉引导（Yang等人，2021年；Zhang等人，2021年）。表2（Sun等人，2019年）总结了这四种引导方法的特点。

表2
性能指标声学引导电磁引导光学引导视觉引导
方向和距离良好良好优秀良好
多功能性良好较差良好良好
依赖性优秀良好较差中等
附件影响良好中等良好较差
操作范围约2公里 <30米 <10米 <28米
引导精度米级厘米级厘米级厘米级

在上述四种终端引导方案中，声波引导的精度表现不佳，目前主要作为组合引导方案中的辅助引导方法使用。后三种在定位精度方面表现优异。然而，电磁引导受到环境电磁噪声的显著影响，在复杂环境中定位结果的稳定性较差。光学和视觉引导方法在关键性能指标上表现出高水平的效果。随着深度学习技术的整合和图像处理技术的不断进步，这些方法已成为水下对接应用中的主导终端引导技术（Wehbe等人，2017年；Manzanilla等人，2019年；Sahoo等人，2019年；Zhong，2021年）。

目前主流的AUV视觉引导方法采用主动信标定位法，该方法基于跟踪灯。来自韩国KAIST的Park等人（Park等人，2009年）首次提出使用跟踪灯进行AUV对接。对接站配备了五个跟踪灯，并采用图像处理算法来辅助视觉导航。来自中国哈尔滨工程大学的Li Ye等人（Li等人，2015年）采用了单目-双目组合定位方法，通过对接站上配置的四个跟踪灯获取姿态信息，将对接成功率提高到80%以上。2016年，中国浙江大学的HOME团队（Li等人，2016年；Zhang，2018年；浙江大学，2018年）提出了一种基于单灯的单目视觉对接引导算法。2018年，该团队提出了一种基于多灯的单目-双目组合定位算法和单目多灯视觉姿态估计算法，促进了AUV视觉引导算法的发展。2019年，来自中国沈阳自动化研究所的Liu等人（Liu等人，2019年）发布了DoNN（对接中性网络）卷积神经网络，用于检测水下对接站。同时，首个用于水下对接计算机视觉的数据集UDID（水下对接图像数据集）也得以建立。西班牙吉罗纳大学（Palomeras等人，2018年）在2018年提出了“Sparus II”对接系统，该系统结合了主动跟踪灯和被动信号面板。值得注意的是，该系统首次考虑了AUV距离对接站太近而无法捕捉到所有跟踪灯的情况。表3总结了近期采用机器视觉作为终端引导系统的相关研究。

3.1 YOLOv11模型
YOLO（Redmon等人，2016年）是由Joseph Redmon和Ali Farhadi等人在2016年提出的算法，以其快速性和准确性而闻名。YOLO算法的基本原理是将对象检测任务概念化为一个回归问题，通过单一卷积神经网络（CNN）直接从输入图像预测边界框和类别概率。与其他传统的对象检测算法相比，这种方法简化了检测过程。2024年9月30日，Ultralytics发布了YOLOv11版本，标志着YOLO系列的新迭代。YOLOv11模型结合了早期YOLO版本的新增功能和改进，进一步提升了其性能和适应性。主要改进包括：
- 架构创新：引入了C3k2模块（使用较小的卷积核优化跨阶段局部连接）和C2PSA空间注意力机制，以提高浅层特征提取的效率和适应复杂场景的能力；
- 效率提升：通过减少参数数量（YOLOv11m的参数比YOLOv8m少22%）和优化计算来提高效率。COCO数据集显示mAP有所提高（YOLOv11x的mAP50-95达到54.5%），同时推理延迟也降低了（YOLOv11n的延迟低至1.55毫秒），在准确性和速度之间取得了平衡；
- 多任务扩展：该系统支持多种任务，包括对象检测、实例分割、姿态估计、定向对象检测（OBD）和图像分类。其适应性体现在有多种模型变体，从nano到xlarge，满足不同的部署需求，包括边缘设备和高性能计算环境。

上述改进使YOLOv11具备了稳健的性能和出色的实际效果，从而成为本研究的基础。尽管YOLOv11具有显著的适应性和扩展性，但在实际应用中仍存在一些局限性。在某些特殊场景下，例如低光照或高噪声环境中，或者在复杂情况下，如目标被遮挡或目标尺寸较小时，模型的准确性和速度可以进一步提高。解决这些问题对于YOLOv11模型的实际应用至关重要，也是本研究的关键。本研究的目的是基于YOLOv11开发一个高效且实用的水下物体检测模型。该模型应具备以下特点：该系统已被证明能够有效执行进入干船坞的水下机器人的物体检测任务；它具备出色的泛化能力，在各种水下环境中保持高检测精度；与YOLOv11模型相比，该模型在复杂场景下（如目标被遮挡或目标尺寸较小时）表现出更高的检测精度。根据上述要求，本研究对YOLOv11网络结构进行了两项改进。首先，在主干网络中加入了Ghost模块。将原来的C3k2模块替换为Ghost模块后，模型的参数数量增加了，但模型的复杂性没有相应增加。这增强了模型的表征能力，并提高了其在复杂水下场景中的检测能力和鲁棒性。其次，在检测头中加入了一个注意力机制。目前的方法优先发展越来越复杂的注意力机制以提高性能，但这不可避免地会导致模型复杂性的增加。为了在模型复杂性和性能之间达到最佳平衡，本研究选择实现了高效的空间-通道协同注意力（SCSA）模块。该模块使用较少的参数，但仍能够同时捕捉特征图在通道和空间维度上的特征。因此，该模块提高了模型检测多尺度目标的能力，并实现了有效的性能提升。改进后的模型结构如图1所示。

图1 模型结构示意图。

3.2 Ghost模块
在水下环境中，成像设备受到诸如水浑浊、光衰减和散射以及水下物体遮挡等因素的影响。这些因素会导致图像质量差、对比度低、颜色失真和噪声高等问题。然而，YOLOv11的浅层特征提取模块（例如C3k2层）在抑制低级纹理噪声方面的能力有限，这可能导致将噪声区域误识别为目标或干扰目标边界定位，尤其是在小目标检测中。同时，由于透视变化，水下目标在大小上存在显著差异，并且经常呈现出不规则的形状（例如倾斜或部分被遮挡的贝类、鱼类）。尽管YOLOv11通过SPPF模块优化了多尺度特征聚合的效率，但其固定的金字塔池化尺度可能无法完全适应水下目标的极端尺度变化。这导致小目标（例如小于32×32像素）的特征在浅层网络中被噪声掩盖，或者大目标的全局结构信息在深度压缩过程中丢失。

C3k2模块是YOLOv11中的一个关键改进部分，其目的是通过并行化和灵活的参数配置来提高特征提取效率。然而，C3k2模块的固定采样模式阻碍了在处理不规则形状目标或复杂场景（例如水下光照不均匀和水质浑浊）时对感受野的动态调整，可能导致局部细节或全局语义信息的丢失。同时，C3k2模块主要使用堆叠的卷积层进行多尺度特征融合，但缺乏明确的跨尺度信息整合机制，从而导致小目标和重叠目标的检测精度不佳。鉴于上述挑战，本研究提出将Ghost模块（Han等人，2020年）加入主干网络以替代C3k2模块。采用这种替换的核心动机在于Ghost模块通过低成本的线性操作生成丰富多样的特征图的独特能力。在图像质量下降的情况下，信息经常丢失或损坏，这种机制鼓励模型学习更加鲁棒和冗余的特征集。Ghost模块不是依赖有限数量且计算成本较高的特征图（如标准卷积），而是从较少的内在特征生成多个“幽灵”特征图。通过线性变换（例如3×3深度卷积）生成多样化的表示过程特别有效，因为它允许模型在不产生显著计算开销的情况下探索更广泛的特征变化。这种模型表征能力的提升使其能够学习更高层次、更抽象、对图像中的退化输入（如模糊纹理和噪声）不那么敏感的特征。因此，它提高了检测精度并增强了模型适应更复杂场景的泛化能力。

Ghost模块的基本原理可以用方程式1-3表示：
步骤1：生成m个内在特征图：
(1) $Y′=X?f′(f′∈R_{c×k×k×m)$
步骤2：对每个特征图应用线性变换：
对于每个 $y′_{i}∈Y′$，应用线性变换 $\Phi_{i,j}$（例如3×3深度卷积）来生成新的特征图：
(2) $y_{ij}=Φ_{i,j}(y′_{i})$（$j=1,…,s$)
最终输出：
(3) $Y=[y_{11},y_{12},…,y_{ms}$

值得注意的是，在用Ghost模块替换C3k2模块的过程中，本研究没有采用将输出通道参数配置为原来C3k2模块一半或更小的传统方法。相反，它保持了原来C3k2模块的输出通道数量。这种方法利用Ghost模块通过低成本线性变换生成大量Ghost特征图的能力。假设这将有助于通过增加特征图的数量来获取更丰富、更抽象和更内在的信息。这种操作对于有效增加模型参数至关重要。

在基线YOLOv11n中，所有标准模块都应用了0.25的宽度缩放因子。因此，例如配置有64个输出通道的C3k2模块实际上只有16个通道可用。集成Ghost模块时，我们直接指定了绝对通道数量（分别为256、512、512、1024个，对应四个主干位置），而不应用宽度缩放。这种有意的设计使有效通道宽度大约增加了四倍，为生成Ghost特征图创造了更大的特征空间。虽然这种扩展增加了计算成本（从6.3 GFLOPs增加到10.7 GFLOPs）和参数数量（从2.6M增加到4.7M），但正是这种能力的提升使得模型能够捕捉水下小目标的细节。Ghost模块的低成本操作确保了参数的增长远低于进行相同扩展的标准卷积，实现了“扩展-适度”平衡。

3.3 空间-通道协同注意力机制
在复杂场景中，加入注意力机制已被证明是提高模型检测多尺度目标能力的一种有效策略。这种改进伴随着模型感知能力和鲁棒性的显著提升。在本研究中，空间-通道协同注意力（SCSA）模块（徐和朱，2025年）被引入到颈部网络中。SCSA通过两个组件实现了空间和通道注意力之间的深刻协同：模型结合了共享多语义空间注意力（SMSA）和渐进式通道自注意力（PCSA）。

3.3.1 共享多语义空间注意力
SMSA组件通过沿空间维度分解输入特征图 $X∈R_{B×C×H×W}$ 并应用多尺度深度卷积来捕获不同语义层次的特征。关键操作包括：
- 沿高度和宽度维度的特征分解；
- 使用不同内核大小（例如3、5、7、9）的多尺度卷积；
- 通过归一化和激活生成空间注意力权重。

空间注意力权重使用方程式4-6计算：
(4) $Attn_{H}=\sigma(GNKH(Concat(\?X_{1H},\?X_{2H},\?X_{3H},\?X_{4H})))$
(5) $Attn_{W}=\sigma(GNKW(Concat(\?X_{1W},\?X_{2W},\?X_{3W},\?X_{4W})))$
其中 $GNKH(?)$ 和 $GNKW(?)$ 分别表示对沿H和W维度聚合的子特征进行组归一化（GN）。

最终的空间注意力输出为：
(6) $SMSA(X)=XS=Attn_{H}×Attn_{W}×X$

3.3.2 渐进式通道自注意力
PCSA组件对空间细化后的特征进行处理以实现通道级的增强：
- 特征下采样和归一化；
- 通过深度卷积生成查询（Q）、键（K）和值（V）；
- 自注意力计算并使用缩放稳定。

通道注意力公式为：
(7) $Attention(Q,K,V)=Softmax(Q/K\times\sqrt{dk})$

-channel-enhanced features can be obtained by multiplying the attention weights by the values, which can be represented by Equation 8:
(8) $PCSA(XS)=σ(AvgPool(Attention(Q,K,V)))×X$

3.3.3 协同效应和整体公式
SCSA模块通过串联连接整合了SMSA和PCSA，公式为：
(9) $SCSA(X)=PCSA(SMSA(X))$

SCSA模块内的协同效应是连续且互补的。过程系统地展开，每个后续步骤都是基于前一个步骤的逻辑结果：
- 第一步：空间细化（SMSA）：首先通过SMSA处理输入特征图X。SMSA充当空间滤波器，确定图像中“哪里”存在重要信息（例如物体边缘或纹理），同时抑制空间上不相关的特征（例如背景噪声或水下散射）；
- 第二步：渐进式通道自注意力（PCSA）：然后将空间细化的特征图XS=SMSA(X)传递给PCSA。PCSA在SMSA提供的空间上下文中分析这些特征图，以确定哪些特征（即哪些通道）最具辨别力。

本质上，SMSA首先回答“在哪里”的问题，而PCSA随后解决“什么”的问题。这种顺序细化确保通道注意力仅应用于空间上相关的区域，从而产生比单独或并行使用空间和通道注意力更集中和鲁棒的特征表示。

SCSA通过串联连接的SMSA和PCSA实现了空间和通道注意力之间的深度协同，形成了双向增强机制。同时，SCSA通过维度解耦和轻量级卷积策略实现了高效的计算，但在参数数量和推理速度方面表现出最佳性能。此外，与传统的注意力机制（例如CBAM）不同，后者通过全局平均池化进行通道压缩，可能会导致水下图像中低对比度区域（例如深海生物的透明组织）的关键特征丢失，SCSA避免了通道压缩。相反，它保持了原始的通道维度并加入了GroupNorm（组归一化）来稳定训练。这种方法确保了高分辨率特征的保留，并增强了模型在复杂水下环境中的检测能力。上述设计确保了SCSA在保持轻量级结构的同时保持了最佳性能，从而增强了模型的鲁棒性。

3.4 与Ghost模块的协同
Ghost模块首先扩展了特征通道宽度（如第3.2节所述），提供了富含多样化的Ghost特征图的高容量特征空间。然后SCSA作用于这个扩展的空间：其空间注意力（SMSA）确定信息区域位于“哪里”（例如小水下目标的边缘），而其通道注意力（PCSA）确定哪些通道携带最具辨别力的线索。当特征空间较宽时，这种顺序细化特别有效，因为SCSA的并行协同设计防止了任一维度的过度压缩。因此，Ghost模块的“扩展-适度”与SCSA的平衡注意力相结合，实现了第4.4.2节（表4）中报告的显著召回率和mAP50-95的提升。

表4 实验结果
方法 GFLOPs 召回率 mAP50 mAP50-95 参数 FPSS CSA
GhostModule 基线 6.3 0.71 10.80 70.59 62.6M 117 5.88 √6.4 0.71 120.80 70.60 0 2.5M 99 2.64 √10.7 0.75 30.82 70.62 24.7M 90 2.77 √√10.6 0.76 40.82 90.61 74.7M 83 6.59

4 实验与讨论
4.1 数据集
在本研究中，使用了开源数据集UDID和DUO（Detecting Underwater Objects）进行模型训练。
DUO数据集（刘等人，2021年）是一个专为水下物体检测任务设计的高源数据集，主要支持水下物体检测（UOD）。DUO数据集作为代表性的水下物体检测基准。它通过收集和重新注释多个现有数据集构建，涵盖了更丰富的图像场景，并采用了更合理的注释策略。该数据库包含了大量的水下生物图像，包括海参（10.6%）、海胆（67.3%）、扇贝（2.6%）和海星（19.5%）。这种全面的图像集合克服了单一数据集的局限性，这些数据集通常具有有限的类别和不一致的注释。同时，DUO数据集中的图像表现出传统的水下图像挑战，包括颜色失真、光照不均和模糊性，因此对识别大量微小目标提出了更高的标准，使得模型更易于适应真实的水下环境。图2展示了DUO数据集中的一部分图像。图2展示了DUO数据集的示意图。UDID（水下对接图像数据集）是一个公开可用的图像数据集，由中国科学院沈阳自动化研究所的机器人国家重点实验室（刘等人，2019年）合作收集的。该数据集主要用于水下对接任务的研究。数据集是在一个长15米、宽10米、深9米的实验水池中收集的。对接站固定在水下2米的深度。在本研究中，使用了其公共训练集中的8,252幅图像，所有这些图像都是前景图像（即包含对接站的图像）。图3展示了UDID数据集中的典型图像。图3展示了UDID数据集的示意图。在本研究中，使用DUO数据集来确定模型在复杂水下环境中识别微小目标的能力，同时利用UDID数据集来评估模型执行水下机器人对接目标检测操作的能力。对于DUO和UDID数据集，我们采用了7:2:1的比例进行分层随机分割，以创建训练集、验证集和测试集。两个数据集的详细信息在表5中呈现。表5展示了数据集的图像类别、实例数量、图像分辨率以及训练集、验证集和测试集的划分情况。

对于DUO数据集，这一分割产生了大约6,671幅用于训练的图像（70%）、1,907幅用于验证的图像（20%）和1,111幅用于测试的图像（10%）。测试集包含了10,517个目标实例，涵盖了四种类别：海参、海胆、扇贝和海星。对于UDID数据集，由于其规模较小且更加均匀，同样的7:2:1分割产生了大约5,776幅训练图像、1,650幅验证图像和826幅测试图像。UDID上所有报告的性能指标都是基于保留的测试集得出的。为了确保结果的可重复性，使用了固定的随机种子。

4.2 实验设置
本研究的实验基于PyTorch深度学习框架，并在Anaconda虚拟环境中运行。表6展示了实验环境的配置，而表7详细介绍了实验设置中使用的主要超参数设置。

4.3 性能指标
在本研究中，精度（P）、召回率（R）和平均精度（mAP）被用来评估模型效果，其中mAP分别针对0.5（mAP50）和0.5到0.95（mAP50-95）的IoU阈值进行计算。此外，参数（Param）和千兆浮点运算次数（GFLOPs）用于展示和比较不同模型之间的计算资源消耗，模型推理速度以每秒帧数（FPS）来衡量。

4.3.1 精度
精度定义为所有检测到的目标都被正确识别的概率，其表达式如公式（10）所示：
$$
\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}
$$
其中，TP是正确预测为正样本的数量，FP是错误预测为正样本的负样本的数量。

4.3.2 召回率
召回率如公式（11）所示，定义为准确识别出正样本的概率：
$$
\text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}
$$
在上述公式中，TP表示正确预测为正样本的数量，FN表示错误预测为负样本的正样本的数量。

4.3.3 平均精度（AP）
“平均精度”（AP）一词用于表示精度和召回率值的平均值，它们共同代表了精度-召回率曲线下的面积。这是一个评估对象检测模型效能的重要指标，如公式（12）所示：
$$
\text{AP} = \int_{r=1}^{100} P(r) \, dr
$$
其中，$P(r)$是PR曲线对应的P值。

4.3.4 mAP
mAP是“平均精度”的缩写，用于评估机器学习模型的性能。它计算了模型预测精度的平均值。作为一个综合指标，它可以反映精度、召回率和平均精度。mAP50定义为50% IoU阈值下的mAP值。较高的mAP值表明模型更加准确。其表达式如公式（13）所示：
$$
\text{mAP} = \frac{\sum_{r=1}^{100} P(r) \cdot \text{Recall}(r)}{\sum_{r=1}^{100} \text{TP}(r)}
$$
mAP的值范围在[0, 1]之间，较高的值表示更好的性能。这是算法中最重要的对象检测指标。

4.3.5 GFLOPs
GFLOPs是评估神经网络计算复杂性的一个关键指标，表示每秒执行的十亿次浮点运算次数。较高的GFLOPs值表明模型在运行时需要更多的计算资源，从而可能影响训练速度和推理效率。

4.4 评估
本节对模型在两个不同数据集上的训练结果进行了全面分析，采用了多种评估方法。这些方法包括比较实验、消融实验、对模型损失的彻底检查以及对不同维度目标的检测性能的系统评估。首先，在比较实验中，将提出的模型与其他近年来常用的YOLO系列模型进行了比较，并分析了选择YOLOv11n作为本研究基线的原因。其次，通过将实验数据整合到消融实验中的各种改进指标上来验证改进模块的有效性。随后，对YOLOv11n模型和提出的模型在训练过程中的损失进行了分析。分析结果显示，改进后的模型表现出更高的稳定性和收敛性。为了总结这项研究，通过在一系列收集的水下图像上测试不同模型来突出改进模型的实际性能。应当注意的是，UDID数据集仅用于验证特定对接场景中的泛化能力；检测性能的主要评估是在DUO数据集上进行的。

4.4.1 定量分析
首先，本研究将提出的GSA-YOLOv11网络与其他YOLO系列模型进行了比较，包括YOLOv3n、YOLOv5n、YOLOv9n、YOLOv10n和YOLOv11n。各种模型的实验结果分别呈现在表8、图4-7中。

表8 和图4-7展示了YOLOv3至YOLOv11n在不同数据集上的性能。粗体字用来强调某些数据集的表现较好。

图4 和图5 显示了YOLO模型在100个训练周期内的性能指标：(a) 精度，(b) 召回率，(c) mAP50，以及(d) mAP50-95。每个图表的趋势相似，线条几乎重叠，内嵌框放大了接近第100个周期时的性能收敛情况。

图6 和图7 分别三维展示了UDID数据集上YOLOv3至YOLOv11在0到100个周期内的定量分析。YOLOv8在所有四个指标上的表现都优于其他模型，GSA-YOLOv11和YOLOv11紧随其后，而YOLOv3的表现最低。每个图表都包含了图例、坐标轴和详细的放大视图。

表9 和图8 表明了各种YOLO版本在DUO数据集上的性能比较。粗体字用来强调某些数据集的表现较好。

图4 和图5 的折线图展示了YOLO模型在100个周期内的性能指标：(a) 精度，(b) 召回率，(c) mAP50，以及(d) mAP50-95。YOLOv8在所有指标上都表现最佳，GSA-YOLOv11和YOLOv11紧随其后，YOLOv3的表现最低。

图7 显示了UDID数据集上定量分析的三维对比图。

如图8所示，UDID数据集为所有评估的YOLO变体提供了接近饱和的性能（精度和召回率接近1.0）。这主要是因为UDID仅包含一个目标类别（对接站），且场景具有高度同质性，无法为比较检测能力提供有意义的差异。因此，在本研究中，UDID数据集仅作为辅助验证模型对水下对接场景的可转移性，而不是作为性能比较的主要基准。所有核心结论——包括定量比较、消融实验和敏感性分析——都是基于DUO数据集得出的。

4.4.2 定量分析
首先，本研究将提出的GSA-YOLOv11网络与其他YOLO系列网络进行了比较，包括YOLOv3n、YOLOv5n、YOLOv9n、YOLOv10n和YOLOv11n。各种模型的实验结果分别呈现在表8和图4-7中。

表8 和图4-7 中展示了YOLOv3至YOLOv11n在不同数据集上的性能。粗体字用来强调某些数据集的表现较好。

图4 和图5 显示了YOLO模型在100个周期内的性能指标：(a) 精度，(b) 召回率，(c) mAP50，以及(d) mAP50-95。每张图表都显示了相似的趋势，线条几乎重叠，内嵌框放大了接近第100个周期时的性能收敛情况。

图6 和图7 分别三维展示了UDID数据集上YOLOv3至YOLOv11在0到100个周期内的定量分析。YOLOv8在所有四个指标上的表现都优于其他模型，GSA-YOLOv11和YOLOv11紧随其后，YOLOv3的表现最低。

图8 显示了YOLOv5、YOLOv8、YOLOv11和GSA-YOLOv11在五个检测目标（全部、海参、海胆、扇贝和海星）上的性能对比。三个图表分别表示不同的性能指标：(a) 召回率，(b) mAP50，以及(c) mAP50-95。每个图表都标有不同的值范围，并用绿色、红色、浅蓝色和深蓝色线条分别表示每种检测算法的相对分数。每个图表下方都有清晰的图例标签，说明颜色对应的关系。

图7 和图8 显示了UDID数据集上定量分析的三维对比图。

如表8所示，UDID数据集为所有评估的YOLO变体提供了接近饱和的性能（精度和召回率接近1.0）。这是因为UDID仅包含一个目标类别（对接站），且场景具有高同质性，无法提供有意义的检测能力差异。因此，在本研究中，UDID数据集仅作为模型对水下对接场景可转移性的辅助验证，而不是性能比较的主要基准。所有核心结论——包括定量比较、消融实验和敏感性分析——都是基于DUO数据集得出的。

表9 对比分析了不同YOLO版本在DUO数据集上的性能。首先，比较了不同YOLO版本在GFLOPs方面的性能。定量分析显示，YOLOv3的GFLOPs达到了262.3。虽然该模型在mAP50等指标上表现出强劲的性能，但其巨大的计算需求将不可避免地导致推理速度大幅下降和硬件资源需求的显著增加，从而对实时检测任务和嵌入式设备的需求构成挑战。相比之下，YOLOv11在模型准确性和计算复杂性之间取得了良好的平衡，并能更好地适应实时推理和嵌入式设备的需求。鉴于YOLOv11n的轻量级特性及其相对较新的版本，本研究选择它作为研究基准。如图6所示，YOLOv11在训练结果中的主要性能指标（包括mAP50和mAP50-95）与其它网络配置相比表现不佳。造成这种现象的根本原因是其他网络可能需要更多的计算资源来达到更高的准确性。然而，本研究第3节提出的改进方法使YOLOv11在除了YOLOv3之外的所有网络中实现了最佳的主要指标。

为了便于比较不同模型在DUO数据集中对每个目标类别的识别准确性，图8展示了比较分析。由于YOLOv3的参数数量远多于其他模型，不适合在车载计算机上实现，因此比较仅限于YOLOv3以外的模型。比较分析显示，GSA-YOLOv11在召回率、mAP50和mAP50-95方面优于其他模型，尤其是在识别四种生物（海参、海胆、扇贝和海星）方面。海参的召回率为0.775，这是与其他模型相比最大的提升。海胆和海星的mAP50分别为0.917和0.917，分别比基线模型提高了0.4%和1.1%。海胆的mAP50-95表现最佳，为0.726，而海参和扇贝的mAP50-95分别为0.58和0.451，分别比基线模型提高了3.8%和1.1%。

图8 的雷达图比较了YOLOv5、YOLOv8、YOLOv11和GSA-YOLOv11在五个检测目标（全部、海参、海胆、扇贝和海星）上的性能。三个图表分别表示不同的性能指标：(a) 召回率，(b) mAP50，以及(c) mAP50-95。每个轴都用不同的颜色范围标记，分别用绿色、红色、浅蓝色和深蓝色线条表示每种检测算法的相对分数。每个图表下方都有清晰的图例标签，说明颜色的对应关系。

为了评估模型性能的统计显著性，我们对10次独立实验的结果进行了统计分析。值得注意的是，所有10次实验在检测准确性指标上显示出完全的一致性，具体数值见表10。

表10 显示了10次实验的平均结果。由于所有准确性指标的标准差几乎为零，它们的点估计值代表了真实的性能预期。总体而言，检测mAP达到了0.830，总体精度达到了0.844。这表明模型保持了较高的召回率（0.739），同时展示了出色的定位和分类准确性。

推理速度是模型部署应用的关键指标。10次实验的FPS结果显示出正常的波动，描述性统计和置信区间计算如下：分析表明，该模型在10次实验中的平均推理速度为830.85 FPS，95%的置信区间为[816.88, 844.82] FPS。这表明模型的真实FPS有95%的概率落在这一范围内。极低的变异系数（CV）2.35%进一步证明了推理过程的稳定性。这一速度远超过实时应用（通常为30 FPS）的基线要求，为高吞吐量的工业场景（如实时视频流分析）提供了强有力的支持。

此外，考虑到模型的复杂性（494万个参数，计算复杂度为10.6 GFLOPs），其FPS/GFLOPs比达到了78.38。这一出色的比率突显了模型在准确性和速度之间的完美平衡。

4.4.2 消融实验
为了直观地观察不同模块对模型准确性的影响，基于YOLOv11进行了一系列消融实验，以验证每个模块的有效性。起初，实验采用了YOLOv11n作为基线模型来获得其检测结果，该基线模型作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。在本研究中，首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。为了提高模型提取目标对象特征和抑制背景信息的能力，在Neck网络中的C3k2模块之后加入了一个注意力机制，以增强网络的识别能力。为了验证本研究中使用的SCSA注意力模块的优越性，将不同的注意力模块嵌入到网络模型的相同位置，并进行了对比实验。

如表11和图9所示，将注意力模块加入模型并不会导致参数数量或计算复杂度的显著增加。相反，SCSA显示出与其他注意力机制（CBAM、MSDA、ECA、LSKA）以及基线模型（YOLOv11）相比的显著优势。在召回率方面，SCSA达到了0.730，是所有模型中最高的。与其他模块相比，它的召回率比基线模型（YOLOv11）高1.9%（0.711→0.730）；比排名第二的CBAM高0.6%（0.724→0.730）；比排名最低的MSDA高2.6%（0.704→0.730）。SCSA优良的召回率表明它可以更全面地捕捉到真实目标，并显著降低漏检率。在典型复杂的水下环境中，由于目标小且遮挡密集，观察发现SCSA能够检测到更多的潜在目标，因此在这些场景中扮演了独特的角色。

表11展示了不同注意力机制的结果比较。
图9中的四个折线图显示了YOLOv11及其五种不同模块变体的性能指标随训练周期的变化情况：(a)精确度，(b)召回率，(c)mAP50，(d)mAP50-95。每个图表都包含了最后20个周期的结果放大插图，并附有与模型变体对应的图例。

关于GFLOPs（浮点运算次数），SCSA的计算效率几乎没有损失。对比分析显示，SCSA的GFLOPs仅增加了0.1（6.3→6.4），这与其他高效模块（ECA、LSKA）的增加幅度相当，且低于CBAM（6.5）。这一发现表明SCSA在不显著增加计算需求的情况下实现了性能提升，使其更适合在边缘设备上实现。

关于mAP50-95（平均精确度-95个类别），SCSA的综合性准确性表现出明显的竞争力。SCSA的mAP50-95达到了0.600，仅比最优模块MSDA低0.2%（0.602）。这一性能超过了基线模型（0.596）和LSKA（0.596）。这一发现表明SCSA在严格的检测标准（IoU 0.5~0.95）下仍能保持一线级的准确性，并且尽管召回率大幅提高，其准确性仍然稳定。

在参数和FPS（每秒帧数）方面，SCSA显示出显著的优势。其参数数量（255万）低于基线模型（258万）和其他注意力机制变体（如CBAM和ECA），体现了其轻量级的特点。尽管其推理速度（992.64 FPS）略低于基线模型，但仍明显快于ECA模块，并且与主流注意力机制如CBAM和LSKA相当。这表明SCSA在通过注意力机制增强模型表示能力的同时，有效地平衡了计算复杂性和推理效率，使其适用于资源受限的部署场景。

SCSA在保持计算效率的同时，最大限度地提高了召回率。这种方法有可能在计算资源受限的场景中提高目标检测率，从而解决了与水下目标检测任务相关的挑战，例如检测小目标和密集遮挡问题。因此，本研究中选择了SCSA注意力机制。

本研究还对比分析了将七种特征融合网络（ODConv、SAConv、WTConv、MSCB、GhostNetV1、GhostNetV2和GhostModule）与YOLOv11n以及两个非YOLO系列的主流目标检测算法（SwinTransformer和rtdetr-n）的组合性能。训练结果如图10所示。

表12显示了各模型的最终性能。
最初，实验使用YOLOv11n作为基线进行，以获得基线模型的检测结果，作为后续实验的基准。随后，通过各种方式修改基线模型以验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了实验以确保结果不受额外因素的影响。在验证所有改进方法后，将它们结合起来得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

最终，将注意力机制引入模型后，模型提取目标对象特征和抑制背景信息的能力得到了提升。在Neck网络中的C3k2模块之后加入了注意力机制，以增强网络的识别能力。为了验证本研究中使用的SCSA注意力模块的优越性，在网络模型的相同位置嵌入了不同的注意力模块，并进行了对比实验。

表11显示了不同注意力机制的结果比较。
图9中的四个折线图分别展示了YOLOv11及其五种不同模块变体的性能指标随训练周期的变化情况：(a)精确度，(b)召回率，(c)mAP50，(d)mAP50-95。每个图表都包含了最后20个周期的结果放大插图，并附有模型变体的图例。

从GFLOPs（浮点运算次数）来看，SCSA的计算效率几乎没有任何损失。对比分析显示，SCSA的GFLOPs仅增加了0.1（6.3→6.4），与其他高效模块（ECA、LSKA）的增加幅度相当，且低于CBAM（6.5）。这一发现表明SCSA在提高性能的同时没有显著增加计算需求，使其更适合在边缘设备上实现。

从mAP50-95（平均精确度-95个类别）来看，SCSA的综合性准确性表现出显著的竞争力。SCSA的mAP50-95达到了0.600，仅比最优模块MSDA低0.2%。这一性能超过了基线模型（0.596）和LSKA（0.596）。这一发现表明SCSA在严格的检测标准下仍能保持一流级的准确性，并且尽管召回率大幅提高，其准确性仍然稳定。

在参数和FPS方面，SCSA显示出显著的优势。其参数数量（255万）低于基线模型（258万）和其他注意力机制变体（如CBAM和ECA），反映了其轻量级的特点。尽管其推理速度（992.64 FPS）略低于基线模型，但仍明显快于ECA模块，并且与主流注意力机制（如CBAM和LSKA）相当。这表明SCSA在提升模型表示能力的同时，有效平衡了计算复杂性和推理效率，适用于资源受限的部署场景。

SCSA在保持计算效率的同时，最大限度地提高了召回率。这种方法有可能在计算资源受限的场景中提高目标检测率，从而解决了水下目标检测任务中遇到的挑战，例如检测小目标和密集遮挡问题。因此，本研究中选择了SCSA注意力机制。

本研究还对比分析了将七种特征融合网络（ODConv、SAConv、WTConv、MSCB、GhostNetV1、GhostNetV2和GhostModule）与YOLOv11n，以及两种非YOLO系列的主流目标检测算法（SwinTransformer和rtdetr-n）的组合性能。训练结果如图10所示。

表12显示了各模型的最终性能。
最初，实验使用YOLOv11作为基线进行，以获得其检测结果，作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

最初，实验采用了YOLOv11n作为基线模型来获得其检测结果，作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

为了提高模型提取目标对象特征和抑制背景信息的能力，在Neck网络中的C3k2模块之后加入了注意力机制，以增强网络的识别能力。为了验证本研究中使用的SCSA注意力模块的优越性，将不同的注意力模块嵌入到网络模型的相同位置，并进行了对比实验。

如表11和图9所示，将注意力模块加入模型并不会导致参数数量或计算复杂度的显著增加。相反，SCSA显示出与其他注意力机制（CBAM、MSDA、ECA、LSKA）和基线模型（YOLOv11）相比的显著优势。在召回率方面，SCSA达到了0.730，是所有模型中最高的。与其他模块相比，其召回率比基线模型（YOLOv11）高1.9%（0.711→0.730）；比排名第二的CBAM高0.6%（0.724→0.730）；比排名最低的MSDA高2.6%（0.704→0.730）。SCSA的优越召回率表明它能够更全面地捕捉到真实目标，并显著降低漏检率。在典型的复杂水下环境中，由于目标小且遮挡密集，SCSA观察到了更多的潜在目标，从而在这些场景中发挥了独特的作用。

表11展示了不同注意力机制的结果比较。

图9中的四个折线图显示了YOLOv11及其五种不同模块变体的性能指标随训练周期的变化情况：(a)精确度，(b)召回率，(c)mAP50，(d)mAP50-95。每个图表都包含了最后20个周期的结果放大插图，并附有模型变体的图例。

从GFLOPs来看，SCSA的计算效率几乎没有任何损失。对比分析显示，SCSA的GFLOPs仅增加了0.1（6.3→6.4），这与其他高效模块（ECA、LSKA）的增加幅度相当，且低于CBAM（6.5）。这一发现表明SCSA在提高性能的同时没有显著增加计算需求，使其更适合在边缘设备上实现。

从mAP50-95来看，SCSA的综合性准确性表现出显著的竞争力。SCSA的mAP50-95达到了0.600，仅比最优模块MSDA低0.2%。这一性能超过了基线模型（0.596）和LSKA（0.596）。这一发现表明SCSA在严格的检测标准（IoU 0.5~0.95）下仍能保持一流级的准确性，并且尽管召回率大幅提高，其准确性仍然稳定。

在参数和FPS方面，SCSA显示出显著的优势。其参数数量（255万）低于基线模型（258万）和其他注意力机制变体（如CBAM和ECA），反映了其轻量级的特点。尽管其推理速度（992.64 FPS）略低于基线模型，但仍明显快于ECA模块，并且与主流注意力机制（如CBAM和LSKA）相当。这表明SCSA在提升模型表示能力的同时，有效平衡了计算复杂性和推理效率，适用于资源受限的部署场景。

SCSA在保持计算效率的同时，最大限度地提高了召回率。这种方法有可能在计算资源受限的场景中提高目标检测率，从而解决了与水下目标检测任务相关的挑战，例如检测小目标和密集遮挡问题。因此，本研究中选择了SCSA注意力机制。

本研究还对比分析了将七种特征融合网络（ODConv、SAConv、WTConv、MSCB、GhostNetV1、GhostNetV2和GhostModule）与YOLOv11n，以及两种非YOLO系列的主流目标检测算法（SwinTransformer和rtdetr-n）的组合性能。训练结果如图10所示。

表12显示了各模型的最终性能。
最初，实验使用YOLOv11作为基线进行，以获得其检测结果，作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

最初，实验采用了YOLOv11n作为基线模型来获得其检测结果，作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

为了提高模型提取目标对象特征和抑制背景信息的能力，在Neck网络中的C3k2模块之后加入了注意力机制，以增强网络的识别能力。为了验证本研究中使用的SCSA注意力模块的优越性，将不同的注意力模块嵌入到网络模型的相同位置，并进行了对比实验。

如表11和图9所示，将注意力模块加入模型并不会导致参数数量或计算复杂度的显著增加。相反，SCSA显示出与其他注意力机制（CBAM、MSDA、ECA、LSKA）以及基线模型（YOLOv11）相比的显著优势。在召回率方面，SCSA达到了0.730，是所有模型中最高的。与其他模块相比，其召回率比基线模型（YOLOv11）高1.9%（0.711→0.730）；比排名第二的CBAM高0.6%（0.724→0.730）；比排名最低的MSDA高2.6%（0.704→0.730）。SCSA优良的召回率表明它可以更全面地捕捉到真实目标，并显著降低漏检率。在典型复杂的水下环境中，由于目标小且遮挡密集，SCSA观察到了更多的潜在目标，因此在这些场景中发挥了独特的角色。

表11展示了不同注意力机制的结果比较。
图9中的四个折线图分别展示了YOLOv11及其五种不同模块变体的性能指标随训练周期的变化情况：(a)精确度，(b)召回率，(c)mAP50，(d)mAP50-95。每个图表都包含了最后20个周期的结果放大插图，并附有模型变体的图例。

关于GFLOPs（浮点运算次数），SCSA的计算效率几乎没有损失。对比分析显示，SCSA的GFLOPs仅增加了0.1（6.3→6.4），这与其他高效模块（ECA、LSKA）的增加幅度相当，且低于CBAM（6.5）。这一发现表明SCSA在提高性能的同时没有显著增加计算需求，使其更适合在边缘设备上实现。

关于mAP50-95（平均精确度-95个类别），SCSA的综合性准确性表现出显著的竞争力。SCSA的mAP50-95达到了0.600，仅比最优模块MSDA低0.2%。这一性能超过了基线模型（0.596）和LSKA（0.596）。这一发现表明SCSA在严格的检测标准（IoU 0.5~0.95）下仍能保持一流级的准确性，并且尽管召回率大幅提高，其准确性仍然稳定。

在参数和FPS方面，SCSA显示出显著的优势。其参数数量（255万）低于基线模型（258万）和其他注意力机制变体（如CBAM和ECA），反映了其轻量级的特点。尽管其推理速度（992.64 FPS）略低于基线模型，但仍明显快于ECA模块，并且与主流注意力机制（如CBAM和LSKA）相当。这表明SCSA在提升模型表示能力的同时，有效平衡了计算复杂性和推理效率，适用于资源受限的部署场景。

SCSA在保持计算效率的同时，最大限度地提高了召回率。这种方法有可能在计算资源受限的场景中提高目标检测率，从而解决了与水下目标检测任务相关的挑战，例如检测小目标和密集遮挡问题。因此，本研究中选择了SCSA注意力机制。

本研究还对比分析了将七种特征融合网络（ODConv、SAConv、WTConv、MSCB、GhostNetV1、GhostNetV2和GhostModule）与YOLOv11n，以及两种非YOLO系列的主流目标检测算法（SwinTransformer和rtdetr-n）的组合性能。训练结果如图10所示。
表12展示了不同特征融合网络模型的最终性能。

最初，实验使用YOLOv11作为基线进行，以获得其检测结果，作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

最初，实验使用YOLOv11n作为基线进行，以获得其检测结果，作为后续实验的基准。随后，通过对基线模型进行各种修改来验证其有效性。首先增强了YOLOv11网络中的注意力模块，同时保持其他组件的完整性，并进行了相应的实验，以确保结果不受外来因素的影响。通过类似的方法，分别在验证了所有改进方法后，将它们结合起来，得到了最终的GSA-YOLOv11模型，从而验证了GSA-YOLOv11的有效性。

为了提高模型提取目标对象特征和抑制背景信息的能力，在Neck网络中的C3k2模块之后加入了注意力机制，以增强网络的识别能力。为了验证本研究中使用的SCSA注意力模块的优越性，将不同的注意力模块嵌入到网络模型的相同位置，并进行了在测试集中，提出的模型在训练结束时达到了YOLOv11模型的损失值，此时训练周期数约为60。此外，可以观察到在大约40个训练周期后，提出的模型在测试集上的损失开始稳定，而YOLOv11的损失则在大约60个周期后开始稳定。总之，提出的模型在训练集和测试集上的损失值分别为0.48147和0.51303，而YOLOv11模型在训练集和测试集上的损失值分别为0.52839和0.52272。因此，增强模型的有效性得到了无可争议的证明，其在稳定性和收敛性方面展现了显著的提升。

图12显示了两条折线图，比较了YOLOv11和GSA-YOLOv11在100个周期内的性能。图(a)绘制了训练损失，图(b)绘制了验证损失。在两个图表中，随着训练的进行，GSA-YOLOv11（橙色线）的损失值略低于YOLOv11（蓝色线）。插图突出了60到100周期之间的详细损失趋势，进一步强调了GSA-YOLOv11的边际改进。两个图表都显示了初始阶段的快速损失下降，并在第一百周期附近趋于稳定。

4.4.4 模型检测结果的比较
以下检测结果是在保留的测试集（每个数据集的10%）上评估的，如第4.1节所述。为了更直观地展示所提出的改进方法与替代模型的有效性，本研究从定性分析的角度进行了实验。从测试集中选择了五张具有小目标或密集遮挡目标的示意图。如图13所示，该图展示了在检测水下目标方面表现出显著效果的多个模型的检测结果。值得注意的是，六行分别对应于原始图像以及YOLOv3、YOLOv5、YOLOv11和所提出模型的预测结果。

图13是一个六列六行的水下图像网格，比较了原始图像（顶部）与YOLOv3、YOLOv5、YOLOv11和一个自定义模型的对象检测结果。除了顶部行之外，所有检测到的对象上都标有带有标签的边界框。深度学习模型的检测结果在视觉上相似，不同颜色的矩形标记了识别的目标。

图13中每个模型的检测结果比较显示，YOLOv11在检测复杂水下环境中的小目标和密集遮挡目标时存在不足。例如，当海胆分布密集时，海星的检测会有一定的遗漏。然而，本研究中使用的增强模型没有出现这种情况。在所选的模型中，所提出的模型在检测海胆方面表现出最高的置信度，且检测框的大小和位置更为准确。图13表明，所提出的模型在检测海胆和海星方面具有显著优势。研究表明，其他模型容易在检测海胆的过程中错误地将模糊的背景颜色识别为海胆。相比之下，所提出的模型能够精确识别目标，并有效减少多重检测和误检测的情况。总之，可以认为所提出的模型具有适应复杂水下环境中密集分布的小目标的能力。选择这种模型的理由是，GSA-YOLOv11引入了GhostModule来替代C3k2，从而获得了大量的Ghost特征图信息，并通过SCSA注意力机制筛选有效特征，增强了模型专注于小目标和关键区域的能力，从而实现了准确的检测。这一发现进一步支持了所提出的GSA-YOLOv11模型具有强大的特征提取能力和在复杂水下环境中检测模糊目标的能力的假设。

4.4.5 敏感性分析
为了全面评估所提出的GSA-YOLOv11模型的鲁棒性和通用性，进行了六种系统扰动下的敏感性分析：必须考虑以下因素：高斯噪声、高斯模糊、亮度变化、对比度变化、随机遮挡和尺度变化。这些实验旨在模拟具有挑战性的水下成像条件，并评估模型在受控失真下的性能下降情况。测试集包含201张图像，共1,766个实例，涵盖了四个水下类别。

4.4.5.1 基于图像质量扰动的敏感性分析
为了量化模型的敏感性，记录了在不同噪声强度（高斯噪声的标准差）下的“全部”类别的性能指标，如表14所示。

表14 高斯噪声强度精确度召回率 mAP50 mAP50-95
0.00 40.83 70.75 60.83
0.01 50.00 60.83 30.73 10.82
0.02 60.59 0.00 80.83 0.69 60.79 80.56
0.03 10.77 0.01 0.83 90.65
0.04 10.77 0.02 0.83 90.65
0.05 10.77 0.01 0.83 60.65
0.06 10.77 0.01 0.83 90.60
0.07 10.71 0.02 0.79 10.55
0.08 10.79 0.02 0.67 70.45
0.09 10.71 0.03 0.71 70.50
0.10 10.71 0.03 0.57 30.37
0.11 10.71 0.05 0.64
0.12 10.71 0.03 0.39 0.45
0.13 10.71 0.08 0.53 40.08
0.14 10.71 0.08 0.53 40.28
0.15 10.71 0.08 0.64 30.75
0.16 10.71 0.08 0.63 0.74
0.17 10.71 0.08 0.50 70.37
0.18 10.71 0.05 0.64 0.39
0.19 10.71 0.05 0.45 30.28
0.20 10.71 0.08 0.53 40.29
0.21 10.71 0.08 0.33 0.19
0.22 10.71 0.10 0.54

通过对性能指标的检查，发现随着噪声强度的增加，性能呈现出一般性的下降趋势。为了更直观地说明核心指标mAP50的变化趋势，可以描述如下：在低噪声区域（σ< 0.01），性能逐渐下降；当σ > 0.016时，性能进入加速下降阶段；在高噪声区域（σ > 0.05），检测性能急剧下降。其中，召回率（R）的下降幅度最大，为72.0%；mAP50-95下降75.2%；精确度（P）的下降幅度最小，为34.8%。

显然，不同类别对噪声的敏感性不同。如表15所示，在高噪声条件（σ=0.1）下使用mAP50作为案例研究：

表15 高斯噪声强度海参海胆扇贝海星
0.00 40.83 20.82 20.91 80.67
0.01 60.00 60.82 60.80
0.02 60.80 0.91 10.68
0.03 80.79 80.74 80.90
0.04 10.64 50.01 10.77 80.71
0.05 10.62 10.01 20.89
0.06 10.01 10.62 10.75
0.07 10.01 10.67 30.87
0.08 10.01 10.67 30.86
0.09 10.01 10.71 90.58
0.10 10.02 0.67 70.45
0.11 10.03 0.71 70.50
0.12 10.03 0.57 30.37
0.13 10.03 0.64 0.39
0.14 10.03 0.45 30.15
0.15 10.03 0.48 50.08
0.16 10.03 0.33 0.45
0.17 10.03 0.28 40.08
0.18 10.03 0.29 60.33
0.19 10.03 0.19 0.10
0.20 10.03 0.54 60.21
0.21 10.03 0.25 60.15

从表15中可以看出，海参和海星在绝对性能上表现最佳，这表明模型为这些类别学习了更鲁棒的特征。如图1所示，即使在低噪声条件下（σ=0.03），海参的性能也lowest，显示出显著的下降。这一发现表明，当这些特征受到噪声的影响时，模型可能会错误地识别或忽略它们。

数据集显示，扇贝的实例数量最少（N = 28），其性能曲线表现出明显的波动。这可能表明，面对分布异常的扰动时，小样本类别的性能不稳定。选择不同大小的高斯模糊核也会影响模型的检测性能。

表16显示，在核大小在0.5到1.5之间时，mAP50保持在0.834以上，甚至在1.0时达到峰值（mAP50 = 0.845），表明轻微的模糊起到了一定的规范化作用。当核大小超过2.0时，性能稳步下降，mAP50在大小为3.5时降至0.694。

表16 核大小精确度召回率 mAP50 mAP50-95
0.5 0.86 20.75 0.84
0.6 0.86 30.74 0.845
0.7 0.87 60.72 0.834
0.8 0.84 50.61 30.87 60.72
0.9 0.87 60.80 50.69
1.0 0.84 20.69 0.77 60.51
1.1 0.86 20.66 0.74 30.63
1.2 0.82 0.69 40.61
1.3 0.86 20.63 0.74

研究表明，低强度的高斯模糊在某种程度上起到了“规范化”或“数据增强”的作用。由于图像被过滤以去除细微的噪声和不相关的高频细节，模型被迫依赖更宏观、更鲁棒的形状和轮廓特征进行决策。这一发现与在训练期间使用模糊增强来提高模型泛化能力的原理一致。因此，在适度模糊的情况下，模型表现出异常的鲁棒性。当模糊强度过高时，关键的边缘和纹理信息严重受损，从而阻止了骨干网络提取判别性特征，导致召回率降低。为了保持高精度，模型采取了谨慎的方法，即使这意味着要牺牲召回率。

4.4.5.2 基于光照扰动的敏感性分析
研究表明，图像的整体亮度对模型的检测性能有显著影响。在真实的水下环境中，水质变化和深度变化等因素会导致图像中的光学扰动。选择不同的亮度缩放因子来模拟光照强度对水下图像的影响，从而便于评估模型的检测性能（见表17）。

表17 光照强度精确度召回率 mAP50 mAP50-95
0.4 0.87 0.59 50.70
0.5 0.70 70.49 70.45
0.6 0.79 70.60 40.69
0.7 0.87 0.50 70.50
0.8 0.85 20.65 60.77
0.9 0.85 20.69 60.70
1.0 0.85 20.82 0.90
1.1 0.87 0.87 0.71
1.2 0.84 80.74 0.83
1.3 0.82 0.73 90.85
1.4 0.82 0.79 10.59
1.5 0.88 0.84 90.59

模型的性能随亮度呈现抛物线趋势，在中间值处最高，在两端值较低。模型的性能从最低点到最高点提高了大约19.0%，最低点为0.45，最高点为0.9，平均精确度（mAP50）为0.696。与高斯噪声和高斯模糊相比，由亮度变化引起的性能波动范围相对有限。这一发现表明，模型对亮度变化具有固有的鲁棒性。

4.4.5.3 基于随机遮挡的敏感性分析
水下环境本身的复杂性和不确定性对水下机器人获得无障碍视野的开发构成了重大挑战。众所周知，水下机器人捕获的图像通常会不同程度地出现遮挡。此外，海洋生物聚集的倾向进一步增加了遮挡的目标。采用了随机遮挡方法，并调整了遮挡比例来模拟这一现象。随着遮挡比例的增加，模型性能单调下降（见表18）。从最低遮挡水平（0.02）到最高水平（0.2），mAP50下降了26.6%，而mAP50-95下降了30.4%。此外，性能下降是非线性的：遮挡比例的前50%（0.02–0.1）导致性能下降13.6%，而随后的50%（0.1–0.2）导致性能下降15.1%。这表明，一旦超过某个遮挡阈值，模型的检测能力会因关键特征的丢失而受到严重影响。

表18 遮挡比例精确度召回率 mAP50 mAP50-95
0.02 0.83 90.72
0.04 0.83 90.72
0.06 0.81 60.71
0.08 0.80 80.57
0.10 0.78 50.54
0.12 0.78 50.63
0.14 0.76 50.51
0.16 0.76 50.69
0.18 0.76 50.59
0.20 0.76 50.53
0.22 0.76 50.59
0.24 0.76 50.40

GSA-YOLOv11模型在面对水下环境中常见的光学和图像质量扰动时表现出高度的鲁棒性。其在中等噪声、模糊和光照变化下的性能保持稳定，在极端条件下的性能下降较为温和。这些结果验证了架构改进的有效性，并突出了该模型适用于水下环境实际应用的能力。

5 结论
本文通过提出改进的GSA-YOLOv11检测模型，解决了复杂水下光学环境中的挑战，例如严重的图像退化和检测小目标及密集遮挡物体的难度。该模型通过将Ghost模块引入原始YOLOv11架构并加入空间-通道协同注意力（SCSA）机制，增强了特征表示，显著提高了多尺度水下物体的检测准确性和鲁棒性，同时保持了高推理速度。在DUO数据集上的实验表明，GSA–YOLOv11在所有模型中实现了最高的召回率（0.764）和最高的mAP50（0.829），仅次于计算成本较高的YOLOv3。尽管其精确度（0.820）略低于某些轻量级YOLO变体，但这是一种可接受的权衡，因为在水下物体检测中，漏检（低召回率）比误报（低精确度）更为关键。在UDID数据集上的额外实验进一步证实了该模型在水下对接场景中的通用性。

尽管GSA-YOLOv11在多次实验中表现出强大的整体性能，但本研究仍需解决几个局限性：在极端遮挡和类别重叠的情况下，检测能力不足。特别是当目标显著重叠或可见区域有限时，模型仍然容易错过具有简单纹理和不规则形状的物体（例如海参、扇贝）。模型的轻量化和部署适应性需要优化。引入Ghost模块增加了参数复杂性，这对计算资源有限的水下嵌入式设备（例如低功耗AUV）的实时通过交叉注意力机制，两个分支的特征相互作用，从而使模型能够根据可见部分和场景语义（例如，海胆通常聚集在岩石上）推断并完成遮挡物体的边界框和类别的识别。为实现精确的动态推理：为了在边缘设备上获得更好的速度-精度 tradeoff（权衡），可以设计一个“提前退出”机制。具体来说，我们将在 GSA-YOLOv11 主干网络中引入多个退出点。对于容易检测到的大型物体或清晰的图像，模型会在较浅的层提前退出以快速生成结果；对于具有挑战性的小型物体或模糊的图像，则会进行完整的深层计算。

构建抗扰动训练策略：系统性的多扰动联合训练策略的设计可以提高训练模型的抗干扰能力。这种方法不是孤立地应用模糊性或噪声，而是模拟水下环境中的耦合退化模型，例如“光衰减 + 噪声放大 + 色差”这样的组合。同时，集成对抗性混合数据增强技术也是可行的。在训练批次中动态混合具有不同程度和类型的扰动样本，迫使模型学习更通用的特征。这种训练策略的有效性可以通过代表极端浑浊度和低光照条件的独立测试集进行验证。

在样本较少和长尾分布的情况下加强类别学习：对于样本稀少的类别，预计将实施“解耦训练”策略。最初，在一般特征学习阶段，必须采用动态类别权重损失来减轻类别不平衡。随后，在微调过程中，为每个类别训练一个轻量级的度量学习子网络，特别关注那些表现出长尾分布的类别。该子网络学习一个特征空间，在这个空间中，同一类别内的小样本目标被更紧凑地表示，而类别外的目标特征则被更明确地分离。同时，针对长尾类别专门生成基于原型的合成特征，以进一步增强它们的表示能力。

推进跨模态感知和实际系统集成：探索光声融合感知解决方案，以克服浑浊水域中单一光学传感器的局限性，同时促进算法在真实 AUV（自主水下航行器）平台上的嵌入式部署和系统验证。

包含非 YOLO 基线：我们的比较分析主要集中在 YOLO 系列模型上。虽然这与我们专注于适用于实时水下应用的高效和轻量级架构的研究重点一致，但包含非 YOLO 基线（如两阶段检测器或基于变压器的模型）为未来的工作提供了更广泛的基准测试机会。这样的比较将提供关于水下物体检测性能的更全面视角。

GSA-YOLOv11 作为复杂水下场景中的高效检测解决方案，在准确性和效率之间取得了良好的平衡。这项研究不仅证明了 Ghost 模块和 SCSA 机制在水下物体检测中的有效性，还通过系统敏感性分析揭示了模型的当前局限性和改进方向。它为后续的研究和水下视觉感知系统的实际应用提供了技术基础和理论参考。

热点排行