实时实例分割(RIS)能够在像素级别提供语义类别,并区分同一类别的不同个体。由于RIS在区分目标边界、估计目标大小以及应用于嵌入式设备方面具有价值,因此它可以广泛应用于水下目标搜索、水下智能捕鱼和水下自主导航感知等任务。尽管实例分割在可控水产养殖环境中取得了成功(Wang, Yu, Xu, Muhammad, & Li, 2025),但在非结构化的水下环境中,其性能受到普遍存在的图像退化的严重阻碍,这为实时应用带来了显著的研究空白。
近期在实时实例分割方面的进展通过自适应多尺度策略(Yuan, Meng, & Wu, 2024)和精细特征融合网络(Wen et al., 2020)提升了性能,实现了在不牺牲速度的情况下提高准确性。联合优化检测和分割的级联设计提高了掩码质量,同时保持了实时能力。然而,这些方法主要针对水面环境,忽略了水下光学图像中的可见度损失、运动模糊和色彩失真问题。此外,如自主水下航行器(AUV)之类的水下平台通常具有有限的机载计算能力,这给实现低延迟或计算密集型算法带来了挑战。
传统解决方案通常将图像增强或去噪方法(Huang et al., 2024)与RIS任务结合使用。然而,这种额外的图像恢复过程会增加计算开销,并导致分割任务的延迟增加(Liu et al., 2020)。由于水下RIS算法通常部署在资源受限的嵌入式设备上,我们放弃了这种方法。相反,我们提出了基于RTMDet架构(Lyu et al., 2022)的UPinst模型,专门针对水下光学图像的严重图像退化问题进行了优化。
首先,水下图像中的严重色彩失真显著削弱了通道间的相关性和特征表示。许多研究表明,策略性地应用注意力机制可以显著提高CNN的性能,例如SE(Hu, Shen, Albanie, Sun, & Wu, 2020)、ECA(Wang et al., 2020b)、STN(Jaderberg, Simonyan, Zisserman, & Kavukcuoglu, 2015)和残差注意力(Wang et al., 2017)。然而,标准方法在水下领域难以平衡性能和效率。在通道注意力方面,轻量级方法(如ECA)通常依赖于全局平均池化(GAP)。在浑浊环境中,GAP往往会平滑本已较弱的高频纹理细节,而这些细节对水下分割任务至关重要。相反,使用多层感知器(MLP;例如CBAM(Woo, Park, Lee, & Kweon, 2018)的复杂方法引入了嵌入式设备无法承受的参数冗余。更严重的是,标准的空间注意力机制(如CBAM)在处理水下物体时存在固有缺陷:首先,它们采用激进的通道压缩,导致语义模糊和通道特定定位的丢失;其次,它们直接将通道细化特征输入固定大小的核(例如7×7),而不进行尺度感知处理。这种受限的感受野无法捕捉海洋生物不规则边界所需的长距离依赖性,也无法适应其极端尺度变化。为了解决这些问题,我们引入了多尺度级联注意力模块(SCTA)。SCTA专为水下环境设计:它结合了混合池化策略以保留背景噪声中的显著边缘特征,并集成了多尺度层来处理极端尺度变化。此外,为了解决传统空间注意力中固定感受野的限制,我们采用了双轨空间注意力(TSA)机制来解耦空间信息,从而实现非规则水下目标的精确定位。此外,TSA在像素级别细化特征,显著提高了实例分割所需的像素级分类准确性。
其次,运动模糊等问题使得水下目标实例的边界分割变得困难,需要补充水下光学图像细节。由于检测器必须有效融合高级语义和低级空间特征,因此“颈部”成为整个框架的关键组成部分(Tan, Pang, & Le, 2020)。我们提出了一种新的颈部网络——图注意力特征金字塔网络(GAFPN)。基于我们提出的路径图注意力模块(PAGAT)获得的细粒度特征流,我们设计了全卷积融合模块(FCFusion)将它们融合到深度特征中,增强了不同网络层之间的信息传递。我们重新配置了特征层之间的信息流,以帮助生成更细粒度的掩码。总之,我们的贡献包括:
(1) 我们提出了SCTA,这是一种用于细化多维特征的级联轻量级模块,实现了多尺度信息交互,并增强了色彩偏移图像特征提取的鲁棒性。在空间维度上,TSA分别细化了高度和宽度特征,以实现像素级增强。
(2) 我们提出了PAGAT,它基于动态图注意力网络(Brody, Alon, Yahav, 2022, Liu, Zhou, 2020),能够自适应地为相邻节点分配权重,补偿退化的水下图像信息,并提高模型的表现力。
(3) 为了改进特征融合,我们设计了颈部网络GAFPN,它使用FCFusion将PAGAT的细粒度特征融合到深度特征中,消除了融合冗余,并添加了残差连接以最大化所有层之间的细粒度特征传递。
本文的结构如下:
- •
第1节介绍了实时水下实例分割的背景,分析了光学退化的挑战,并概述了本文的贡献。
- •
第2节回顾了注意力机制和实例分割方法的相关工作。
- •
第3节详细介绍了提出的UPinst框架,包括多尺度级联注意力模块(SCTA)、路径图注意力模块(PAGAT)和图注意力特征融合网络(GAFPN)。
- •
第4节介绍了实验设置、消融研究以及在公共数据集和自建数据集上的比较结果。
- •
第5节讨论了所提方法的鲁棒性、详细故障分析、局限性以及潜在的未来发展方向。
- •
第6节总结了本文。