具有多模态信息的水下显著物体检测特征增强与尺度感知网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Feature boosting and scale-aware network with multi-modal information for underwater salient object detection

【字体：大中小】 时间：2026年03月24日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　水下显著目标检测面临图像质量差、多模态噪声干扰和尺度变化挑战。本文提出FBS-Net，通过场景对比感知模块（SCPM）增强RGB特征，频率域解耦融合模块（FDFM）重构多模态特征，结合尺度感知迭代解码器（SIFD）实现多尺度信息融合。实验表明该方法在USOD10K、COD10K和USOD数据集上优于16种SOTA方法。

王廷宇|卢俊哲|万斌|卢荣锋|孙耀琦|吴端波|刘彦斌|严成刚

杭州电子科技大学通信工程学院，中国浙江省杭州市白杨街310018

摘要

水下显著物体检测（USOD）在海洋工程应用中发挥着重要作用。由于复杂的水下环境导致图像质量较差，USOD仍然是一项具有挑战性的任务。现有方法通常将从水下图像和深度图中提取的特征融合起来，以利用更多的显著线索。然而，它们忽略了水下多模态数据中固有的退化和噪声污染问题。此外，这些方法对水下物体的尺度变化关注不足。为了解决这些问题，我们提出了一种特征增强和尺度感知网络（FBS-Net），该网络包括两个过程：水下特征增强和尺度感知的迭代融合解码。水下特征增强过程采用场景对比感知模块（SCPM）通过比较RGB图像与增强后的水下图像之间的差异来提高水下红绿蓝（RGB）图像特征的可靠性，并采用频域解耦融合模块（FDFM）从噪声多模态输入中重建高质量的场景表示。在尺度感知的迭代融合解码过程中，引入了尺度感知的迭代融合解码器（SIFD），通过多次细化迭代动态处理多尺度信息，同时抑制噪声和冲突特征。在USOD10K、COD10K和USOD数据集上的广泛实验表明，我们提出的方法优于16种现有方法。我们的代码和结果可在以下链接获取：https://github.com/llllxxx2333/FBSNet。

引言

水下显著物体检测（USOD）旨在使计算系统能够模仿人类的视觉注意力机制。通过识别复杂海洋环境中最显著的物体，USOD弥合了人类感知与人工系统之间的差距。USOD的进步推动了其在广泛海洋工程应用中的战略部署，包括但不限于水下资源勘探（Reggiannini和Moroni，2020年）、水下缺陷检测（Jian等人，2018年）和海洋打捞作业（Tsokas等人，2022年）。

水下环境的复杂性阻碍了光学系统的清晰成像，这对水下显著物体检测（USOD）构成了重大挑战（Hong等人，2023年；Zhang Pingping等人，2024年；Jin等人，2024年）。如图1所示，水下光学特性受到宏观层面的光吸收和散射的影响，导致图像以蓝绿色谱为主，从而影响了物体与背景之间的边界定义。在微观层面，海洋环境引入了悬浮颗粒、浮游生物和气泡等噪声源，降低了图像质量并模糊了纹理细节。此外，成像设备的限制，包括传感器约束和光学传输问题，进一步增加了检测的复杂性。因此，RGB图像质量的降低使得水下视觉任务难以达到与自然场景相当的准确性，改进RGB特征表示成为USOD的关键问题。

从直观的角度来看，使用水下图像增强（UIE）（Wang等人，2021年；Zhang Weidong等人，2022年）来处理图像退化因素似乎是一种提高检测性能的直接方法，如图2(b)所示。然而，我们的实验以及Yudong Wang等人（2023年）和Xingyu Chen等人（2020年）的研究结果揭示了一个反直觉的现象：尽管图像增强方法从人类感知的角度来看产生了吸引人的结果，但可能会损害水下检测性能。这种意外的性能下降可能是由于增强算法无意中改变了或去除了对物体检测至关重要的结构和纹理细节。因此，直接提高水下RGB图像的质量以改善其特征表示的准确性变得具有挑战性。此外，受到传统RGB-D SOD方法（Luo等人，2024年；Zhou和Hong，2023年；Zhou等人，2025年）的多模态策略的启发，一些研究人员（Jin等人，2024年）采用了一种替代方法，通过利用深度图的空间信息间接增强RGB特征表示，如图2(c)所示。然而，与传统的SOD场景不同，水下环境在获取深度图像方面面临重大挑战，通过预测技术（Ranftl等人，2021年）获得的深度信息往往有限。因此，直接处理这两种受损的模态不可避免地会引入大量干扰并降低检测性能。除了水下环境带来的限制外，水下物体的显著尺度变化也为USOD带来了独特挑战（Ji等人，2024年；Li等人，2024年；Long Chen等人，2020年）。许多现有方法难以有效处理这种变化，导致显著目标的定位效果不佳。

为了解决上述问题，我们提出了一种特征增强和尺度感知解码网络（FBS-Net），主要包括两个过程：水下特征增强过程和尺度感知的迭代融合解码过程。具体来说，为了利用多模态信息来提高水下图像特征的质量，我们设计了一个水下特征增强过程。该过程包含两个核心模块：场景对比感知模块（SCPM）和频域解耦融合模块（FDFM），分别解决了水下图像增强在保留关键信息方面的局限性和有效提取深度信息方面的挑战。首先，SCPM提取RGB特征与经过伽马校正的RGB特征之间的差异，系统地探索这些差异特征以评估每个区域的重要性，并合成受水下质量启发的权重。这些权重被重新注入原始RGB表示中，以恢复其关键信息内容。这种方法将水下图像质量评估（Zhu等人，2024年）和自适应增强（Zhu等人，2023a；Zhu等人，2023b；Zhou等人，2024年）整合到一个统一的框架中。通过为不同区域获取质量权重，模型可以专注于信息丰富的区域，同时抑制退化区域，从而实现有针对性的水下图像增强。此外，考虑到现有的多模态SOD方法（Wan等人，2023年；Wan等人，2024年）采用互模态净化技术无法完全减少由水下场景固有的复杂性引起的两种模态中的噪声。FDFM实现了双模态特征的频域分解，并利用可学习向量选择性地提取和融合低频显著信息。这种方法减少了特征信息之间的无效交互，使得在水下环境中实现更稳健的特征重建成为可能。

在水下特征增强过程之后，准确恢复显著物体或区域是另一个挑战。为此，我们引入了尺度感知的迭代融合解码过程。该解码过程的核心目的是通过迭代细化跨层和层次化特征表示来逐步增强显著信息的区分能力。具体来说，我们首先在层次加权融合（HWF）层执行多级特征的初步融合，评估每个层次特征的贡献，并采用生成的相应权重来选择性地增强或抑制层次化特征。然后将融合后的跨层特征通过局部自增强（LSE）层进行处理，以探索局部自关系以进行特征增强。虽然跨层特征（多级特征融合的结果）包含了作为显著物体定位关键指导的全面信息，但每个层次特征仍保留其独特且有价值的特性。因此，我们采用层次特征反向细化（HFR）层将跨层信息传递给每个层次特征，使其能够吸收其他层次的信息，同时保持其固有属性。这些优化后的特征进一步进行融合、增强和迭代细化，逐步减少噪声并生成高质量的显著性地图。

总之，本文的主要贡献有四个方面：

1.
我们提出了一种用于USOD的特征增强和尺度感知网络（FBS-Net），通过在三个基准数据集（USOD10K、COD10K和USOD）上的全面评估，实现了水下显著物体检测方面的最先进性能。广泛的实验表明，FBS-Net在大多数评估指标上始终优于16种竞争方法，在包括严重图像退化、复杂多物体场景和多样物体尺度在内的具有挑战性的场景中表现出显著改进。
2.
我们提出了场景对比感知模块（SCPM），用于提取水下RGB图像与增强后的水下图像之间的差异场景信息，并在多个感受野中定位显著区域。特别是，我们可以从两个图像域中获得独特的线索，并生成包含高质量区域定位信息的注意力权重，这些权重随后指导水下RGB特征的处理。
3.
我们设计了频域解耦融合模块（FDFM），以促进深度和RGB模态的融合。该模块根据各自的相对质量选择性地对每个模态进行加权，有效隔离模内噪声并提取有效信息以重建特征表示。
4.
我们开发了一种尺度感知的迭代融合解码器（SIFD），旨在选择性地利用层次化层次之间的显著性信息，实现有效的跨层特征聚合。

本文的其余部分组织如下：第2节回顾相关工作，第3节详细描述我们提出的FBS-Net架构，第4节提供全面的实验结果和分析，第5节讨论我们的方法和未来方向。

章节片段

水下显著物体检测

当深度学习仍处于起步阶段且数据集稀缺时，手工制作的特征方法（Itti等人，1998年；Cui等人，2019年）主导了水下显著物体检测（USOD）领域。这些方法主要基于水下图像的固有空间属性提取低级特征（例如，颜色分布、方向模式和边缘特征）。然而，由于手工制作特征的局限性，这些方法难以

提出的方法

在本节中，我们详细介绍了所提出的特征增强和尺度感知解码网络（FBS-Net），其整体框架如图3所示。在第3.1节中，我们概述了FBS-Net的总体架构。在第3.2节中，我们详细介绍了场景对比感知模块。接下来，在第3.3节中介绍了频域解耦融合模块，在第3.4节中介绍了尺度感知的迭代融合解码器。在第3.5节中，我们提供了详细的解释

数据集和实现细节

（1）数据集：为了全面评估我们提出的方法，我们在三个水下显著性检测基准数据集上进行了广泛实验：USOD10K（Hong等人，2023年）、COD10K（Fan等人，2020年）和USOD（Islam等人，2020年）。USOD10K是现有的最大规模的水下任务数据集，包含7178张训练图像、2051张验证图像和1026张测试图像。它提供了RGB图像及其相应的真实标签（GT）、深度图和边缘

结论

在本文中，为了解决低质量水下图像带来的挑战并适应水下物体的显著尺寸变化，我们提出了一种特征增强和尺度感知网络（FBS-Net），该网络通过两个主要过程实现准确的水下物体分割：水下特征增强和尺度感知的迭代融合解码。水下特征增强过程首先利用场景对比感知模块（SCPM）进行比较

CRediT作者贡献声明

王廷宇：撰写——原始草稿，软件，方法论。卢俊哲：撰写——审阅与编辑，软件，方法论。万斌：调查，数据管理。卢荣锋：验证。孙耀琦：监督。吴端波：验证，软件。刘彦斌：验证，监督。严成刚：监督，项目管理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（编号：62501221）、浙江省自然科学基金（编号：LQN26F030023）和浙江省属高校基本研究经费（编号：GK259909299001-037）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言