用于RGB-D显著物体检测的深度校正与边缘引导网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Depth Correction and Edge Guidance Network for RGB-D Salient Object Detection

【字体：大中小】 时间：2026年02月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　RGB-D显著性检测中，低质深度图噪声和边缘模糊问题制约性能。本文提出DENet，通过DAM模块校正深度噪声并融合语义信息，ERGM模块强化边缘引导特征，协同优化高、低层特征，显著提升边缘定位精度。实验表明DENet在五组数据集上超越15种先进方法。

宋晓刚|张小龙|赵秦|魏炳星|郭新伟|黑新红

西安理工大学计算机科学与工程学院，中国西安，710048

摘要

RGB-D显著对象检测的主要目标是从成对的彩色和深度图像中准确定位并分离出最具有视觉显著性的区域或对象。然而，深度传感器获取的原始数据通常包含噪声和缺失值，这会导致低质量深度图的干扰，从而显著降低检测性能。此外，现有方法生成的显著性预测图往往边缘模糊，细节丢失。为了解决这些关键问题，我们创新性地提出了一个深度校正和边缘引导网络（DENet），该网络通过深度适配器模块（DAM）和边缘强化引导模块（ERGM）的协同作用来提升性能。具体来说，DAM通过过滤深度噪声并融合RGB图像的语义信息来动态校正和增强深度特征。ERGM结合低级特征生成边缘引导特征，并利用这些特征来细化高级特征中的边缘和细节信息，从而显著提高边缘定位的准确性。全面的实验结果表明，DENet在五个具有挑战性的数据集上超越了15种先进方法。

引言

显著对象检测（SOD）是计算机视觉领域的一个重要研究方向。通过模仿人类视觉，它能够快速定位并分割图像中最吸引人的区域。这一过程为后续的图像处理任务提供了关键信息，从而优化了计算资源的分配并提高了处理效率。作为一种高效的图像预处理技术，它在对象跟踪、对象识别、视频分析、图像字幕、图像分割和图像重组等多个领域得到了广泛应用。

近年来，深度学习取得了快速进展，催生了多种基于深度学习的SOD模型。随着技术的不断发展，基于视觉变换器[1]和卷积神经网络（CNN）[2]的SOD方法相继出现，并展现了出色的性能。随着微软Kinect和Intel RealSense等硬件设备以及现代智能手机的普及，获取深度图变得更加容易。深度图像提供的空间和几何线索为计算机视觉任务提供了宝贵的辅助信息。这些信息使网络能够更准确地理解场景的三维结构，从而提高对象分割的精度和可靠性。利用这一优势，许多研究[3]通过结合深度数据取得了优异的结果。

SOD的有效性在很大程度上取决于深度图的质量，但由于传感器的限制，深度图的质量可能会受到影响。低质量的深度图像不仅包含固有噪声，还可能无法准确描述显著对象及其空间分布。直接融合未经处理的深度特征可能会导致RGB特征被噪声污染，从而降低模型的整体性能。此外，边缘特征是围绕对象轮廓和边界的关键信息，为对象结构提供了重要的空间线索。显著对象的轮廓和边缘与背景有显著差异。这些特征不仅有助于模型准确定位目标，还为后续的分割任务提供了清晰的边界信息。然而，大多数现有研究更关注显著性图的结构完整性，而忽视了边缘质量的优化。这种研究偏见导致许多现有方法生成的显著性图边缘模糊、不连续或失真，从而降低了显著对象检测的整体性能。

尽管最近的RGB-D SOD方法取得了有希望的性能，但它们仍然存在两个根本性限制：带有噪声和缺失值的低质量深度图像常常会污染RGB特征，阻碍准确检测；而模糊或不连续的对象边界会降低显著性预测图的可靠性。这两个问题至关重要，因为高质量的深度特征和精确的边缘定位对于准确的分割是必不可少的。因此，我们的目标是设计一个既能校正和增强噪声深度特征，又能强化边缘细节的网络，从而生成具有结构完整性和清晰边界的语义图。

为了解决上述挑战，本文介绍了一个创新的深度校正和边缘引导网络（DENet）。具体来说，DENet采用双流编码器架构提取多级特征。RGB特征使用SMT[4]提取，而深度特征使用MobileNetV2[5]捕获。其次，我们引入了一个新颖的深度适配器模块（DAM），该模块通过双分支结构对深度特征进行噪声抑制和特征增强。第三，我们设计了一个边缘强化引导模块（ERGM），该模块通过整合低级特征生成边缘引导特征，并利用这些特征细化高级特征，从而显著提高显著对象边缘的清晰度和准确性。最后，我们构建了一个统一的框架，整合了多模态编码器、深度适配器模块和边缘强化引导模块。本文的主要贡献总结如下：

•

我们提出了一个深度校正和边缘引导网络，通过校正和增强深度信息以及强化边缘特征，有效减少了低质量深度图的缺点，生成了边缘清晰、高质量的语义图。

•

我们设计了一个深度适配器模块（DAM），该模块采用双分支结构分别对深度特征进行去噪和增强，通过整合两个分支的输出生成高质量深度特征。

•

我们引入了一个边缘强化引导模块（ERGM），该模块通过整合低级特征生成边缘引导特征，并利用这些特征细化高级特征，从而显著提高显著性预测图中的边缘细节。

•

在五个公共数据集上进行的广泛实验表明，DENet的性能优于15种先进的RGB-D SOD方法，验证了其有效性和先进性。

部分内容摘录

RGB显著对象检测

在计算机视觉领域，显著对象检测（涉及识别和隔离图像中最引人注目的元素）已成为当代研究的关键领域。在各种方法中，基于RGB的显著对象检测具有最悠久的历史，最初的研究可以追溯到1998年。Itti等人[6]提出的模型通过使用高斯金字塔对输入图像进行多尺度下采样来模拟人类视觉机制。

提出的方法

本文提出了一个高效的深度校正和边缘引导网络。在接下来的部分中，我们首先对该网络进行了总体介绍，然后详细探讨了每个模块的具体实现。

实验

首先，在第4.1节中介绍了实验配置。接下来，在第4.2节中，我们对DENet与近年来的最佳RGB-D SOD方法进行了全面评估。随后，在第4.3节中进行了广泛的消融实验，最后在第4.4节中分析了失败案例。

结论

在这项工作中，我们提出了一个基于深度校正和边缘引导的RGB-D SOD网络，以解决由于低质量深度图像导致的噪声干扰和显著对象边缘模糊的问题。该网络包含一个具有双分支结构的深度适配器模块，用于校正和增强深度特征。第一个分支采用注意力机制和级联卷积层来抑制噪声并增强深度图中的特征，有效过滤噪声。

CRediT作者贡献声明

宋晓刚：撰写——原始草稿，资金获取。张小龙：撰写——原始草稿，软件开发。赵秦：撰写——审阅与编辑，资金获取。魏炳星：撰写——审阅与编辑，指导。郭新伟：撰写——审阅与编辑，指导。黑新红：撰写——原始草稿。

利益冲突声明

作者声明本文所述工作未受到任何竞争性财务利益或个人关系的影响。

致谢

本研究部分由中国国家自然科学基金（编号52372418，U2368203）资助。

联系信箱：

粤ICP备09063491号

摘要

引言

部分内容摘录

RGB显著对象检测

提出的方法

实验

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行