TAWNet：一种用于RGB-D显著物体检测的三维自适应加权网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：TAWNet: Three-dimensional Adaptive Weighted Network for RGB-D Salient Object Detection

【字体：大中小】 时间：2026年03月25日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　RGB-D显著目标检测中提出三维自适应加权网络TAWNet，通过深度质量优化模块DQO提升深度特征可靠性，创新性三维加权融合模块建模语义相似、模态差异与信息互补性，结合跨尺度残差注意力模块CRA实现多级特征协同，在六项基准数据集上超越21种SOTA方法且参数效率高。

山东大学控制科学与工程学院，济南，250061，中国

摘要

尽管最近的RGB-D显著对象检测方法探索了各种跨模态融合策略，从特定模态的处理到针对高级和低级特征的不同操作，但它们通常缺乏系统化的框架来共同建模模态之间的内在关系。这限制了它们充分利用RGB和深度模态的协同潜力。此外，输入深度图的质量以及多级特征之间的跨尺度交互也是一个问题。为了解决这些问题，我们提出了一个三维自适应加权网络（TAWNet），该网络明确地、协作地建模了模态之间的相似性、差异性和互补性，以实现有效的跨模态融合。具体来说，TAWNet采用基于P2T的并行编码器来提取层次化特征。首先应用轻量级的深度质量优化模块（DQO）对深度分支进行过滤和增强深度特征。我们框架的核心是三维自适应加权融合模块（TAWF），它首先对两种模态输入应用不同的净化过程。然后，它在三个维度上学习自适应权重：语义相似性、模态差异性和信息互补性，以执行加权融合并生成统一的融合特征，无缝整合净化的多模态信息。此外，解码器中的跨尺度残差注意力模块（CRA）通过级联结构逐步整合多尺度上下文信息，以实现精细预测。在六个基准数据集上的广泛实验表明，通过三个核心模块的协同效应，我们的TAWNet优于21种最先进的方法。更重要的是，TAWNet在性能和复杂性之间取得了出色的平衡，提供了出色的准确性，而不会引入过多的参数和计算成本。源代码将在https://github.com/Karry-Wu/TAWNet处发布。

引言

显著对象检测（SOD）是计算机视觉中的一个关键研究课题，旨在使计算机能够模仿人类的视觉机制，识别图像或视频中最引人注目的对象或区域。它已被广泛应用于各种视觉任务，如图像理解[1]、语义分割[2]、对象跟踪[3]、图像字幕[4]和视频分析[5]。传统的显著对象检测方法[6]、[7]、[8]依赖于手工制作的特征，这些特征在复杂场景中效率低下且准确性不足。随着深度学习技术的迅速发展，基于深度神经网络的SOD方法[9]、[10]、[11]、[12]、[13]已成为主流，显著提高了效率和准确性。然而，在光照不足或前景和背景外观相似的复杂场景中，仅基于RGB图像的SOD方法仍然难以产生准确的结果。因此，研究人员引入了深度信息来辅助显著对象检测，从而发展出了RGB-D SOD。尽管当前的RGB-D SOD方法在复杂场景中取得了有希望的结果，但它们仍然面临某些困难和挑战。

挑战1：如何有效建模模态之间的内在关系并促进跨模态特征信息的完全互补和融合是RGB-D SOD中的一个关键问题。RGB和深度模态在语义表示、结构特征和噪声鲁棒性方面存在本质差异。直接融合容易导致信息冲突或互补性不足。在融合不同模态的过程中，许多方法对RGB和深度特征执行相同的处理。广泛使用的融合模块采用对称结构，执行简单的元素级加法、乘法或连接操作，而没有充分考虑来自不同模态的特征信息的独特特性。如图1(a)所示，两种模态的特征首先被相同地预处理，然后在融合操作后分别与原始特征进行交互和融合。这种直接融合忽略了模态差异。遵循这种范式的代表性方法包括HINet[14]、HENet[15]和GAINet[16]。如图1(b)所示，两种模态的特征首先经过相同的操作处理，然后分别与另一种模态融合，随后进行后续的增强和交互融合操作。这也是一种对称融合方法，采用这种融合设计的方法包括ACINet[17]、EATNet[18]和BMFNet[19]。这些对称融合模块的设计未能充分考虑两种模态的相似性、差异性和互补性，导致信息丢失和检测性能下降。为了克服这些限制，我们提出了一个非对称的三维加权融合结构，如图1(c)所示。据我们所知，三维自适应加权融合的概念在RGB-D SOD领域是完全新的。

挑战2：优化深度图像特征的质量和抑制噪声干扰仍然是一个关键挑战。深度图像包含丰富的空间和几何线索，这些线索补充了RGB图像中缺失的空间结构信息[20]，在提高SOD性能方面起着重要作用。然而，由于采集设备的限制，现有的RGB-D SOD数据集中的原始深度图像经常受到采集噪声和深度不连续性的影响[20]。一种直接的策略是过滤和增强提取的深度特征以去除冗余噪声。不幸的是，许多现有方法忽略了这个问题，直接将原始深度特征与RGB特征融合。结果，融合表示缺乏足够的区分度和鲁棒性，从而削弱了模型准确感知显著对象的能力。遵循这种范式的代表性方法包括CATNet[21]、PLFRNet[22]和TPCL[23]。这种不加区分地使用噪声深度特征的方法降低了融合表示的质量，阻碍了深度线索的充分利用，最终降低了检测性能。为了解决这一限制，我们设计了一个深度质量优化模块，在跨模态融合之前增强深度特征的质量。

挑战3：如何有效利用多级特征互补性并增强层间信息相关性是另一个挑战。大多数现有方法[24]、[25]、[26]、[27]提取多级RGB和深度特征，并在每个对应级别独立进行模态融合。然后将融合特征输入解码器进行解码。然而，不同级别的特征表示具有不同的属性：低级特征保留了细粒度的纹理细节，而高级特征编码了丰富的 semantics 信息。在每个阶段单独进行融合不可避免地会导致层次间共享信息的丢失。因此，充分利用相邻层之间的互补信息并在解码器中设计有效的跨尺度融合机制至关重要，以减少信息丢失。此外，共显著对象检测方法MGCNet[28]的共识保留模块旨在有效融合相邻层之间的特征，以及LC3Net[29]阶梯解码器的设计，为阶梯解码器中的跨尺度特征交互和融合提供了宝贵的见解。

总之，为了解决上述挑战和问题，我们提出了一个三维自适应加权网络（TAWNet）。该网络采用并行P2T[30]编码器提取多级特征。为了最大化相邻特征之间的共享信息，在模态融合之前对特征进行初步融合操作。为了提高深度特征的质量，在深度分支中设计了深度质量优化模块（DQO）来净化深度表示并抑制噪声信息。为了充分利用不同模态的互补属性，我们引入了三维自适应加权融合模块（TAWF），该模块根据语义相似性、模态差异性和信息互补性执行特征交互和加权融合。此外，在解码器中，采用跨尺度残差注意力模块（CRA）有效整合多尺度特征，细化显著细节，并逐步生成最终的显著性地图。

我们工作的主要贡献可以总结如下：

•
我们提出了一个新颖的RGB-D SOD框架——三维自适应加权网络（TAWNet），该框架在三个维度上实现了模态关系的精细建模，并协作解决了深度质量优化和跨尺度融合的问题。实验结果表明，TAWNet在六个基准数据集上的性能优于最先进的方法，且没有引入过多的参数和计算开销。
•
我们设计了一个深度质量优化模块，用于在不同级别过滤深度特征，消除冗余信息，从而提高模型在低质量深度场景中的鲁棒性。
•
我们提出了一种基于三维自适应加权的新的融合范式，引入了RGB和深度特征的非对称特征净化，并在三个维度上执行自适应的跨模态交互和融合：语义相似性、模态差异性和信息互补性，为跨模态特征选择和加权融合提供了一个可解释的设计框架。
•
我们在解码器中构建了一个跨尺度残差注意力模块，以整合不同尺度的显著特征，并从高级语义逐步解码到低级细节，生成更鲁棒的显著性地图。

部分片段

跨模态特征交互和融合

在RGB-D SOD中，跨模态特征融合一直是一个关键的研究问题，已经提出了许多策略来改善不同模态之间的交互和整合。Zhou等人[31]提出了一个跨通道和跨尺度的自适应融合网络，该网络分别在通道和空间维度上处理高级和低级特征，充分利用了高级和低级信息之间的交叉流动，但未能考虑

概述

我们提出的TAWNet的总体架构和工作流程如图2所示。具体来说，TAWNet的编码器采用并行P2T[30]网络从低到高提取四组RGB和深度特征。然后，提取的深度特征被输入深度质量优化模块进行特征增强和噪声过滤，以提高深度特征的可靠性。然后使用三维自适应加权

数据集

为了验证我们模型的有效性，我们在六个具有挑战性的数据集上进行了实验，包括DUT-RGBD[47]、NJU2K[48]、NLPR[49]、STERE[50]、SIP[51]和DES[52]。DUT-RGBD包含1200张使用Lytro相机拍摄的真实场景图像。NJU2K包含1985张来自互联网和日常生活的图像。NLPR包含1000张使用Microsoft Kinect拍摄的各种场景的图像。STERE包含1000张来自真实和虚拟场景的图像。SIP包含929张

结论

在这项工作中，我们提出了一个新颖的三维自适应加权网络用于RGB-D SOD。除了实现最先进的性能外，我们的研究还得出了一些重要的见解。首先，DQO模块表明，深度特征的轻量级预处理可以显著抑制噪声并放大结构线索，证实了深度可靠性在RGB-D融合中的关键作用。其次，TAWF模块揭示了建模语义相似性、模态

CRediT作者贡献声明

Jiazheng Wu：撰写 – 审稿与编辑，撰写 – 原始草稿，软件，方法论，概念化。Zhenxue Chen：撰写 – 审稿与编辑，监督，项目管理。Qingqiang Guo：撰写 – 审稿与编辑，验证，监督。Chengyun Liu：撰写 – 审稿与编辑，资源，调查。Zhenyan Wang：撰写 – 审稿与编辑，可视化，资源。Qinggang Meng：撰写 – 审稿与编辑，可视化，数据管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

致谢

这项工作部分得到了山东省重点研发项目（2022CXGC010503）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

跨模态特征交互和融合

概述

数据集

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行