DMDNet：一种用于视频-图像-文本（V-D-T）显著对象检测的双分支多模态深度融合网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：DMDNet:Dual-branch Multi-modal Deep Fusion Network for V-D-T Salient Object Detection

【字体：大中小】 时间：2026年01月12日 来源：Neural Networks 6.3

编辑推荐：

　　针对多模态显著目标检测中编码器直接融合模态特征导致的噪声干扰问题，本文提出双分支多模态深度融合网络DMDNet。编码器采用VGG-16和ResNet-34双分支分别提取可见光、深度与热成像特征，并设计模态交互模块挖掘互补性特征。解码器通过多尺度特征感知、区域优化和双分支融合模块逐步优化特征，最终生成高精度显著性图。实验表明DMDNet在VDT-2048数据集上性能显著优于基线方法。

孙瑶琪|万斌|尹海兵|陈亚红

中国丽水市丽水大学数学与计算机科学学院，323000

摘要

在多模态显著对象检测任务中，深度或热成像特征通常在编码阶段直接与可见光特征融合，这导致融合后的编码器特征包含大量噪声信息，从而降低了检测精度。为了解决这一挑战，本文提出了一种新颖的双分支多模态深度融合网络（DMDNet），其中可见光图像作为一条分支，深度和热成像图像作为另一条分支，在解码器阶段实现多模态特征融合。在编码器阶段，我们对三种模态应用了两种类型的骨干网络以确保充分的信息提取，并设计了模态交互（MI）模块来挖掘深度和热成像特征之间的互补性。在解码器阶段，我们依次提出了多尺度特征感知（MFP）模块和区域优化（RO）模块来挖掘和优化显著区域。之后，我们引入了双分支融合（DF）模块，以自下而上的方式整合多模态特征，生成最终的显著性地图。综合实验结果验证，DMDNet在VDT-2048数据集上取得了优异的性能。

引言

显著对象检测（SOD）（Jiang等人，2022年；Liu和Wang，2024年；Lou等人，2022年；Wang等人，2023年；Zhang等人，2023年）作为计算机视觉任务的一个分支，旨在捕捉最引人注目的对象或区域。得益于其在像素级别的识别能力，它被广泛应用于各种场景（Yan等人，2023年；Zhang等人，2025年），例如遥感检测（Bao等人，2023年；Cheng等人，2024年；Zhou等人，2022b年）、表面缺陷检测（Ameri等人，2024年；Song等人，2025年；Yang等人，2022年）、视频对象检测（Fan等人，2019年；Samaila等人，2024年）以及细粒度识别（Tang、Liu、Yan、Yan、Li、Tang，2023年；Tang、Yuan、Li、Tang，2022年）。

自2015年以来，卷积神经网络（CNN）的兴起及其提取深度特征的能力推动了显著对象检测领域的重大进展。在SOD的初期阶段，单个RGB图像被输入到检测模型中，例如Zhang等人（2022年）提出了一种渐进式双注意力残差网络，该网络设计了双注意力残差模块和层次化特征筛选模块来从RGB图像中捕获显著对象。近年来，图像采集设备的快速发展使得显著对象检测进入了多模态领域，其中深度或热成像图像被用来提高检测性能（Tang等人，2024年）。例如，Sun等人（2023年）提出了一种基于Transformer的RGB-D SOD网络，结合了注意力增强、跨模态融合和级联校正解码来生成高质量的显著性地图。此外，Xie等人（2023年）提出了一种新颖的交互和融合网络，以减轻RGB和热成像模态之间的差异，从而实现出色的性能。

尽管使用多模态信息将显著对象检测引入了另一个阶段，但仍有许多问题需要解决。首先，大多数多模态SOD方法在编码阶段采用加法、乘法和串联等技术来融合多模态特征。然而，由于图像容易受到环境因素的影响，这些图像通常包含大量背景噪声。如果在编码阶段直接融合多模态特征，实际上可能会干扰RGB特征中的对象信息，从而导致检测性能下降。其次，在研究过程中我们发现，不同模态信息对不同的特征提取网络具有不同的敏感性，因此使用相同的骨干网络无法完全提取多模态特征。

为了解决上述问题，我们提出了一种名为DMDNet的双分支多模态深度融合网络，该网络利用可见光、深度和热成像图像来获得高质量的检测结果。具体来说，首先，考虑到特征提取器的模态依赖性以及使用单一骨干网络时表示不足的风险，编码器采用VGG-16（Simonyan和Zisserman，2014年）处理可见光模态，采用ResNet-34（He等人，2016年）处理深度和热成像模态，以确保全面的多层次特征捕获。然后，由于深度和热成像图像包含太多无关信息，我们应用模态交互（MI）模块来探索它们之间的互补性。与传统的跨模态注意力不同，我们的MI模块提取它们之间的共同信息，并将其作为指导特征来优化两种模态，MI模块的输出分别被送入下一个编码器块。此外，我们在三个骨干网络中添加了跳跃连接，以减少网络加深导致的信息稀释。在解码器阶段，考虑到多模态场景中的对象通常表现出大的尺度变化和复杂的上下文依赖性，我们在多尺度特征感知（MFP）模块中采用了膨胀卷积层，以获得具有不同感受野的多模态编码器特征，使模型能够捕捉详细的局部结构和广泛的上下文信息。通过这种方法，进一步挖掘了重要信息，但同时也引入了大量噪声。为此，我们设计了区域优化（RO）模块，该模块利用注意力机制过滤掉MFP模块生成的特征中嵌入的无关信息。具体来说，注意力机制结合了全局最大池化和全局平均池化操作，使网络能够同时强调最显著的响应并保留整体信息，从而增强特征区分度和鲁棒性。此外，多模态信息融合在显著对象检测中一直是一个挑战。与传统的多尺度融合方法不同，后者主要依赖于简单的串联或跨尺度求和，这往往导致模态之间的特征交互不足和信息冗余，我们在网络的最后阶段设计了一个双分支融合（DF）模块。在这个模块中，同时应用了乘法、串联和空间注意力，以实现更有效的跨模态特征整合，从而减轻特征冗余和模态不平衡，生成更准确和完整的显著性地图。最后，在VDT-2048数据集上的广泛实验表明，所提出的DMDNet取得了出色的性能。

我们总结本文的主要贡献如下：

1.
我们提出了一种新颖的双分支多模态深度融合网络（DMDNet），用于从V-D-T图像中进行显著对象检测，该网络设计了双分支结构，并利用模态交互（MI）模块、多尺度特征感知（MFP）模块、区域优化（RO）模块和双分支融合（DF）模块来优化和整合多模态特征。在VDT-2048数据集上的实验结果证明了所提出的DMDNet的有效性。
2.
编码器采用双骨干网络处理多模态输入，并通过利用它们的互补属性整合深度和热成像特征来融合它们。
3.
在解码器网络中，我们提出了多尺度特征感知（MFP）模块和区域优化（RO）模块来挖掘和优化显著性线索，并利用双分支融合（DF）模块来融合多模态特征。

部分摘录

单模态显著对象检测

在显著对象检测（SOD）的早期阶段，使用单张图像作为输入，手工制作的特征发挥了关键作用。例如，Peng等人（2016年）引入了一种分解模型，将图像分解为低秩和稀疏矩阵。类似地，Huang等人（2017年）开发了一种基于多实例学习的SOD方法，通过从简单案例到复杂案例迭代更新训练样本，构建了一个强大的检测模型。

提出的DMDNet概述

提出了一种新的多模态双分支网络，用于检测V-D-T数据中的显著对象。如图1所示，在编码阶段，选择Vgg-16（Simonyan和Zisserman，2014年）从可见光图像中提取多级特征

{F_{i}^{V}}_{i = 1}^{5}

，选择ResNet-34（He等人，2016年）从深度和热成像图像中提取多级特征

{F_{i}^{D}}_{i = 1}^{5}

。与传统的策略不同，我们在三个骨干网络中引入了跳跃连接，并添加了模态

实施细节

DMDNet在VDT-2048数据集（Song等人，2022a）上进行训练，该数据集包含2048组图像，每组包含三种模态——可见光、深度和热成像图像，分辨率为640×480。该数据集涵盖了在七个典型室内环境中捕获的34种家用物品，包括各种挑战，如V挑战（即BSO、II、MSO、NI、SA和SSO）、D挑战（即BI、BM、II和SSO）和T挑战（即Cr、HR和RD）。

结论

在本文中，我们提出了一种名为DMDNet的新型V-D-T显著对象检测方法，该方法包含模态交互（MI）模块、多尺度特征感知（MFP）模块、区域优化（RO）模块和双分支融合（DF）模块，用于融合三模态特征并生成高质量的显著性地图。首先，为了充分提取特征信息，我们设计了两个编码器网络，其中Vgg-16用于处理可见光图像，而配备了模态交互（MI）模块的ResNet-34用于处理深度和热成像图像。

CRediT作者贡献声明

孙瑶琪：撰写——原始草稿。万斌：撰写——审阅与编辑。尹海兵：监督与资源管理。陈亚红：可视化与验证。

利益冲突声明

我们希望提交题为“DMDNet：用于V-D-T显著对象检测的双分支多模态深度融合网络”的手稿。提交该手稿不存在利益冲突，所有作者均已批准其发表。我代表我的合作者声明，所描述的工作是原创研究，之前未在其他地方发表，也没有被考虑发表。所有列出的作者

热点排行

新闻专题

联系信箱：

粤ICP备09063491号