编辑推荐:
多模态图像融合方法存在语义深度不足、跨模态交互弱和任务协同差等问题。本文提出MSIF网络,采用双任务并行结构实现融合与分割的深度协同,设计MSDSM模块通过跨注意力机制和IDDSF模块实现文本、像素与分割语义的多层次对齐,利用语言级语义作为显式高阶先验指导信息融合,实验表明其在MSRS等数据集上融合质量与下游分割任务均达到SOTA性能。
朱华毅|李旭阳|陈睿|刘桥|常晓军|袁迪
广州工业大学,西安电子科技大学,中国广东省广州市510555
摘要
多模态图像融合旨在整合来自不同传感器的互补数据,以实现对成像场景的更全面表示。现有方法主要关注像素级特征与视觉或文本语义之间的表面级交互,并未充分整合文本模态、图像融合以及下游任务之间的全局一致性。这种多语义之间的深度协作缺失,无法有效捕获多模态信息以及融合与下游任务之间的细粒度关联。因此,我们提出了一种名为MSIF(Multi-Semantic Depth Collaborative Image Fusion)的网络。首先,与传统级联网络结构不同,MSIF采用了双任务并行结构,有效建立了融合与分割任务之间的深度关联。其次,MSIF通过利用文本模态中更深层次和更详细的语义信息来指导图像融合与分割,从而增强了融合与下游任务之间的语义一致性。此外,MSIF还设计了多语义深度协同模块(MSDSM),深度整合了文本特征、像素级特征和分割语义特征,以实现多模态信息的有效融合,并满足下游任务的语义要求。最后,将整合后的语义特征输入融合解码器,得到最终的融合结果。广泛的定量和定性实验表明,我们的方法在多模态数据集上取得了最先进(SOTA)的性能。
引言
多模态图像融合(MIF)旨在整合来自不同传感器的互补数据,以提供对成像场景的更全面表示[1]、[2]。红外与可见光图像融合(IVIF)是MIF中最具挑战性的任务之一,需要高效整合不同传感器捕获的关键信息[3]、[4]。一个有效的融合算法不仅能够保留红外图像中的热辐射细节和可见光图像中的纹理信息,还能促进视觉感知和场景理解[5]。高质量的融合图像在语义分割[6]、目标检测[7]和跟踪[8]等任务中具有重要的实际应用。
深度学习(DL)的显著进步为IVIF引入了多种有效的解决方案。现有的融合方法通常可以分为以视觉为导向的方法[9]、[10]、[11]和以高级视觉任务为导向的方法[12]、[13]。在以视觉为导向的融合方法中,一种常见且有效的方法是利用基于CNN[14]或Transformer[10]、[15]、[16]的特征提取,并以自编码器(AE)的方式进行重构。然后应用精心设计的融合规则来捕获源图像之间的关联,如图1(I)所示。相比之下,以高级视觉任务为导向的方法是同时学习MIF和以语义为导向的视觉任务[12]、[17]、[18]。这类方法中最常见的策略是采用“级联优化”方法,通过联合损失函数优化为融合网络的语义要求提供反馈,其工作流程如图1(II)所示。此外,随着大型预训练语言模型[19]、[20]的出现,一些研究人员探索了基于文本的MIF框架[21]、[22]。该框架利用文本模态中嵌入的深度语义,实现更全面和上下文丰富的融合过程,如图1(III)所示。
然而,现有方法仍存在某些局限性。首先,图1(I)中展示的框架主要关注像素级语义特征,未考虑使用更深层次的视频语义特征来促进图像融合和后续高级视觉任务的性能。其次,虽然图1(II)中的框架结合了像素级和视频语义特征,但通常将优化限制在损失函数层面,这限制了网络之间的有效内在特征交互。此外,级联配置策略通常需要复杂且耗时的迭代训练来维持模型稳定性。最后,在图1(III)中的框架中,尽管基于文本的图像融合框架可以进一步探索图像中的深层语义层次并减少对视觉模态的依赖,但仍存在局限性。文本描述往往缺乏足够的细粒度信息,无法完全表示源图像中的纹理、细节和关键场景结构。此外,该框架未能充分整合下游语义任务,导致融合结果无法满足特定语义的下游任务的详细要求。总体而言,现有的IVIF框架存在三个关键局限性:(i)未能充分利用超出像素级表示的深度语义线索;(ii)融合与下游语义任务之间的内在特征级交互较弱;(iii)缺乏将低级视觉信息与高级上下文语义对齐的统一机制。
受到上述局限性的启发,我们提出了一种多语义深度协同图像融合网络,称为MSIF。具体来说,MSIF采用双任务并行网络结构,并结合文本模态来指导图像融合与分割,如图1(IV)所示。一方面,与级联网络结构不同,并行架构不仅减少了任务间信息传输的延迟,还高效建立了融合与分割任务之间的稳健连接。另一方面,我们设计了多语义深度协同模块(MSDSM),通过跨注意力和领域间深度语义融合(IDDSF)模块实现了文本特征、像素级特征和分割语义特征的整合。这种方法促进了多模态信息的有效融合以及多层级语义信息的整合。在该框架中,语言级语义被视为显式的跨模态语义先验,并在并行融合-分割架构中直接与视觉和任务特定表示进行交互,实现了像素级、任务级和语言级语义的联合对齐。本工作的主要贡献总结如下:
- •
我们指出了现有IVIF框架在语义深度不足和融合-任务耦合薄弱方面的局限性,并提出了一种并行双任务融合-分割架构,以实现感知融合与下游语义理解之间的内在特征级交互。
- •
为了解决异构跨模态语义不对齐问题,我们设计了多语义深度协同模块(MSDSM)和领域间深度语义融合(IDDSF)机制,实现了像素级、任务级和语言级语义的层次化对齐。
- •
我们将语言级语义作为显式的高层语义先验引入融合过程中,以指导跨模态信息的选择,增强语义一致性,同时不干扰像素级重构。
- •
在多个基准测试上的广泛实验表明,所提出的MSIF框架在融合质量和下游语义分割任务上均取得了优异的性能。
部分片段
面向视觉感知的图像融合
在图像融合发展的早期阶段,融合的唯一目的是结合源图像中的互补信息,以完整呈现成像场景。传统的图像融合方法通常使用离散小波变换、稀疏表示和拉普拉斯金字塔等技术处理源图像。然而,这些传统图像融合技术通常涉及复杂的图像处理过程和手动制定的融合规则,
概述
与其他基于级联原理设计的网络架构不同,我们的MSIF模型由两个专门用于图像融合和语义感知的并行分支组成,其详细结构如图2所示。具体而言,所提出的方法包括四个部分:文本编码器、视觉编码器、多语义深度协同模块和任务特定解码器。
编码器
文本编码器。 在初始描述文本{Tir, Tvi}通过文本编码器后,
实验设置
数据集。 我们在MSRS数据集[39]上训练模型,并在四个基准数据集上评估多模态图像融合性能:MSRS(361对)、M3FD(100对)[17]、LLIVP(250对)[21]、[40]和FMB(280对)[13]。
文本生成。 为了生成文本描述,我们采用了FILM[22]中的两阶段视觉-语言流程。具体来说,对于每一对红外-可见光图像,首先使用BLIP2生成一个简洁的图像条件标题,以总结图像内容
结论
在本文中,我们提出了一种新颖的多语义深度协同图像融合网络。该网络采用双任务并行结构,使融合分支能够有效捕获来自分割任务的丰富下游语义。此外,我们整合了文本模态来指导融合网络捕获源图像中的更深层次和更细微的细节。此外,我们基于跨注意力机制和设计的IDDSF开发了多语义深度协同模块
讨论
尽管提出的MSIF框架在融合质量和语义感知方面表现出了一致的改进,但仍有一些局限性需要进一步讨论。
首先,该框架依赖于预训练视觉语言模型的文本描述。这些模型的准确性和粒度可能随场景复杂性的变化而变化,过于通用或偏颇的文本可能会削弱语义指导效果。稳健的文本选择或基于置信度的过滤可以提高稳定性。其次,共享的分割
CRediT作者贡献声明
朱华毅:撰写——原始草案、可视化、验证、软件、资源、方法论、数据整理、概念化。李旭阳:撰写——审稿与编辑、撰写——原始草案、验证、监督、项目管理、资金获取。陈睿:撰写——审稿与编辑、撰写——原始草案、监督、项目管理、方法论、调查。刘桥:撰写——审稿与编辑、撰写——原始草案、监督、方法论、形式化
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系,这些关系可能会影响本文报告的工作。
致谢
本研究得到了中国国家自然科学基金(项目编号62202362和62302073)、中国博士后科学基金(项目编号2022TQ0247和2023M742742)、广东省基础与应用基础研究基金(项目编号2024A1515011626和2025A1515012949)以及广州市科学技术项目(项目编号2023A04J0397)的支持。