PromptIF:一个基于提示的通用图像融合框架

《Displays》:PromptIF: A prompt-based general image fusion framework

【字体: 时间:2026年02月27日 来源:Displays 3.4

编辑推荐:

  多模态图像融合面临不同任务需求差异大、传统方法性能受限等问题。本文提出PromptIF,一种基于提示机制的轻量级统一融合模型,通过任务特定提示实现自适应特征融合,有效兼顾不同模态图像的细节保留与任务区分。实验表明PromptIF在可见光-红外、多曝光、多焦点融合等任务中均优于传统及现有方法,且在目标检测、语义分割等下游任务中效果显著,验证了其跨任务适应性和有效性。

  
刘一杰|雷鹏程|王婷婷|方发明|张桂旭
华东师范大学,中国上海市中山北路3663号,200062

摘要

多模态图像融合是一项具有挑战性的任务,涉及可见光-红外融合、多曝光融合和多焦点融合等领域。这些任务需要合并来自不同模态的图像,而每种模态都具有独特的特征,因此很难开发出一个能够有效处理所有这些任务的统一模型。尽管深度学习在这些领域取得了显著进展,但不同图像类型之间的固有差异仍然给实现最佳融合性能带来了挑战。一个统一的模型可以简化处理过程,并提高目标检测、语义分割和场景分析等下游任务的结果。受到大型模型和自然语言处理(NLP)中基于提示的技术成功的启发,我们提出了PromptIF,这是一个基于提示的轻量级且高效的融合模型。PromptIF通过使用最少的额外参数来适应不同的融合任务,从而能够在保留重要图像细节的同时区分不同任务。我们的结果表明,PromptIF不仅优于传统的和最近的融合方法,而且在各种基准测试和下游应用中都取得了优异的结果。这表明我们的方法在现实世界场景中既灵活又有效。我们将发布代码,以鼓励在该领域进行进一步的探索和发展。

引言

多模态图像融合包括各种任务,如可见光-红外融合(VIF)、医学图像融合(MIF)、多曝光融合(MEF)、多焦点融合(MFF)和遥感图像融合。这些任务涉及合并来自不同模态的图像,以创建包含所有来源最有价值信息的融合图像。其中,可见光-红外融合是研究最广泛的,它专注于合并可见光和红外图像。这在光照条件极端的情况下特别有用,因为融合图像可以克服单张可见光图像的局限性。另一方面,多曝光融合和多焦点融合是两个具有挑战性的监督任务。多曝光融合结合过曝和欠曝的图像,以增强亮部和暗部的细节;而多焦点融合则整合近焦和远焦图像,确保整个场景的细节清晰。与通常结合来自不同传感器的图像的VIF不同,MEF和MFF通常涉及来自同一传感器的图像。图像融合不仅提高了融合图像的质量,还增强了目标检测和语义分割等下游任务的效果,显示出其在实际应用中的实用性。
关于单个图像融合任务的先前研究已经取得了显著的进展,但仍存在挑战。早期的研究主要从信息论的角度来处理图像融合,将其视为从两个源图像中选择最具信息量的部分以创建最终融合结果的过程。例如,信息是在特征图的每一层中测量的,并保留更丰富的层进行融合。然而,认为更多信息必然导致更好图像质量的假设并不总是正确的。随着深度学习的兴起,图像融合方法演变为一个三步过程:特征提取、特征融合和图像重建。早期的特征融合方法仍然依赖于手工设计的策略,如平均或选择最大值,这限制了模型的性能。因此,后来的方法用基于神经网络的解决方案取代了这些策略,实现了更适应性和更有效的融合过程。
不同的融合任务之间存在某些相似之处,但它们之间的差异在开发统一融合模型时带来了重大挑战。早期的通用图像融合方法引入了一个通用框架来处理不同的任务,但需要为每个任务训练单独的模型。随着时间的推移,该领域发展到使用一个能够处理多个融合任务的单一模型,将通用图像融合转变为多任务学习问题。在这种情况下,一个关键挑战是克服灾难性遗忘问题,即在一个任务上训练的模型在遇到新任务时会忘记之前学到的知识。大型模型的出现促进了旨在解决这一问题的微调算法的发展,使得多任务学习变得更加可行。
尽管之前的研究已经取得了相当大的进展,但仍有一些挑战需要解决。在这项工作中,我们提出了一个更简单、更高效的解决方案——PromptIF,这是一个旨在有效处理多个图像融合任务的轻量级模型。PromptIF通过使用提示来适应不同的任务,并且只需要最少的额外参数,使其既高效又灵活。为了证明我们方法的有效性,我们使用t-SNE进行降维处理,可视化了通过编码器第四层提示后的不同任务图像对的特征(如图1所示)。结果清楚地表明,我们的模型能够区分来自不同任务的图像对,突显了其高精度处理多个融合任务的能力。
我们的贡献如下:
  • 1.
    我们提出了PromptIF——一个基于新颖提示使用的简单而高效的通用图像融合框架。该框架轻量级、适应性强,并且在不同的多模态融合任务中都有效。
  • 2.
    由于架构设计灵活,我们的网络能够进行监督学习和无监督学习。
  • 3.
    我们的方法在各种图像融合任务中取得了优异的性能,包括可见光-红外融合、多曝光融合和多焦点融合,证明了其鲁棒性和多功能性。此外,它在多个基准数据集和下游任务(如目标检测和语义分割)中的表现优于传统的和最近的融合方法。

部分片段

特定任务的图像融合(VIF、MEF、MFF)

随着深度学习的兴起,图像融合技术也取得了显著进步。早期的传统方法主要采用信息论的方法来处理这个问题。例如,FusionDN [1] 使用无参考图像质量评估模型(NR-IQA)和熵度量来定义每种模态的信息内容。U2Fusion [2] 利用预训练的VGG-16模型的五个卷积层的特征图来量化每种模态的信息。同时,EMFusion [3]

方法

首先,我们将简要介绍网络结构。随后将详细解释网络的工作原理。

数据集

对于VIF,我们选择了多光谱道路场景(MSRS)数据集 [6]、[10]、[11]、[12]。MSRS数据集包含1444对图像,空间分辨率为480 × 640。训练集包含1083张图像,测试集包含361张图像。该数据集还包括分割标签,可用于下游的语义分割任务的验证。对于MEF,我们选择了MEF [13] 数据集进行训练,其中包含589对图像,分辨率为5194 × 3456。

结论

在这项工作中,我们提出了一个基于提示的轻量级且高效的通用图像融合框架,使得单个统一模型能够通过提示条件调制适应不同的任务,如可见光-红外、多曝光和多焦点融合。广泛的实验表明,该框架在这些场景中表现出最先进的性能,突显了其鲁棒性和泛化能力。然而,该框架仍然存在一些局限性,包括数据的稀缺性

更广泛的影响

我们的通用图像融合旨在增强图像的同时保持其原始内容。仅关注技术方面确保了我们的方法没有负面的伦理影响。

未引用的参考文献

[42], [43], [44], [45], [46], [47]

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号