基于恐龙特征的渐进式语义增强红外与可见光图像融合网络

《Neural Networks》:A DINO?Based Progressive Semantic Enhanced Infrared And Visible Image Fusion Network

【字体: 时间:2026年01月01日 来源:Neural Networks 6.3

编辑推荐:

  红外与可见光图像融合需兼顾语义与细节,现有方法依赖标注数据且泛化性不足。本文提出基于DINO的渐进语义增强融合网络(DPSEF),利用DINO从无标注数据中提取细粒度语义特征作为先验知识,通过语义增强融合模块(SEFM)分层次注入语义信息,实现跨模态深度特征交互。实验表明,DPSEF在视觉质量、语义丰富性和下游任务中均优于现有方法,且在多焦点融合中验证了泛化性和鲁棒性。

  
姚世涵|裴中辉|张慧琴|姜海阳|周华兵
中国武汉,武汉理工大学,430250

摘要

红外图像与可见光图像融合的目标是将来自两个源图像的互补信息整合到一个具有丰富细节的融合图像中。然而,大多数现有的融合方法主要关注视觉外观,而对下游应用的语义需求关注较少。尽管一些基于语义的方法增强了融合图像的语义内容,但它们依赖于仅包含有限语义目标信息的标记数据。为了解决这一限制,本文提出了一种基于DINO的渐进式语义增强红外图像与可见光图像融合网络(DPSEF)。DINO是一种自监督模型,可以从大量未标记的图像中学习表示,并展现出强大的空间语义聚类能力。我们利用DINO提取细粒度的空间语义特征作为先验知识,然后引入一个语义增强融合模块(SEFM),逐步将这些语义先验注入融合网络中。这种机制引导模型关注与目标相关的区域,生成结合了丰富语义和详细信息的高质量融合图像,从而满足后续高级视觉任务的需求。大量实验表明,DPSEF生成的融合图像在视觉质量上显著优于主流算法。定性和定量分析进一步证实了DPSEF在高级视觉应用中的强大潜力。此外,关于多焦点图像融合的额外实验也验证了所提出网络的通用性和鲁棒性。

引言

来自不同模态的图像可以从不同角度描述场景信息,但由于各个传感器的固有限制,单一模态的源图像往往无法捕捉到场景的全部内容(Ma等人,2019a;Zhang等人,2021b)。图像融合是一种增强技术,它将多模态图像中包含的场景信息整合到一个复合图像中,从而生成既鲁棒又语义丰富的融合图像;例如,在高光谱-多光谱融合中,高光谱图像的丰富光谱信息与多光谱图像的高空间分辨率相结合(Liu等人,2025),生成高质量的融合图像。零样本学习方法也被应用于高光谱图像锐化(Dian等人,2023),这不仅保持了图像质量,还提高了计算效率。在多焦点图像融合中,利用源图像中的焦点区域可以在单个融合图像中保留不同景深范围内的清晰细节。另一方面,红外图像与可见光图像融合利用了两种模态的互补优势:红外传感器捕获热辐射信息,突出目标特征并在恶劣环境条件下保持鲁棒性,而可见光图像提供丰富的纹理细节,但对光照变化敏感。目前,红外-可见光图像融合是这种技术最广泛使用的形式。通过结合红外图像和可见光图像的优势,增强了图像信息的丰富性。这种融合技术已广泛应用于各个领域,包括目标检测(Sun等人,2022;Zhou等人,2021)、目标跟踪(Zhang, Ye, Peng, Liu, Xiao, 2020b;Zhang, Ye, Qiao, Zhao, Peng, Xiao, 2019)以及视频监控(Paramanandham和Rajendiran,2018)。
近年来,红外图像与可见光图像融合的实际价值受到了越来越多的关注。早期的方法依赖于手工制作的特征,这限制了其泛化能力。随着深度学习的兴起,数据驱动的方法取得了显著成果:大多数方法提高了感知质量,并同时增强了融合图像的高级语义内容(Tang, Deng, Ma, Huang, Ma, 2022a;Tang, Yuan, Ma, 2022b),以支持后续的视觉任务。然而,现有的基于语义的策略通常依赖于标记数据,并通过与高级任务的联合训练来强化语义。例如,一些方法在融合网络中附加了一个分割头,而其他方法设计了从目标检测角度保留更多语义线索的检测器引导机制。这些方法需要仅覆盖有限语义实体的分割掩码或检测注释;因此,重要细节可能会丢失,且任务特定的监督可能会限制融合图像的泛化能力。
随着大规模预训练视觉模型(PVMs)的快速发展,Caron等人(2021)引入了DINO,它将自蒸馏框架与Vision Transformer相结合,在完全无标签的环境中学习高分辨率、跨类别和位置/语义解耦的表示。这些表示为下游任务提供了强大的先验,并实现了最先进的性能。DINO特别擅长对语义相似的特征进行聚类,Amir等人(2021)通过对DINO-ViT中跨层特征连续性的分析表明,其更深层次编码了丰富的细粒度语义信息,这对于无监督的目标发现尤为重要(Siméoni等人,2023;Wang等人,2022)。最近的研究利用了DINO的高质量视觉特征与文本相结合(Barsellotti等人,2024),在开放词汇分割任务中展示了卓越的性能;Zeid等人将DINO特征注入3D点云模型,并在语义分割中取得了显著的性能提升(Zeid等人,2025)。利用这一能力,我们利用DINO的功能提取丰富的纹理细节和空间语义先验,从而指导图像融合过程,从而在多模态图像融合中实现更优秀的视觉质量和区分度,并为后续视觉任务奠定了坚实的基础。
为了解决当前融合算法的局限性,我们提出了一种基于DINO的渐进式语义增强红外图像与可见光图像融合网络(DPSEF)。这项工作将大规模预训练视觉模型的语义理解转移到多模态融合环境中。从DINO中提取的细粒度空间特征以分层方式逐步集成到语义增强融合模块(SEFM)中,跨模态注意力机制实现了深度特征交互。在DINO的语义先验指导下,融合表示关注互补的模态信息:目标区域保留了红外模态贡献的显著性,而纹理细节保持了可见光模态的清晰度,充分利用了两种传感器的优势。与依赖于标记数据和高级任务监督的现有方法不同,我们的方法在没有任何注释的情况下生成了具有高感知质量和丰富语义的融合图像,从而为后续任务(如目标检测和场景理解)提供了更全面和可靠的数据。
本文的主要贡献如下:
  • 1.
    我们提出了一种新的图像融合方法DPSEF。通过将预训练的视觉模型DINO集成到融合框架中,DPSEF利用DINO从未标记数据中学到的空间语义聚类能力生成高质量的语义先验。这种策略显著增强了融合输出的语义丰富性和区分度,消除了对标记数据的依赖,并提高了下游高级视觉任务的性能。
  • 2.
    我们设计了一个SEFM模块,在DINO的语义先验指导下,将可见光模态的细粒度纹理与红外模态的热辐射信息融合在一起。通过采用跨模态注意力进行更深层次的特征整合,所提出的模块实现了场景中不同语义对象的精确和上下文感知的融合。
  • 3.
    大量实验表明,我们的方法优于当前最先进的融合方法,并在下游高级视觉任务中实现了更优秀的性能。
  • 章节片段

    传统融合方法

    传统的图像融合方法通常包括三个主要阶段:特征提取、特征融合和特征重建。关键挑战在于有效提取和合并图像特征。根据不同的特征提取策略,传统方法可以大致分为四种类型:(i)多尺度变换方法,如金字塔变换(Jin和Wang,2014;Liu等人,2001);小波变换(Liu等人,2014)等

    总体框架

    在本节中,我们将详细介绍所提出的DPSEF框架,首先概述其整体架构。如图1所示,所提出的框架是一个端到端的网络,包括三个主要组成部分:基于DINO的语义先验生成、双分支特征提取器和语义增强融合模块。首先,将红外图像和可见光图像输入模型,然后通过双分支特征提取器提取源图像的多层特征

    实验

    在本节中,我们首先介绍我们方法的实现细节和相关配置,然后通过多个数据集的定性和定量比较对其有效性进行彻底评估。特别是,我们深入分析了DINO语义先验在图像融合中的指导作用,并进一步评估了它们在高级视觉任务上的性能。此外,为了验证我们方法的通用性,我们扩展了我们的

    复杂性讨论

    通过我们的分析,这三个指标的值主要受到DINO引入的计算开销以及融合网络中Transformer架构和SEFM模块的叠加效应的影响。如表10所示,我们展示了每个模块的计算成本。SEFM模块代表三个SEFM模块的总计算成本,解码器包括从SEFM模块到生成融合图像的计算成本

    结论

    为了解决现有融合方法在高级视觉任务中的不足,我们提出了一种名为DPSEF的新图像融合框架。该框架利用预训练视觉基础模型DINO的细粒度和空间语义聚类能力生成高质量的无标签语义先验。这些先验通过SEFM模块无缝集成到融合网络中,允许保留不同语义对象的关键细节。与

    CRediT作者贡献声明

    姚世涵:撰写——原始草稿,方法论。裴中辉:监督,方法论。张慧琴:可视化,调查,概念化。姜海阳:可视化,调查,概念化。周华兵:撰写——审稿与编辑,监督,方法论。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
    作者是该期刊的编委会成员/主编/副主编/客座编辑,未参与本文的编辑审查或发表决定。

    致谢

    本工作部分得到了中国国家自然科学基金(项目编号62171327、62171328和62072350)、湖北省自然科学基金重点计划(襄阳创新发展联合基金,项目编号2025AFD050)以及武汉理工大学(项目编号K2023091)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号