来自不同模态的图像可以从不同角度描述场景信息,但由于各个传感器的固有限制,单一模态的源图像往往无法捕捉到场景的全部内容(Ma等人,2019a;Zhang等人,2021b)。图像融合是一种增强技术,它将多模态图像中包含的场景信息整合到一个复合图像中,从而生成既鲁棒又语义丰富的融合图像;例如,在高光谱-多光谱融合中,高光谱图像的丰富光谱信息与多光谱图像的高空间分辨率相结合(Liu等人,2025),生成高质量的融合图像。零样本学习方法也被应用于高光谱图像锐化(Dian等人,2023),这不仅保持了图像质量,还提高了计算效率。在多焦点图像融合中,利用源图像中的焦点区域可以在单个融合图像中保留不同景深范围内的清晰细节。另一方面,红外图像与可见光图像融合利用了两种模态的互补优势:红外传感器捕获热辐射信息,突出目标特征并在恶劣环境条件下保持鲁棒性,而可见光图像提供丰富的纹理细节,但对光照变化敏感。目前,红外-可见光图像融合是这种技术最广泛使用的形式。通过结合红外图像和可见光图像的优势,增强了图像信息的丰富性。这种融合技术已广泛应用于各个领域,包括目标检测(Sun等人,2022;Zhou等人,2021)、目标跟踪(Zhang, Ye, Peng, Liu, Xiao, 2020b;Zhang, Ye, Qiao, Zhao, Peng, Xiao, 2019)以及视频监控(Paramanandham和Rajendiran,2018)。
近年来,红外图像与可见光图像融合的实际价值受到了越来越多的关注。早期的方法依赖于手工制作的特征,这限制了其泛化能力。随着深度学习的兴起,数据驱动的方法取得了显著成果:大多数方法提高了感知质量,并同时增强了融合图像的高级语义内容(Tang, Deng, Ma, Huang, Ma, 2022a;Tang, Yuan, Ma, 2022b),以支持后续的视觉任务。然而,现有的基于语义的策略通常依赖于标记数据,并通过与高级任务的联合训练来强化语义。例如,一些方法在融合网络中附加了一个分割头,而其他方法设计了从目标检测角度保留更多语义线索的检测器引导机制。这些方法需要仅覆盖有限语义实体的分割掩码或检测注释;因此,重要细节可能会丢失,且任务特定的监督可能会限制融合图像的泛化能力。
随着大规模预训练视觉模型(PVMs)的快速发展,Caron等人(2021)引入了DINO,它将自蒸馏框架与Vision Transformer相结合,在完全无标签的环境中学习高分辨率、跨类别和位置/语义解耦的表示。这些表示为下游任务提供了强大的先验,并实现了最先进的性能。DINO特别擅长对语义相似的特征进行聚类,Amir等人(2021)通过对DINO-ViT中跨层特征连续性的分析表明,其更深层次编码了丰富的细粒度语义信息,这对于无监督的目标发现尤为重要(Siméoni等人,2023;Wang等人,2022)。最近的研究利用了DINO的高质量视觉特征与文本相结合(Barsellotti等人,2024),在开放词汇分割任务中展示了卓越的性能;Zeid等人将DINO特征注入3D点云模型,并在语义分割中取得了显著的性能提升(Zeid等人,2025)。利用这一能力,我们利用DINO的功能提取丰富的纹理细节和空间语义先验,从而指导图像融合过程,从而在多模态图像融合中实现更优秀的视觉质量和区分度,并为后续视觉任务奠定了坚实的基础。
为了解决当前融合算法的局限性,我们提出了一种基于DINO的渐进式语义增强红外图像与可见光图像融合网络(DPSEF)。这项工作将大规模预训练视觉模型的语义理解转移到多模态融合环境中。从DINO中提取的细粒度空间特征以分层方式逐步集成到语义增强融合模块(SEFM)中,跨模态注意力机制实现了深度特征交互。在DINO的语义先验指导下,融合表示关注互补的模态信息:目标区域保留了红外模态贡献的显著性,而纹理细节保持了可见光模态的清晰度,充分利用了两种传感器的优势。与依赖于标记数据和高级任务监督的现有方法不同,我们的方法在没有任何注释的情况下生成了具有高感知质量和丰富语义的融合图像,从而为后续任务(如目标检测和场景理解)提供了更全面和可靠的数据。
本文的主要贡献如下:
1.我们提出了一种新的图像融合方法DPSEF。通过将预训练的视觉模型DINO集成到融合框架中,DPSEF利用DINO从未标记数据中学到的空间语义聚类能力生成高质量的语义先验。这种策略显著增强了融合输出的语义丰富性和区分度,消除了对标记数据的依赖,并提高了下游高级视觉任务的性能。
2.我们设计了一个SEFM模块,在DINO的语义先验指导下,将可见光模态的细粒度纹理与红外模态的热辐射信息融合在一起。通过采用跨模态注意力进行更深层次的特征整合,所提出的模块实现了场景中不同语义对象的精确和上下文感知的融合。
3.大量实验表明,我们的方法优于当前最先进的融合方法,并在下游高级视觉任务中实现了更优秀的性能。