学习使用可学习的损失函数和融合策略来优化无监督图像融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Learning to Optimize Unsupervised Image Fusion with Learnable Loss and Fusion Strategy

【字体：大中小】 时间：2026年02月15日 来源：Pattern Recognition 7.6

编辑推荐：

　　无监督图像融合中，传统方法存在损失函数与评估指标不匹配、架构简单及泛化能力不足等问题。本文提出L2OFusion框架，通过多目标代理损失函数SurFLoss优化跨指标关联，结合通道与空间注意力机制的先进自编码器架构，并采用两阶段训练策略提升模型适应性。实验表明，L2OFusion在MSRS、TNO等数据集上显著优于SOTA方法，在MI、VIF、Qabf等多指标同时提升。

李叶梅|胡星龙|徐川|黄涛|叶志伟|王颖|杨伟

湖北工业大学计算机科学学院，武汉，430068，中国

摘要

在无监督图像融合领域，如何在不依赖真实数据的情况下提高融合质量仍然是一个挑战。本文指出了无监督方法中的一个主要问题：训练和推理之间的不匹配，这源于自动编码器的训练目标以及使用简单、不可学习的特征融合策略。为了解决这个问题，我们提出了L2OFusion框架，该框架采用了一个自适应融合模块和一个替代损失函数（SurFLoss），以在多个评估指标上有效地优化融合过程。我们通过整合多目标学习方法来改进现有无监督方法的关键局限性，并结合了一个包含通道交叉注意力和空间注意力模块的先进自动编码器架构。这种架构能够细致地整合和增强来自不同图像模态的特征。我们进一步通过两阶段训练过程来完善融合任务，利用通用和专门的融合数据集来调整模型，以提高融合质量。在主流数据集上的广泛评估表明，L2OFusion在各种质量指标上均优于现有的最先进方法，标志着无监督图像融合技术取得了重大进展。实现代码可在https://github.com/liyemei/L2OFusion获取。

引言

近年来，图像融合技术取得了显著进展，特别是在可见光和红外图像融合、多焦点融合以及多曝光融合等领域[1]。虽然现有方法在利用源图像和真实融合图像完成特定任务方面表现出色，但由于难以获取真实融合图像以及难以在不同融合任务中泛化，其应用范围仍然有限。

为了解决这些挑战，新兴的无监督图像融合领域[2]变得越来越重要。这种新方法利用在广泛通用图像数据集上预训练的自动编码器。通过直接操作潜在特征，这些方法为图像融合提供了直接且有效的解决方案，显示出在各种融合任务中泛化的潜力。然而，一个关键的观察结果是，与现有的最先进的监督图像融合技术相比，无监督方法的性能往往不足[3]。

在本文中，我们进行了全面分析，以阐明这种性能差距的原因。我们的发现主要体现在三个方面：

•

损失函数与评估指标之间的不匹配：现有方法通常使用L1距离和SSIM损失函数来优化融合模型。然而，用于评估融合图像质量的评估指标往往复杂且多方面。我们证明了这些损失函数的简单性可能无法始终与复杂的评估指标保持一致，从而挑战了“最小化这些损失函数就能保证所有相关指标的性能提升”的假设。

•

简单架构和静态融合策略的局限性：现有方法的性能往往受到采用简单编码器-解码器模型和不可学习融合策略（如线性加法和基于注意力的插值）的限制。这些简单策略在捕捉生成高质量融合图像的潜在特征方面的有效性仍不确定。

•

通用图像数据集带来的挑战：在通用图像数据集（如MS-COCO）上训练自动编码器，在应用于特定融合任务时存在局限性。特别是在医学图像中，PET和MRI图像融合等任务的模式可能在训练数据中无法得到充分表示，我们探讨了这种泛化挑战对无监督图像融合方法的适应性和性能的影响。

通过详细研究这些因素，我们提出了L2OFusion，这是一种旨在通过学习优化融合过程来提高图像融合任务复杂性和特异性的新方法。认识到需要改进损失监督机制，并受到替代损失学习[4]的启发，我们为图像融合设计了一个定制的替代损失函数。与通常仅近似单一指标的现有方法不同，图像融合需要同时处理多个指标，如MI、VIF和Q_abf。为了有效管理这种复杂性，我们采用了一种多目标学习方法，该方法利用各个指标优化的加权组合。这种方法确保我们的替代融合损失（SurFLoss）与每个指标保持高度相关性，从而在准确评估融合图像质量方面超越了现有方法。

此外，我们引入了一个先进的自动编码器架构，该架构具有专用的编码器通道交叉注意力模块和配备空间注意力模块的解码器。解码器集成了基于交叉注意力的多尺度特征上采样网络，显著增强了无缝融合特征金字塔的能力，从而提高了高质量图像生成的效果。为了进一步提升模型的能力，我们引入了像素和通道级的可学习特征融合模块。这一组件对于有效结合两个不同图像的潜在特征同时保留和增强任务特定细节至关重要。

我们将自适应融合模块与优化的SurFLoss结合起来，提出了一个两阶段训练框架。该过程首先在通用图像数据集上进行初始训练，类似于传统的无监督方法。这一阶段建立了对通用图像特征的基本理解。在后续的训练阶段，我们使用专门的融合数据集来微调特征融合模块，并利用SurFLoss精确校准融合过程。这种两阶段方法不仅加深了模型处理多样化图像融合任务的能力，还显著提高了其性能，最终产生了细节更丰富、准确性更高的融合图像。

我们在三个主流数据集（MSRS、RoadScene和TNO[3]）上进行了对比实验，结果表明L2OFusion能够同时优化多个指标。此外，L2OFusion在定性和定量评估中均优于其他最先进算法。

章节片段

端到端融合框架

端到端融合框架消除了手动设计融合规则的需要，通过网络结构和损失函数隐式地整合了特征提取、融合和图像重建。MUFusion[2]引入了一个自我演化的训练模型，该模型通过记忆损失从网络本身的中间输出中进行学习。在追求最佳融合图像质量的过程中，SeAFusion[5]结合了语义损失，而DIVFusion[6]结合了颜色

无监督融合方法

在本节中，我们首先回顾了我们的基线无监督融合框架，然后分析了阻碍现有方法性能的挑战。

与端到端融合方法不同，无监督方法不需要特定的融合数据集，这些数据集通常包括多模态图像及其融合结果。这些方法通过图像重建任务训练生成模型，将模型作为自动编码器使用。这种缺乏特定融合训练的情况

方法论

在本节中，我们详细介绍了我们的方法，该方法解决了融合任务中常见的损失函数与评估指标之间的不匹配问题。我们的方法实现了一个替代损失学习框架，通过优化损失函数与评估指标之间的排名相关性来差异性地学习替代损失，确保学习目标与期望的融合结果更加一致。

自动编码器网络：我们引入了一种新的编码器-解码器架构

设置

数据集：L2OFusion的验证在三个不同的数据集上进行：MSRS、TNO和RoadScene，以评估其性能。TNO数据集包含涵盖多种军事场景的夜间图像。MSRS和RoadScene数据集包括从汽车视角拍摄的街道场景，涵盖了白天和夜晚的条件。MSRS数据集包含1444对图像，其中1083对用于训练，361对用于测试。至于TNO和RoadScene数据集

结论

本研究提出了L2OFusion，这是一种创新的无监督图像融合方法，它结合了一个自适应融合模块和一个为多个指标优化的替代损失函数。我们的框架通过具有通道交叉注意力和空间注意力模块的先进自动编码器架构，有效解决了损失函数与融合性能指标之间的不匹配问题。通过多目标优化策略，L2OFusion

CRediT作者贡献声明

李叶梅：撰写 – 审稿与编辑，撰写 – 原稿，软件，项目管理，方法论，资金获取，概念化。胡星龙：撰写 – 原稿，可视化，验证，软件，方法论，数据管理。徐川：撰写 – 审稿与编辑，监督，资源。黄涛：验证，调查，形式分析。叶志伟：撰写 – 审稿与编辑，资源。王颖：撰写 –

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

致谢

本工作部分得到了湖北省自然科学基金（2025AFB055）、湖北省教育厅科技研究项目（Q20241403，B2023362）、湖北省高等教育机构优秀青年和中老年科技创新团队项目（T2023045）以及湖北工业大学研究生教育改革研究项目（2025025，2024YH058）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号