在医学成像中,不同的模态提取了不同的关键信息。例如,计算机断层扫描(CT)图像提供了清晰的骨骼结构信息,磁共振成像(MRI)图像专注于捕捉软组织特征,而正电子发射断层扫描(PET)图像则突出显示高代谢活动区域(Xie等人,2024年)。在某些研究场景中,整合不同成像模态的特征可以显著加快诊断和治疗速度,同时改善临床效果。因此,近年来涌现了许多基于深度学习的图像融合算法(Li, Zhang, Wang, Huang, Li, 2023; Tang, He, 2024; Xie, Zhang, Tang, Zhao, Xiong, Ouyang, Yang, Zhou, Ling, Teo, 2024; Zhao, Bai, Zhu, Zhang, Xu, Zhang, Zhang, Meng, Timofte, Van Gool, 2023)。
大多数现有的图像融合算法旨在将多模态图像融合为单一表示,同时保留每种模态的关键视觉信息(Liu, Yu, Cheng, Wang, & Chen, 2024b)。例如,CT和PET的融合图像可以同时显示PET图像中突出显示的区域和CT图像的骨骼结构。然而,这种融合方法仅生成具有视觉融合效果的图像,并没有确保下游任务的性能得到改进(Tang, Yuan, & Ma, 2022)。为了验证这一点,我们对HECKTOR2020数据集进行了分析(Andrearczyk等人,2021b)。我们首先使用几种融合算法从CT和PET扫描生成了融合图像,并用视觉感知指标对其进行评分。随后,这些融合图像被用于2D U-Net进行肿瘤分割(Wang, Cui, Zhang, & Guo, 2025)。如表1所示,虽然融合图像在视觉指标上取得了高分,但后续的分割性能明显较差,这表明强烈的视觉融合质量并不一定对下游任务有益。
本研究认为,图像融合作为一种上游任务,应该服务于并提升下游应用的性能。其成功应该通过其对下游任务的实用性来衡量,而不仅仅是通过视觉指标。然而,由于图像融合(尤其是医学图像融合)缺乏真实基准数据,导致人们依赖于以视觉为导向的指标。鉴于此,本研究将下游任务视为最终目标。下游任务自身的监督信号被用作融合多模态信息的主要驱动力。任务驱动的信息融合和下游任务性能优先于创建视觉融合图像。
不同的成像模态捕获不同类型的信息。例如,MRI和CT主要描绘解剖结构,而PET则突出显示代谢活动区域(Ma等人,2022年)。简单的融合方法,如直接连接或映射到共享的潜在空间,往往会引入模态差异。如果不能解决这些差异,将导致特征融合不佳。为了解决这个问题,本文提出了从零开始的融合网络(FFZ-Net)。FFZ-Net采用三路径架构,其中中央融合路径由一个可学习的、初始值为零的张量启动。这个张量通过与并行特定模态路径的交互式学习逐渐得到优化,使其能够适应性地整合局部细节和通道特征。瓶颈模块进一步模拟了特定模态特征和融合特征之间的全局依赖性,从而获得了全面的表示,显著提高了信息融合和下游任务的性能。本研究的主要贡献总结如下:
•我们提出了一个三路径网络FFZ-Net,该网络使用从零开始的融合策略自适应地学习和融合多模态特征。这种方法有效减轻了由模态差异引起的特征融合差距。
•通道融合局部细节增强模块(CFLDE-M)旨在利用相应的通道连接和分组卷积来模拟融合特征和特定模态特征之间的关系,并通过通道注意力机制提供特征细化。此外,针对PET图像的特点设计的风车形状卷积(PConv)改善了边缘细节的学习,同时保留了关键信息。
•开发了全局特征融合增强模块(GFFE-M)。多层感知器(MLPs)加强了特征的内部连接。交叉注意力模拟了融合特征和特定模态特征之间的全局依赖性。动态3D卷积自适应地学习了注意力增强特征和原始融合特征在相同位置的局部交互。
•广泛的实验验证了所提出方法的有效性,表明其信息融合策略优于一般的医学图像分割方法。值得注意的是,这种高性能的实现没有引入过多的计算复杂度或参数,突显了该方法的效率和实用性。
本文的其余部分安排如下。第2节回顾了相关工作。第3节介绍了所提出的方法。第4节通过广泛的实验展示了我们方法的优势。最后,第5节总结了本研究。