基于零初始化的融合网络结合信息融合算法，用于多模态头部和颈部肿瘤的分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Fusion-from-zero network with information fusion for multimodal head and neck tumor segmentation

【字体：大中小】 时间：2026年05月11日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　Jiao Wang | Yanjun Peng | Yanfei Guo | Hengzhong Li 山东科技大学计算机科学与工程学院，中国山东省青岛市，266590 摘要有效地利用多模态图像中的互补信息可以显著提升下游任务的性能。现有的多模态图像融合算法通常侧重于生成具

Jiao Wang | Yanjun Peng | Yanfei Guo | Hengzhong Li

山东科技大学计算机科学与工程学院，中国山东省青岛市，266590

摘要

有效地利用多模态图像中的互补信息可以显著提升下游任务的性能。现有的多模态图像融合算法通常侧重于生成具有高视觉质量和统计指标的融合图像，而忽略了模态差异和下游任务的需求。本研究提出了一种从零开始的融合网络，用于交互式地融合正电子发射断层扫描/计算机断层扫描中的互补信息，以改进头部和颈部肿瘤的分割效果。首先，一个可学习的零矩阵组成的融合路径减轻了模态差异的影响。该零矩阵通过参与特征提取，能够适应性地学习重要信息并避免模态差异。其次，通道融合局部细节增强模块从不同模态中提取关键特征。融合矩阵和不同模态的特征沿相应的通道连接起来，通道注意力模块增强了特征表示。分组和风车形状的卷积进一步增强了细节特征提取。最后，全局特征融合增强模块模拟了不同模态特征之间的全局依赖性。交叉注意力在融合特征和特定模态特征之间建立了长距离依赖关系。动态3D卷积学习了融合特征和全局建模特征之间的关系，并根据输入样本动态生成权重，以灵活捕捉空间变化。该方法在五个数据集上进行了广泛评估。结果表明，它有效地整合了互补的模态信息，并减少了模态差异。下游分割任务的表现优于一般的医学图像分割算法，证明了该融合方法的有效性。此外，该模型的计算复杂度较低，参数较少，适用于实际应用。代码托管在以下链接：

https://github.com/wangjiao7067/FFZNet

引言

在医学成像中，不同的模态提取了不同的关键信息。例如，计算机断层扫描（CT）图像提供了清晰的骨骼结构信息，磁共振成像（MRI）图像专注于捕捉软组织特征，而正电子发射断层扫描（PET）图像则突出显示高代谢活动区域（Xie等人，2024年）。在某些研究场景中，整合不同成像模态的特征可以显著加快诊断和治疗速度，同时改善临床效果。因此，近年来涌现了许多基于深度学习的图像融合算法（Li, Zhang, Wang, Huang, Li, 2023; Tang, He, 2024; Xie, Zhang, Tang, Zhao, Xiong, Ouyang, Yang, Zhou, Ling, Teo, 2024; Zhao, Bai, Zhu, Zhang, Xu, Zhang, Zhang, Meng, Timofte, Van Gool, 2023）。

大多数现有的图像融合算法旨在将多模态图像融合为单一表示，同时保留每种模态的关键视觉信息（Liu, Yu, Cheng, Wang, & Chen, 2024b）。例如，CT和PET的融合图像可以同时显示PET图像中突出显示的区域和CT图像的骨骼结构。然而，这种融合方法仅生成具有视觉融合效果的图像，并没有确保下游任务的性能得到改进（Tang, Yuan, & Ma, 2022）。为了验证这一点，我们对HECKTOR2020数据集进行了分析（Andrearczyk等人，2021b）。我们首先使用几种融合算法从CT和PET扫描生成了融合图像，并用视觉感知指标对其进行评分。随后，这些融合图像被用于2D U-Net进行肿瘤分割（Wang, Cui, Zhang, & Guo, 2025）。如表1所示，虽然融合图像在视觉指标上取得了高分，但后续的分割性能明显较差，这表明强烈的视觉融合质量并不一定对下游任务有益。

本研究认为，图像融合作为一种上游任务，应该服务于并提升下游应用的性能。其成功应该通过其对下游任务的实用性来衡量，而不仅仅是通过视觉指标。然而，由于图像融合（尤其是医学图像融合）缺乏真实基准数据，导致人们依赖于以视觉为导向的指标。鉴于此，本研究将下游任务视为最终目标。下游任务自身的监督信号被用作融合多模态信息的主要驱动力。任务驱动的信息融合和下游任务性能优先于创建视觉融合图像。

不同的成像模态捕获不同类型的信息。例如，MRI和CT主要描绘解剖结构，而PET则突出显示代谢活动区域（Ma等人，2022年）。简单的融合方法，如直接连接或映射到共享的潜在空间，往往会引入模态差异。如果不能解决这些差异，将导致特征融合不佳。为了解决这个问题，本文提出了从零开始的融合网络（FFZ-Net）。FFZ-Net采用三路径架构，其中中央融合路径由一个可学习的、初始值为零的张量启动。这个张量通过与并行特定模态路径的交互式学习逐渐得到优化，使其能够适应性地整合局部细节和通道特征。瓶颈模块进一步模拟了特定模态特征和融合特征之间的全局依赖性，从而获得了全面的表示，显著提高了信息融合和下游任务的性能。本研究的主要贡献总结如下：

•

我们提出了一个三路径网络FFZ-Net，该网络使用从零开始的融合策略自适应地学习和融合多模态特征。这种方法有效减轻了由模态差异引起的特征融合差距。

•

通道融合局部细节增强模块（CFLDE-M）旨在利用相应的通道连接和分组卷积来模拟融合特征和特定模态特征之间的关系，并通过通道注意力机制提供特征细化。此外，针对PET图像的特点设计的风车形状卷积（PConv）改善了边缘细节的学习，同时保留了关键信息。

•

开发了全局特征融合增强模块（GFFE-M）。多层感知器（MLPs）加强了特征的内部连接。交叉注意力模拟了融合特征和特定模态特征之间的全局依赖性。动态3D卷积自适应地学习了注意力增强特征和原始融合特征在相同位置的局部交互。

•

广泛的实验验证了所提出方法的有效性，表明其信息融合策略优于一般的医学图像分割方法。值得注意的是，这种高性能的实现没有引入过多的计算复杂度或参数，突显了该方法的效率和实用性。

本文的其余部分安排如下。第2节回顾了相关工作。第3节介绍了所提出的方法。第4节通过广泛的实验展示了我们方法的优势。最后，第5节总结了本研究。

部分摘录

方法论

为了提升多模态图像的下游分割性能，本研究提出了一种新的以分割为导向的特征融合网络 FFZ-Net（图1）。该网络的核心是一种初始值为零的信息交互融合策略，旨在整合不同模态的互补信息。为了有效地融合特征并减轻模态异质性的不利影响，在融合路径中初始化了一个可学习的融合张量，该张量可以适应性地

实现细节

FFZ-Net 使用 Pytorch 框架实现，并在配备了 24 GB VRAM 的 NVIDIA A10 服务器上进行了训练。训练过程中，批量大小设置为 12，总共有 350 个周期，初始学习率为

结论

在本文中，我们提出了一种多模态信息融合网络 FFZ-Net，旨在提升下游分割任务的性能。与主要关注视觉质量和统计指标的现有图像融合方法不同，FFZ-Net 明确考虑了下游应用的需求。通过将融合张量初始化为零矩阵，FFZ-Net 自适应地融合了多模态图像的互补信息，同时减轻了由

利益冲突

Yanjun Peng 表示得到了中国国家自然科学基金会的财政支持。如果还有其他作者，他们声明自己没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

CRediT 作者贡献声明

Jiao Wang：概念化、方法论、软件、验证、调查、可视化、撰写——原始稿件。Yanjun Peng：概念化、撰写——审阅与编辑、资金获取、监督。Yanfei Guo：撰写——审阅与编辑。Hengzhong Li：验证。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

Yanjun Peng 表示得到了中国国家自然科学基金会的财务支持。如果还有其他作者，他们声明自己没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分摘录

相关工作

方法论

实现细节

结论

利益冲突

CRediT 作者贡献声明

利益冲突声明

热点排行