CvTFuse：一种无监督的医学图像融合方法，用于胶质瘤的T1-DWI模式检测

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Magnetic Resonance Imaging》：CvTFuse: An unsupervised medical image fusion method of gliomas T1-DWI mode

【字体：大中小】 时间：2026年01月17日 来源：Magnetic Resonance Imaging 2

编辑推荐：

　　医学图像融合方法研究及创新模型构建

钱佳黄|陈伟|曾家辉|丁江毅|谢凯|曹楠楠|孙康康|乔竹青|蔡静|倪新叶

中国常州市常州大学计算机科学与人工智能学院，邮编213159

摘要

背景

扩散加权成像（DWI）可以提供水分子扩散的微观信息，而T1加权成像（T1WI）则能提供高分辨率的解剖和组织学信息。

目的

准确有效地融合不同的MRI模式可以精确定位病变区域，并为分析病变性质提供丰富的信息。

方法

我们提出了一种双分支医学图像融合网络，该网络结合了卷积神经网络（CNN）和视觉变换器（CvTFuse）。CvTFuse由三个部分组成：编码器、融合层和解码器。编码器分为CNN模块和变换器模块，用于提取源图像的局部和全局特征。为了完全捕获图像的上下文信息，我们提出了一个全局上下文聚合模块（GCAM），该模块聚合来自变换器分支的多尺度特征，以提高融合图像的质量。融合层采用了一种能量感知和梯度增强的融合策略，以帮助保留源图像中的细节，从而实现不同MRI模式的特征融合。解码器由五个卷积层和两个跳跃连接组成，用于重建融合特征。

结果

定性结果表明，该方法呈现了清晰的纹理细节和锐利的边界，最大限度地保留了源图像的显著信息。定量结果表明，该方法的平均梯度、信息熵、互信息和视觉显著性分别为4.5975、4.9073、2.5181和0.77。定性和定量结果均表明，与DenseFuse、RFN-Nest、MSDNet、IFCNN、CDDFuse和SwinFusion等深度学习融合方法相比，该方法在保持梯度信息、纹理信息和边缘细节方面表现优异，同时最小化了信息损失并减少了失真。

结论

该方法能够结合不同模态的MR图像信息，实现病变区域的精确定位。它还利用丰富的临床信息辅助精准诊断和制定治疗计划。

引言

胶质瘤是最常见的原发性颅内肿瘤。患者常出现中枢神经系统功能的显著变化，包括头痛、呕吐、癫痫发作、认知障碍、视乳头水肿等典型临床症状[1]。临床上，胶质瘤的诊断主要依赖于MRI检查。基于MRI的医学成像技术是诊断和分析胶质瘤最准确和可靠的方法之一。这是因为MRI可以获得多种序列的图像，每种序列都能提供不同的组织对比度和生物信息，有助于全面评估肿瘤的性质和特征[2]。各种MRI图像能够准确评估病变的大小、位置和复发程度。

在胶质瘤患者的MR图像中，T1WI对脑组织的脂肪和蛋白质含量敏感。因此，肿瘤通常会显示出与周围正常脑组织不同的信号，从而提供关于肿瘤位置、形态、大小和组织特征的信息，这对于检测和定位胶质瘤至关重要。注射造影剂后获得的增强型T1WI图像可以显示肿瘤的血液供应和血管结构，有助于评估肿瘤的侵袭性、边界及其与周围结构的关系。DWI可以确定组织中水分子的自由扩散程度，对评估肿瘤细胞密度和活性非常敏感，有助于区分肿瘤与囊性病变、脓肿和其他病变。然而，实际临床诊断通常需要全面评估组织形态、结构细节、功能动态和代谢变化——这些信息无法仅通过单一成像技术获得。为了提供准确的诊断，放射科医生会将不同模态图像的特征信息融合成一张图像。与源图像相比，融合图像不仅亮度和质量更好，而且信息也更丰富。它能够提供准确的肿瘤定位和边界信息，帮助外科医生精确切除肿瘤，指导放疗计划，减少对周围正常组织的损伤，并全面评估肿瘤的活动性和侵袭性，从而为患者制定适当的治疗策略[3]。因此，结合多模态医学图像以突出关键组织和器官特征对于准确的临床诊断至关重要。图像融合结合了对齐图像的数据，同时保留了所有原始信息[4]。在医学成像中，人工智能辅助诊断系统利用多模态图像融合来提高诊断准确性，同时显著缩短了解读时间[5]。

鉴于医学图像的多样性和复杂性，融合过程容易导致融合图像中的数据丢失，且不同模态之间存在非线性的组织对比度差异[6]。将深度学习整合到医学图像处理中显著解决了这一挑战。当前的深度学习融合方法主要依赖于卷积神经网络（CNN）和生成对抗网络（GAN）架构[7]。CNN具有强大的特征提取能力和局部归纳偏差能力，能够有效表示特征空间，但它们难以理解和学习全局语义信息。此外，由于CNN的局部感受野较小，它们无法有效捕捉图像中不同区域之间的长距离依赖性[8]。GAN可以根据不同模态图像的特征调整对抗损失，不断优化生成器和判别器，以选择适当的融合权重并提高图像融合质量。然而，训练基于GAN的模型时常遇到网络收敛困难，导致对抗过程中的不平衡[9]，从而产生次优的融合结果。

为了克服这些限制，我们提出了CvTFuse——一种结合CNN和视觉变换器架构的新型双分支医学图像融合网络。该框架由三个核心组件组成：编码器、融合层和解码器。编码器包含并行运行的CNN分支和变换器分支，分别用于从源图像中提取局部特征和全局表示。利用CNN强大的特征提取能力和固有的局部归纳偏差，结合变换器模拟图像中长距离依赖性的能力，我们的方法分别处理局部和全局信息。所提出的融合方法的主要贡献如下：

•

提出了一种结合CNN和视觉变换器的双分支医学图像融合网络。CNN分支捕获图像的局部特征，而视觉变换器分支捕获长距离依赖性和全局特征。

•

为了完全捕获上下文信息，我们提出了一个全局上下文聚合模块，该模块聚合了变换器分支提取的多尺度特征。

•

设计了一种能量感知和梯度增强的融合策略，利用梯度信息帮助保留源图像的边缘和详细特征，从而提高融合图像的质量。

部分摘录

医学图像融合

医学图像融合技术大致分为传统方法和基于深度学习的方法。传统方法主要分为两类：基于多尺度变换（MST）的技术和基于稀疏表示（SR）的方法。在基于MST的融合中，首先将源图像分解为多尺度表示。然后使用特定领域的规则融合这些分解后的层，最终通过逆MST重建集成图像

数据集和训练细节

本实验的测试数据集来自2018年6月至2023年3月在南京医科大学附属常州市第二人民医院收集的脑胶质瘤患者的颅部图像（每位患者的数据包括一个MRI T1W序列和一个MRI DWI序列）。患者的年龄范围为35至89岁。MR图像使用Philips Achieva扫描仪（1.5T MR设备）获取。T1W扫描参数如下：TR1 343 ms，TE 80

讨论

MR成像提供了高分辨率和丰富的软组织信息，T1WI和DWI代表了不同的MRI序列。T1WI图像提供了高分辨率的解剖结构，清晰显示了肿瘤边界和内部特征，有助于识别病变的范围和性质。DWI基于水分子的布朗运动生成图像，对组织中水分子的扩散非常敏感。肿瘤区域通常由于细胞密度高

数据和材料的可用性

本研究中使用和分析的数据集可向相应作者索取。

CRediT作者贡献声明

钱佳黄：写作 – 审稿与编辑，写作 – 原稿撰写，可视化，软件实现。陈伟：监督，软件开发，资源获取，概念化。曾家辉：研究实施。丁江毅：概念化。谢凯：方法论设计。曹楠楠：资源协调。孙康康：资源协调。乔竹青：方法论设计，研究实施，资金获取，正式分析。蔡静：监督，软件开发，资源协调，方法论设计，研究实施，资金获取，正式分析，数据整理。倪新叶：软件开发，资源协调，方法论设计，研究实施，资金获取，正式分析，数据整理

伦理声明

实验方案根据《赫尔辛基宣言》的伦理指南制定，并获得了南京医科大学附属常州市第二人民医院伦理委员会的批准（批准编号：[2024]KY212-01），因此免除了患者签署书面知情同意书的要求。

资助

作者披露了以下财务支持用于本研究、作者身份和/或本文的发表：本研究得到了国家自然科学基金（编号：62371243）、江苏省医学重点学科建设单位（肿瘤治疗（放射治疗）（编号：JSDW202237）、江苏省重点研发计划社会发展项目（编号：BE2022720）以及江苏省卫生健康委员会的一般项目的支持

未引用参考文献

[35]

利益冲突声明

作者声明没有利益冲突，手稿已获得所有作者的批准同意发表。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号