融合阶段式混合框架的CMT-Unet:提升医学图像分割精度与效率的新路径

《Scientific Reports》:CMT-Unet: leveraging stage-wise hybrid framework for enhanced accuracy and efficiency in medical image segmentation

【字体: 时间:2026年02月22日 来源:Scientific Reports 3.9

编辑推荐:

  为应对医学图像像素级分割中同时保留局部细节与建模长程上下文依赖的挑战,研究人员开展了“CMT-Unet”主题的研究,提出一种基于状态空间模型(Mamba)的阶段式混合架构。该研究通过集成倒残差卷积单元、Mamba、Transformer与HiLo注意力模块,在Synapse和ACDC数据集上验证了模型在精度与效率上的优势,证实了阶段特异性混合设计在高级医学图像分割中的可行性与鲁棒性。

  
精准的医学图像分割是辅助诊断与治疗规划的关键,它要求算法既能看清组织边界的细微纹理,又能理解器官之间的全局位置关系。这就像既要看清树木的年轮,又要把握整片森林的布局。然而,现有的主流技术各有短板:专注于局部细节的卷积神经网络(CNN)难以捕捉长距离的依赖关系;擅长全局建模的Transformer模型则计算开销巨大,且可能在早期阶段因感受野过大而模糊了重要的局部信息;简单的CNN-Transformer混合架构又往往无法在分割过程的不同阶段,智能地调整对“局部”与“全局”关注的优先级。
为了解决这一核心矛盾,一项发表在《Scientific Reports》上的研究提出了一种名为CMT-Unet的创新模型。该研究认识到,图像分割本质上是一个从具体空间特征逐步抽象为高级语义特征的过程。因此,研究人员设计了一种任务驱动的、分层集成的阶段式混合架构。其核心思想是:在编码器的不同阶段,自适应地组合最合适的特征提取模块。具体而言,在浅层网络,模型更多地依赖倒残差卷积单元来高效、精细地提取局部特征,避免过早引入过大的感受野导致细节丢失。随着网络加深,逐步引入基于Mamba的状态空间模型和Transformer模块,以更优的计算效率建模长程上下文依赖,捕捉全局语义信息。此外,研究还引入了HiLo注意力机制,通过联合建模高频(如边缘、纹理)和低频(如平滑区域)信息,补充了标准多头自注意力(MHSA)可能忽略的细节,进一步丰富了特征表示。
这项研究得出的结论是,这种顺应特征抽象进程的阶段式混合设计,能够更有效地平衡局部细节保留与全局上下文建模的需求,在提升模型表征能力的同时,也兼顾了计算效率。在Synapse多器官分割和ACDC心脏分割数据集上的实验表明,CMT-Unet在分割精度(以Dice系数等指标衡量)和计算效率方面,均优于基准的Transformer-UNet模型及其他混合方法,证明了该架构的可行性与鲁棒性。这项工作的重要意义在于,它为医学图像分割模型的设计提供了新思路,即不再追求单一的“最强”模块,而是根据分割任务在不同阶段的内在需求,动态、有机地融合不同技术的优势,为实现更精准、更高效的临床辅助分析工具奠定了基础。
为开展此项研究,作者主要运用了以下关键技术方法:1. 深度学习模型架构设计,构建了以U-Net为基本骨架,集成倒残差卷积、Mamba状态空间模型、Transformer以及HiLo注意力模块的CMT-Unet。2. 医学图像数据集训练与评估,所使用的模型训练与测试数据来源于公开的Synapse(多器官CT)和ACDC(心脏MRI)数据集。3. 消融实验与分析,通过控制变量法验证各个核心模块(如Mamba、HiLo注意力)的有效性。4. 性能对比实验,将CMT-Unet与一系列基线模型(如Transformer-UNet, nnUNet)及先进的混合模型在分割精度和计算复杂度指标上进行全面比较。
研究结果
  • 模型架构设计验证:通过系统的消融实验,研究人员验证了所提出的阶段式混合框架中各个组件的有效性。结果表明,引入Mamba模块和HiLo注意力机制对提升模型性能均有显著贡献,且它们与卷积单元的阶段性集成策略优于简单的并联或串联方式。
  • 在Synapse数据集上的性能:在Synapse多器官分割数据集上,CMT-Unet取得了具有竞争力的Dice相似系数(Dice Similarity Coefficient, DSC)和豪斯多夫距离(Hausdorff Distance, HD)。其综合性能超越了许多基于纯Transformer或CNN的先进模型,证明了其在处理复杂腹部CT图像、区分相邻器官边界方面的优势。
  • 在ACDC数据集上的性能:在ACDC心脏磁共振图像(MRI)分割任务中,CMT-Unet同样表现优异,能够准确分割左心室、右心室和心肌等结构。其结果进一步证实了该模型对于不同模态(CT与MRI)、不同解剖部位(腹部与心脏)医学图像分割任务的泛化能力。
  • 效率分析:与参数量或计算量(FLOPs)相近的基准模型相比,CMT-Unet在实现更高分割精度的同时,往往保持了相当甚至更优的计算效率。这得益于Mamba模块的线性复杂度特性以及阶段化设计避免了不必要的全局计算开销,使其更具临床实际应用潜力。
结论与讨论
本研究成功提出并验证了CMT-Unet,一种基于阶段式混合框架的医学图像分割模型。该模型的核心创新在于顺应编码器从空间细节到语义抽象的自然演进过程,在不同网络深度智能地融合了倒残差卷积、Mamba状态空间模型和Transformer的优势。其中,Mamba模块的引入实现了对长程上下文的自适应、高效建模;而HiLo注意力则有效补足了标准自注意力对频域信息捕捉的不足,增强了纹理与边界的特征提取。
讨论部分强调了这种“阶段特异性”设计理念的重要性。它打破了传统混合模型简单堆叠组件的思路,提供了一种更精细、更符合认知过程的架构设计范式。实验结果一致表明,CMT-Unet在Synapse和ACDC两个权威数据集上,在分割精度与计算效率之间取得了良好的平衡,其性能优于多种基线及对比方法。
该研究的重大意义在于,它为解决医学图像分割中“局部”与“全局”的固有矛盾提供了新的、有效的技术路径。CMT-Unet所展示的优越性能与效率,使其成为开发实用化、高精度辅助诊断系统的一个强有力候选模型。未来工作可探索将该框架应用于更多模态的医学图像(如超声、病理切片)及更复杂的病灶分割任务中,并进一步研究其在资源受限环境(如移动设备)下的部署可行性,以推动人工智能在临床医学中的更深层次应用。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号