RMViM-Net:一种基于图交互注意力的残差多路径视觉模型,用于医学图像分割
《Knowledge-Based Systems》:RMViM-Net: Residual Multi-path Vision Mamba with Graph Interaction Attention for Medical Image Segmentation
【字体:
大
中
小
】
时间:2026年01月17日
来源:Knowledge-Based Systems 7.6
编辑推荐:
医学图像分割研究提出改进的Vision Mamba模型RMViM-Net,通过五维多路径扫描增强空间建模能力,残差连接缓解深层特征退化,图交互注意力机制提升跨区域语义一致性,实验验证其在多个医学数据集上表现优于现有方法。
沈江|崔晓燕|鲍星卓|李秦松|胡志鹏|邹北记
中南大学计算机科学与工程学院,中国湖南省长沙市410083
摘要
医学图像分割在计算机辅助临床诊断中起着重要作用,但现有方法在平衡长距离依赖性建模和细粒度细节提取方面仍面临挑战。卷积神经网络(CNN)在捕捉局部特征方面表现出色,但缺乏全局建模能力。Transformer架构能够建模长距离依赖性,但其高计算复杂度限制了其在高分辨率医学图像场景中的应用。最近,Vision Mamba架构因其线性计算复杂性和捕捉长距离依赖性的能力而受到关注,但它仍受到固定扫描模式和特征交互不足的限制。为了解决这些限制,本文提出了一种改进的基于Vision Mamba的网络RMViM-Net,用于高效准确的医学图像分割。作为关键组件,开发了一个五维多路径扫描(5D Multi-path Scan)模块,该模块在多个子空间中并行构建多方向扫描路径,以增强方向空间建模能力。此外,引入了残差增强型多路径视觉状态建模(RMViM)模块,通过加入可学习的残差连接来减轻深度状态空间中的特征退化,从而改善病变边界和细微结构细节的建模。此外,提出了一种图交互注意力(GIA)机制,用于在区域特征节点之间建立拓扑连接,有效提高跨区域的功能聚合和空间上下文的语义一致性。在五个公开的医学图像分割数据集(包括ISIC 2017、ISIC 2018、CVC-ClinicDB、ACDC和Synapse)上进行的实验表明,RMViM-Net在分割性能和泛化能力方面优于现有的最先进方法。
引言
医学图像分割(MedISeg)通过实现像素级注释和成像数据的结构化解释,为放射治疗计划、手术导航和疾病进展监测等临床任务提供了必要的定量信息[1]、[2]。近年来,该领域在多种任务上取得了显著进展,包括核分割[3]、[4]、皮肤病变分割[5]、[6]和多器官分割[7]、[8]。然而,医学图像的固有复杂性(包括高分辨率与低对比度的共存、噪声和成像伪影的存在以及多模态采集的异质性)对模型的适应性提出了重大挑战,并要求在不同成像设备和协议之间实现强大的泛化能力[9]。
为应对这些挑战,当前主流的医学图像分割方法主要基于卷积神经网络(CNN)和Transformer[10]。基于CNN的模型(例如U-Net[11]及其变体[12])通过局部感受野和共享权重有效提取纹理和边缘等细粒度特征,同时使用跳跃连接来减轻特征退化。然而,卷积的固有局部性限制了捕捉跨空间区域的长距离语义依赖性的能力。这通常导致边界不连续或分割伪影,尤其是在涉及大规模病变或低对比度背景的情况下。相比之下,Transformer架构[13]利用自注意力机制来建模全局像素级交互,从而捕捉长距离依赖性,并在各种医学分割任务中实现了显著的性能提升。尽管有这一优势,基于Transformer的方法的计算复杂度随图像分辨率呈二次方增长,即使使用分层或基于窗口的设计,高计算成本仍然是高分辨率应用中的重要限制。因此,如何有效结合Transformer的长距离建模能力和CNN的高效特征提取,同时平衡空间表示和计算效率,已成为当前模型设计中的关键挑战。
近年来,状态空间模型(SSM)[14]作为一种高效的长距离依赖性建模替代方案,在医学图像分析领域受到了越来越多的关注。在这些模型中,Mamba结合了一种选择性状态更新机制(称为选择性状态空间)以及硬件感知优化策略。这种设计在自然语言处理任务中展示了与Transformer相当的性能,同时提供了线性时间复杂度和改进的推理效率。在此基础上,面向视觉的扩展称为Vision Mamba(ViM)[15]通过采用扫描机制将二维空间输入转换为了一维序列,从而在状态空间框架内实现全局表示学习。本研究提出的方法在ViM架构的基础上进一步增强了其结构感知、语义一致性和稳定状态表示的能力,旨在更好地满足涉及复杂解剖结构和细粒度边界的医学图像分割需求。
尽管Vision Mamba在建模长距离序列方面显示出明显优势,并在通用计算机视觉任务中取得了进展,但在应用于医学图像分割时仍存在结构上的局限性。大多数现有方法使用预定义的线性扫描路径进行特征序列化。然而,病变的异质形态以及复杂的各向异性解剖分布使得这种单向扫描无法充分捕捉全面的空间依赖性。因此,在序列化过程中可能会破坏必要的像素级空间连续性,从而影响分割精度。状态空间模块的深度堆叠通常会导致特征表示逐渐退化,导致高级特征中的语义清晰度丧失。这种效应阻碍了详细边界和全局语义一致性的同时建模。此外,当前的ViM架构通常缺乏有效的跨区域特征集成机制,这限制了长距离上下文信息的有效聚合。当处理边界模糊或不规则空间配置的病变区域时,这一限制尤为关键,从而导致分割准确性和鲁棒性下降。如图1所示,为了解决这些挑战,引入了一种改进的视觉状态空间模型RMViM-Net。与CNN、Transformer和之前的Mamba变体相比,RMViM-Net通过多方向扫描机制增强了空间上下文建模,同时保持了线性计算复杂度。此外,该架构在模块设计和特征交互方面进行了系统性改进,以实现更高效、更细粒度和更具结构感知能力的医学图像分割。主要贡献如下:
•五维多路径扫描(5D Multi-path Scan)模块旨在提高空间序列化的灵活性并增强模型的结构感知能力。为了解决现有ViM架构在医学图像中建模复杂空间依赖性时的固定扫描策略的局限性,该模块采用了一种包含五种预定义方向模式(包括分形、螺旋、蛇形、对角线和之字形)的多头并行方案。这种设计提高了网络在结构复杂和边界复杂的区域中表示多方向空间上下文的能力。
•残差增强型多路径视觉状态建模(RMViM)模块用于减轻深度状态空间建模中通常出现的表示退化。引入了可学习的残差连接,以保持深层特征表示的稳定性和区分能力。这种增强提高了网络在边界模糊和解剖特征复杂的区域保留有意义语义信息的能力。
•图交互注意力(GIA)模块旨在提高网络捕捉空间不同区域之间长距离上下文关系的能力。通过在语义相关的特征节点上构建拓扑图,该机制实现了动态的跨区域信息聚合,并增强了上下文一致性。这些改进对于涉及组织边界模糊、边缘对比度弱或空间上不连续的病变区域的分割场景特别有益(见图2)
章节片段
医学图像分割的深度学习方法
医学图像分割(MedISeg)是医学图像分析的基本组成部分,为准确诊断和个性化治疗计划提供了可靠的空间指导[16]、[17]。由于手动注释的低效率和主观性,自动化分割方法受到了越来越多的关注,并成为智能医学成像技术的主要推动力[18]。深度学习技术,特别是CNN和Transformer,已经取得了显著成果
方法
本节介绍了所提出模型的整体框架及其关键组成模块。该架构采用编码器-解码器结构,通过渐进式特征下采样和跳跃连接共同实现分层语义抽象和空间细节重建。核心建模单元称为残差增强型多路径视觉状态建模(RMViM)模块,其中包含残差连接以在深度状态空间中保持稳定性
实验
在本节中,采用了五个公开的医学图像分割数据集来评估所提出的模型,涵盖了皮肤病变分析、心脏结构勾画、肠道病变分割和多器官腹部分割等任务。然后详细描述了训练设置,包括优化器配置、学习率调度策略和批量大小设置。随后,介绍了几种常用的定量指标
讨论
所提出的RMViM-Net在多个公开的医学图像分割数据集上表现出优异的性能,特别是在结构复杂或不规则空间分布的病变区域显示出强大的鲁棒性和建模精度。这种性能提升源于模型在空间结构表示和语义一致性建模方面的增强能力。5D Multi-path Scan模块通过多方向扫描改进了复杂空间依赖性的建模
结论
本文介绍了基于视觉状态空间建模的医学图像分割方法RMViM-Net,旨在克服ViM架构在捕捉空间结构和保持语义一致性方面的局限性。RMViM-Net利用五维选择性扫描机制实现多方向空间建模,结合RMViM模块来缓解深度特征退化,并集成图交互注意力机制以加强语义
CRediT作者贡献声明
沈江:撰写——原始草稿、可视化、研究、形式分析、数据整理、概念化。崔晓燕:项目管理、资金获取。鲍星卓:数据整理。李秦松:研究、资金获取。胡志鹏:验证。邹北记:项目管理。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(编号:U22A2034、62177047、62302530)、 MOST资助的高水平外国专家引进计划、湖南省科技厅的关键研发计划(编号:2024JK2135)、湖南省教育厅科研基金(编号:24A0018)、湘江实验室的重大项目(编号:23XJ02005)、湖南省自然科学基金(编号:2023JJ40769)的支持
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号