CTCSANet:一种用于腹部器官分割的自适应通道-空间注意力网络

《Pattern Recognition Letters》:CTCSANet: an adaptive channel-spatial attention network for abdominal organ segmentation

【字体: 时间:2026年02月28日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  腹部器官CT图像分割框架CTCSANet融合CNN与Transformer,通过跨阶段特征融合和自适应通道-空间注意力机制提升分割精度,在三个数据集上DSC分别达83.32%、94.40%和92.68%。

  
丁丹鹏|郭毅|陈芳|倪晓东|洪金生|史鹏|钟静
福建师范大学计算机与网络安全学院,福州,350117,福建,中国

摘要

在计算机断层扫描(CT)图像中对腹部器官进行准确分割对于疾病诊断和治疗计划至关重要,尤其是对于肿瘤和器官异常情况。然而,由于复杂的解剖结构和图像质量的差异,这一任务仍然具有挑战性。尽管卷积神经网络(CNN)已被广泛用于腹部器官分割,但其效果受到有限感受野的限制,这阻碍了全局上下文信息的捕获。为了克服这些限制,我们提出了一种新的腹部器官分割框架——CNN-Transformer通道和空间注意力网络(CTCSANet),该框架协同结合了CNN和视觉Transformer的优势。CTCSANet通过跨阶段特征融合整合了不同阶段的特征图,实现了多层次的特征表示。此外,考虑到在结合CNN和Transformer时会产生冗余信息,因此采用了自适应通道-空间注意力机制来突出感兴趣的器官区域。在三个数据集上的评估结果显示,CTCSANet在Synapse数据集上的准确率为83.32%,在LiTS17数据集上为94.40%,在MSD_Spleen数据集上为92.68%。

引言

随着计算机断层扫描(CT)和其他成像技术的不断进步,医学图像分析已成为现代临床诊断和治疗计划不可或缺的工具。深度学习的最新进展通过提供强大的特征表示和自动化决策能力,彻底改变了这一领域,从而在多种临床应用中取得了显著成果,例如检测膝关节骨质疏松症和骨质减少、多类皮肤病变分类以及单间室膝关节骨关节炎的分类[1]、[2]、[3]、[4]。这些研究表明了深度神经网络在解决多样化诊断任务和提高临床可靠性方面的多功能性和有效性。
在这一广泛领域中,一个关键任务是从CT图像中准确分割腹部器官,这对于定量分析、疾病诊断、手术规划和放射治疗至关重要。卷积神经网络(CNN),特别是U-Net[5]及其变体,由于其强大的局部特征提取能力,已成为这一任务的基石。然而,卷积操作的固有局部性限制了它们的感受野,阻碍了对长距离依赖关系的建模。这通常导致对于形状不规则或边界模糊的器官来说,性能不佳。
最近,Transformer架构在捕获全局上下文信息方面取得了显著成功。像TransUNet[6]和Swin-Unet[7]这样的模型已将Transformer集成到医学图像分割中,显示出有希望的结果。然而,这些方法通常面临高计算复杂性的挑战,而且,CNN和Transformer特征的简单融合可能导致冗余或不一致的表示,从而限制了它们的有效性。
为了克服这些限制,我们提出了CTCSANet,一种用于腹部器官分割的CNN–Transformer通道和空间注意力网络。该框架在统一的编码器-解码器架构中结合了CNN的局部特征提取能力和Transformer的全局上下文建模。具体来说,引入了跨阶段特征融合(CSFF)模块来整合编码器各阶段的特征图,增强了特征表示的上下文多样性和语义一致性。此外,还开发了自适应通道-空间注意力(ACSA)机制,在CNN–Transformer特征融合过程中选择性地强调与器官相关的区域并抑制冗余信息。总之,本研究的主要贡献如下:
  • 我们提出了CTCSANet,这是一种新颖的混合CNN–Transformer网络,能够有效地将局部空间表示与全局上下文依赖关系结合起来进行腹部器官分割。
  • 我们设计了跨阶段特征融合(CSFF)模块,以整合编码器各阶段的层次化多尺度特征,增强了特征多样性和上下文一致性。
  • 我们引入了自适应通道-空间注意力(ACSA)机制,在CNN–Transformer融合过程中选择性地强调与器官相关的区域并抑制冗余信息。
  • 部分摘录

    医学图像中的CNN

    CNN因其能够学习层次化特征表示而在医学图像分割中得到了广泛应用。U-Net架构[5]以其编码器-解码器结构和跳跃连接率先开创了这一领域,通过结合低级和高级特征实现了精确的定位。随后,UNet++[8]通过重新设计跳跃路径改进了特征融合,而Attention U-Net[9]引入了注意力机制来关注感兴趣的区域,从而提高了性能

    整体架构

    所提出的CTCSANet引入了一种新颖的Transformer–CNN混合架构,该架构在编码阶段独特地使用了Transformer来直接捕获原始图像像素的全局依赖关系,通过渐进式下采样生成多分辨率特征图。Transformer由三层组成,每层具有八个注意力头和128维嵌入,输入图像被分割成不重叠的2×2块进行标记化和全局特征提取。

    实验

    我们首先评估了不同的注意力策略,用于融合CNN和Transformer的特征,并将ACSA与CBAM[15]进行了比较。接下来,我们分析了改变ACSA模块数量的影响。消融研究验证了各个组件的贡献。最后,我们将CTCSANet与最先进的方法进行了比较,以证明其优越性。

    结论

    在本文中,我们提出了CTCSANet,这是一个用于腹部器官分割的端到端深度学习框架。为了解决传统CNN编码器在捕获全局上下文信息方面的局限性,我们引入了Transformer块来提取长距离依赖关系。跨阶段特征融合(CSFF)模块有效地整合了多尺度特征表示,而自适应通道-空间注意力(ACSA)模块增强了局部和全局特征的融合

    CRediT作者贡献声明

    丁丹鹏:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,方法论,概念化。郭毅:正式分析。陈芳:正式分析。倪晓东:撰写 – 原始草稿。洪金生:正式分析。史鹏:监督,项目管理,资金获取。钟静:正式分析。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号