《Biomedical Signal Processing and Control》:Few-shot medical image segmentation based on multi-granularity gating mechanism and channel-wise adaptive activation
编辑推荐:
名单:王森汀|刘静瑜|廖艳|龚稼丽|吴爱琳|赵鹏|齐亚萍|陈荣瑶|王旭南|吴晓青|徐梦珂|严伟琪|霍万利
浙江-新西兰联合基于视觉的智能计量实验室,中国吉利学院信息工程学院,杭州310018,浙江,中国
摘要
在医学图像分割任务中,获取大量高质量标注数据通常既困难又成本高昂。
名单:王森汀|刘静瑜|廖艳|龚稼丽|吴爱琳|赵鹏|齐亚萍|陈荣瑶|王旭南|吴晓青|徐梦珂|严伟琪|霍万利
浙江-新西兰联合基于视觉的智能计量实验室,中国吉利学院信息工程学院,杭州310018,浙江,中国
摘要
在医学图像分割任务中,获取大量高质量标注数据通常既困难又成本高昂。因此,在少样本学习环境下自动分割方法具有重要的研究和实际价值。尽管基于Transformer的模型在医学图像分割方面取得了显著进展,但传统的多头注意力机制由于特征层级之间的语义粒度差异较大,难以有效协调跨尺度特征。这一限制阻碍了模型在标注稀疏条件下充分整合多粒度语义信息。此外,尽管Transformer在模拟全局上下文方面表现优异,但在像素级建模局部结构(例如微小血管、组织边缘)时存在不足,进一步增加了在少样本场景下分割细微解剖特征的难度。为了解决这些问题,本文提出了MGCAA-Net,这是一种基于多粒度门控机制和通道自适应激活的医学图像分割模型。在其编码网络中,MGCAA-Net能够有效聚合多尺度高层次语义特征,实现高效的跨尺度特征协作并提升像素级感知能力,从而准确分割复杂病理区域内的微小目标和小范围区域。实验结果表明,该模型在单一模态训练(CT或MRI)下表现出色的分割性能。此外,在少样本跨域迁移任务(CT → MRI)中,它能够有效学习跨模态特征并实现优异的分割效果,验证了其出色的泛化能力。在Synapse数据集上,MGCAA-Net取得了较高的平均Dice分数;在CHAOS-T2数据集上,它在零样本实验中表现出色,并在少样本实验中有了显著提升。
引言
在医学图像分割任务中,多器官分割在辅助诊断心脏、胰腺和肝脏等疾病的方面起着关键作用。它能够实现精确的像素级分类,清晰地描绘器官、组织和病变区域的形态,为临床诊断和手术计划提供可靠的支持。然而,传统方法通常依赖于使用计算机断层扫描(CT)和磁共振成像(MRI)的大规模标注数据进行训练。医学图像的标注过程严重依赖放射科医生的专业知识,因此耗时且劳动强度大。当涉及多个器官时,这一成本尤为显著。因此,在标注数据稀缺的少样本环境下,现有模型的适用性和泛化能力受到严重限制。
自从U-Net[1]的成功以来,卷积神经网络(CNN)被广泛应用于医学图像分割,催生了各种改进的架构,如Unet++ [2]、ResUnet[3]和DenseUnet [4]。这些架构通过扩展感受野、提取多尺度特征以及融合通道和空间信息[5]、[6]、[7]、[8]、[9]、[10]、[11]不断提升了性能。然而,CNN在少样本场景下往往需要大量数据才能有效学习,并且难以捕捉复杂区域中的长距离依赖关系。为了解决这一挑战,研究人员提出了大核注意力(LKA)机制[12],在扩展视野的同时兼顾计算效率;随后引入了双通道LKA[13],而MLKNet [14]则将其嵌入到特征提取过程中。MSCA-UNet[15]和MAN[16]结合了多尺度机制以增强全局和局部信息的融合。这些方法显著提升了CNN的性能,但它们对大规模标注数据的依赖限制了其在少样本学习场景中的直接应用。
为了减少对人工标注的依赖,研究人员将Transformer的全局上下文建模能力与CNN的局部特征提取能力结合起来,形成了混合架构,如TransUNet [17]。这些方法在复杂器官(例如胰腺、胆囊)的分割任务中实现了更高的准确性,同时减少了对大量训练数据的需求。基于Transformer的现有方法包括使用完整Transformer结构的SwinUnet[18]、将Transformer引入跳跃连接的UCTransNet [19],以及与CNN结合的TransBTS [20]和TransMed[21]。然而,这些模型大多是为二维切片设计的。当应用于三维医学图像时,它们不可避免地会丢失三维上下文信息。此外,在数据有限的情况下,模型复杂度和计算成本会显著增加。
总之,在少样本学习环境中有效利用CNN和Transformer的互补优势,在有限的标注条件下实现高精度多器官分割建模已成为一个亟需解决的关键问题。
在本文中,为了解决CNN和Transformer在医学图像分割任务中的局限性——特别是在少样本学习场景下对多器官分割的适应性不足——我们提出了一种新的网络架构。
我们的主要贡献如下:
- •
引入了一种多粒度门控机制。在标注样本有限的少样本条件下,模型更加依赖有效的特征表示能力。基于Transformer获得的语义关系感知,我们利用补丁机制学习多尺度解剖先验特征,然后通过门控机制GSAU高效聚合这些特征,从而扩大感受野并提升小目标和小区域的分割性能。
- •
我们设计了细粒度分割网络MGCAA-Net。该网络结合了粗粒度和细粒度模块,增强了模型在少样本学习下对不同器官结构和上下文的建模能力,能够同时捕捉局部边界细节和全局空间布局,从而更好地学习不同器官的解剖特征和相对位置关系。
- •
提出了一种基于多尺度通道注意力的特征聚合机制。该机制首先采用自适应通道激活(CAA)为编码网络中不同层次提取的特征分配权重。通过同时聚合局部细节上下文和全局语义上下文,它有效地将深度层的强烈语义信息与浅层的高分辨率细节相结合。这种多尺度特征聚合随后与DySample方法结合使用,实现高效的跨尺度特征协调,使模型在解码过程中能够动态整合目标边缘的详细信息。
- •
在多模态和跨模态实验中进行了验证。实验结果表明,我们的模型在完全监督环境下跨不同模态(CT、MRI)的多器官分割任务中优于基线模型。更重要的是,在数据稀缺的跨模态迁移条件(CT → MRI)下,无论是零样本还是少样本学习,该模型仍展现出显著的优势,验证了所提方法在临床应用中的潜在价值。
部分摘录
相关工作
在介绍我们的方法之前,我们回顾了启发我们多器官分割方法的先行研究。主要贡献包括:(i)使用传统方法进行器官分割;(ii)应用大卷积核网络;(iii)应用多尺度卷积神经网络;(iv)多粒度分割;(v)跨领域分割。
方法论
以下部分详细介绍了MGCAA-Net的方法,包括研究动机、网络架构和相关模块。
Synapse CT数据集
Synapse多器官分割数据集包含30个临床腹部CT病例。随后,我们将这30个病例随机分为18个训练案例和12个测试案例。每个图像标注包括八个器官(主动脉、胆囊、左肾、右肾、肝脏、胰腺、脾脏和胃)。
CHAOS-T2 MRI数据集
CHAOS-T2数据集是一个用于腹部器官分割研究的医学成像数据集,包含120个腹部磁共振
总结与讨论
在这项研究中,我们提出了MGCAA-Net,这是一种基于多粒度门控和通道动态注意力的医学图像分割模型,旨在解决少样本条件下医学图像分割的核心挑战:标注数据稀缺、跨尺度特征协作困难以及局部结构分割精度不足。通过引入多粒度门控聚合机制来增强跨层次特征融合,并结合通道动态
CRediT作者贡献声明
王森汀:撰稿——原始草案、软件、概念化。刘静瑜:可视化。廖艳:方法论。龚稼丽:研究。吴爱琳:数据管理。赵鹏:监督。齐亚萍:形式分析。陈荣瑶:监督。王旭南:验证。吴晓青:形式分析。徐梦珂:项目管理。严伟琪:撰稿——审稿与编辑。霍万利:撰稿——审稿与编辑、资金筹集。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本工作得到了国家自然科学基金(项目编号82303675、12305404、62541330、12575374、12505425)、国家重点研发计划(项目编号2023YFF0613504)、浙江省自然科学基金(项目编号LMS25H160001、LQ24B030004、Q24A050004)、湖南省自然科学基金(项目编号2025JJ60036)、杭州市自然科学基金(项目编号2024SZRYBH180013)以及广东