《Biomedical Signal Processing and Control》:Clinically oriented LG-SAM for lung CT tumor segmentation with 2D training achieving 3D-level performance
编辑推荐:
肺肿瘤CT图像分割中存在小病灶、边界模糊、背景失衡及扫描各向异性等问题。本文提出LG-SAM框架,通过虚拟引导机制(GTV-AFCT)增强标注利用,引入多尺度离散小波变换适配器(WDA-Adapter)抑制伪影并优化边界,结合GAN训练策略缓解类别不平衡。实验表明,在NSCLC-Radiomics和Clinical-Lung数据集上,2D训练的LG-SAM分别达到96.06%和96.85%的2D Dice系数,3D Dice达70.08%和80.37%,边界误差HD95降至6.42mm和5.08mm,优于SAM-Med3D等3D模型。
陈毅|秦璐|郑哲阳|李玉欣|杨金瑞|杨军|蒋少峰|张怀文
南昌航空大学生物医学工程系,江西330063,中国
摘要
CT中的肺癌分割仍然受到小病变和异质性病变、边界模糊、明显的 foreground-background不平衡以及扫描各向异性的限制,这些因素削弱了平面内的上下文信息。尽管SAM-Med2D在通用医学分割方面表现出色,但其直接应用于肺CT时会因为提示注释范式的不匹配和成像伪影而受到影响,导致优化过程不稳定。为了解决这个问题,我们提出了LG-SAM(Lung tumor GAN-SAM),它在保持2D计算效率的同时提高了体积一致性。我们的方法整合了三个组件:(1)GTV-AFCT执行前景感知的特征压缩,并注入可学习的提示令牌以更好地利用现有的掩码注释;(2)即插即用的WDA-Adapter进行多尺度离散小波分解,选择性地保留低频结构,并通过双尺度注意力动态重新调整通道以抑制条纹伪影并锐化边界;(3)结合对抗损失(Adversarial Loss)与Focal、Dice和Mask IoU损失的GAN机制,在类别不平衡的情况下稳定优化并提高小病变的召回率。在统一的2D/3D协议下,LG-SAM表现出更优越的性能。在NSCLC-Radiomics数据集上,它的2D Dice分数达到了96.06%,3D Dice分数达到了70.08%,分别比基线提高了4.14%和6.08%,同时将体积HD95误差降低到了6.42毫米。在Clinical-Lung数据集上,性能提升更为显著,2D Dice分数达到了96.85%,3D Dice分数达到了80.37%(比SAM-Med3D提高了22.98%),边界误差(HD95)降低到了5.08毫米。这些结果表明,频率选择性建模、对抗性稳定性和提示兼容性弥合了范式差距,使得该模型能够在数据稀缺和各向异性的临床场景中与主流3D基线相媲美,且基于可部署的2D框架实现。
引言
肺癌仍然是全球癌症相关死亡的主要原因。根据世界卫生组织国际癌症研究机构的统计,其死亡率显著高于其他常见恶性肿瘤,包括胃癌、宫颈癌、脑肿瘤和肝细胞癌[1]。五年生存率低于20%,主要是因为大多数肺癌病例在晚期才被诊断出来,因为早期症状不典型[2],[3]。尽管CT因其清晰的图像和高空间分辨率而成为肺癌早期筛查和诊断的首选方法,但早期肺癌在CT上通常表现为直径小于10毫米的结节[4]。每次CT扫描包含数百张切片,肿瘤的体积比例极小,以及结节和各种粘连的边界模糊,这些因素严重限制了手动勾画的效率和一致性[5],[6]。此外,在临床实践中,除了少数需要特定放疗计划的病例外,数千个数据集往往只有“粗略的标签”或完全未标记。在如此有限的注释条件下实现像素级精确的自动分割已成为CT筛查中的一个关键挑战[7]。
近年来,基于CNN的传统网络,主要是U-Net[8]及其3D变体,在器官分割等任务中表现出色,这得益于它们的U形架构和跳跃连接。然而,卷积核的有限感受野限制了它们对全局上下文的建模能力[9],常常导致不规则形状的小肺癌分割不足和边界模糊。随后,各种基于Transformer的分割模型通过自注意力机制捕获全局上下文而表现出更好的性能。尽管如此,这些模型需要大量数据才能有效收敛,而标准的ViT模型[10]在处理小目标时常常遇到困难。随着视觉基础模型的兴起,Segment Anything Model(SAM)[11]通过利用数十亿个掩码的预训练和基于提示的推理,在通用分割任务中展示了显著的零样本泛化能力。为了将SAM适应于医学任务,提出了多种微调策略来弥合自然图像和医学图像之间的领域差距。其中,MedSAM[12]旨在尽可能保留SAM的原始权重,通常冻结图像编码器,仅微调掩码解码器。然而,为了实现更深入的领域适应并有效捕捉医学图像的独特纹理细节,SAM-Med2D[13]采用了一种更全面的适应方法,通过将可学习的适配器注入ViT编码器来优化所有核心组件,同时微调提示编码器和掩码解码器。Ali等人[14]指出,这种全组件适应策略的性能明显优于冻结骨干的模型。例如,在具有复杂边界的任务中,如超声肿瘤分割,SAM-Med2D的Dice分数达到了75.11%,而MedSAM仅为56.65%,性能优势接近18.5%。此外,SAM-Med2D使用了1970万个掩码的训练规模[13],远超过MedSAM的大约100万个掩码,为医学领域的泛化奠定了更坚实的基础。
然而,将在传统医学图像上表现良好的SAM-Med2D直接转移到肺CT分割任务中面临重大挑战。首先,模型与临床现实之间存在范式不匹配。由于肺CT中前景比例小和注释格式受限,SAM-Med2D的提示驱动范式与大多数数据集现有的注释不匹配,难以建立稳定的训练流程[15],[16]。其次,这项任务中2D和3D方法之间的结构权衡涉及复杂的依赖关系,而非维度与性能之间的线性关系。肺CT通常表现出各向异性和切片厚度不一致;强制重采样到各向同性会导致明显的平面内模糊和部分体积效应,从而降低真实边界的清晰度。关于模型架构,体积上下文与泛化能力之间存在关键权衡。虽然最近的参数高效3D架构减轻了计算负担,但它们将每个患者体积视为一个单独的训练样本。在注释体积稀缺的临床场景中,即使高效的3D网络也面临过度拟合训练对象特定解剖特征的高风险。相比之下,2D方法将体积分解为切片,有效地放大了训练数据的数量级,从而从多样化的横截面外观中促进稳健的特征学习。此外,3D滑动窗口推理中的边界拼接和归一化漂移可能会放大体积误差。因此,3D架构并不一定比设计良好的2D方法更优越。第三,频率冲突和优化不稳定性的双重挑战持续存在。肺结节经常位于高对比度结构(如胸膜和血管)附近。高频干扰(包括采集噪声、条纹伪影和金属伪影)容易产生虚假边缘,而基于ViT的全局注意力机制在补丁嵌入和多头聚合过程中倾向于平滑边缘细节[17],[18]。再加上各向异性引起的细节损失,这导致过度锐化和过度平滑之间的振荡,产生锯齿状边界和位移,直接提高了边界敏感指标(如HD95和MASD)。同时,小前景与大背景之间的显著类别不平衡导致前景梯度持续被抑制。这种缺陷导致优化的高方差和训练中的波动,从而降低了小病变的召回率和切片间的一致性,最终削弱了模型的鲁棒性和可重复性。因此,改进2D模型以克服其结构限制并实现最佳分割性能而不采用完整的3D架构仍然是一个重大挑战。
为了解决上述挑战,本研究提出了用于CT图像中肺肿瘤分割的LG-SAM。该框架基于SAM-Med2D基线,有效利用现有注释实现精确定位和稳定训练,即使注释格式与模型范式不匹配。在肺癌分割任务中,我们的方法优于主流模型;在3D数据的逐切片处理中,也超越了现有的3D方法。主要贡献如下:
(1) 纯2D训练和推理在数据受限的情况下实现了3D领先的性能:仅使用2D切片训练和推理,并通过轴向堆叠进行体积评估,该方法在NSCLC-Radiomics数据集上的Dice分数达到了70.08%,比SAM-Med3D提高了6.08个百分点,同时显著降低了边界误差。在Clinical-Lung数据集上,其Dice分数达到了80.37%,比SAM-Med3D提高了23.56个百分点,同时显著降低了HD95和MASD。
(2) 低频驱动的频率选择性Transformer适配器:在编码器中引入了多尺度离散小波分解,仅保留低频LL子带作为特征骨干,以抑制高频伪影和噪声。基于全局平均池化和全局最大池化的双尺度通道注意力执行自适应重加权。这种频率域净化和低频指导稳定了轮廓建模。关键的是,通过使用Haar小波,我们的方法相比其他复杂小波家族具有相对较小的计算开销,实现了性能和效率之间的良好平衡。
(3) 针对极端类别不平衡的对抗训练:基于GAN的优化策略结合了Focal、Dice、Mask IoU和Adversarial Loss的综合目标,稳定了生成器和判别器的梯度,减少了训练方差,并稳定了边界预测。在2D框架内,它提高了小目标的召回率和边界一致性,并在保持计算效率和可部署性的同时,在体积Dice、HD95和MASD方面实现了系统性提升。
相关工作
相关工作
随着深度学习在图像分割方面的重大进展,早期的肺癌肿瘤分割方法采用了来自自然图像处理的方法。经典的医学图像分割模型U-Net[8]采用了对称的编码器-解码器架构和跳跃连接,以整合低级空间细节和高级语义。随后,Attention U-Net[19]将空间-通道双重注意力引入跳跃路径,使模型能够专注于可疑区域
概述
我们的LG-SAM框架包括三个集成模块。首先,数据处理模块使用GTV-AFCT裁剪以病变为中心的边界框,有效抑制背景噪声,同时嵌入提示令牌以与SAM-Med2D的输入范式对齐。其次,增强型小波生成器结合了多尺度小波变换和SAM-Med2D中的双通道注意力,以提取细粒度特征。最后,轻量级的对抗判别器利用了完整的
数据集
1) NSCLC-Radiomics数据集。
NSCLC-Radiomics数据集(Lung 1)是一个公开可用的医学成像数据集,发表在《自然通讯》(Nature Communications)上,由The Cancer Imaging Archive(TCIA)托管。它包括422名非小细胞肺癌(NSCLC)患者(132名女性,290名男性),他们在荷兰MAASTRO诊所接受了治疗。所有患者均通过组织学或细胞学确诊为不可手术的NSCLC,疾病阶段为UICC I-IIIb。该数据集包括196名接受根治性放疗的患者
讨论
我们的基于2D的LG-SAM在公共NSCLC-Radiomics数据集和临床Clinical-Lung数据集上显著优于现有的3D模型,特别是在这些各向异性和数据受限的临床场景中。LG-SAM的卓越性能归因于GTV-AFCT、WDA-Adapter和对抗训练的协同整合。通过限制感兴趣区域内的特征提取并结合对抗训练
结论
在这项研究中,我们提出了用于CT图像中肺肿瘤分割的LG-SAM。通过结合虚拟引导机制和GTV-AFCT预处理模块,SAM-Med2D可以在标注稀疏的肺癌数据集上使用ROI进行训练。WDA-Adapter提取多尺度特征以增强边界分割,而GAN策略减轻了显著的训练波动。LG-SAM在分割准确性和细节保留方面表现出色,显著降低了
CRediT作者贡献声明
陈毅:撰写 – 审稿与编辑,撰写 – 原始草稿。秦璐:撰写 – 原始草稿。郑哲阳:可视化。李玉欣:数据整理。杨金瑞:可视化。杨军:可视化。蒋少峰:撰写 – 审稿与编辑,资金获取。张怀文:资源,项目管理。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。