《Medical Image Analysis》:Efficient Self-Supervised Barlow Twins from Limited Tissue Slide Cohorts for Colonic Pathology Diagnostics
编辑推荐:
在计算病理学中,海量全切片图像(WSI)的精确标注耗时耗力,限制了深度学习模型的应用。为解决这一问题,来自康考迪亚大学的研究团队聚焦于结直肠癌(CRC)筛查,提出了针对病理数据优化的自监督Barlow Twins框架。该研究通过调整超参数、定制数据增强策略并使用Swin Transformer编码器,显著提升了模型在结直肠息肉分类任务上的性能,并在多个公开数据集上验证了其有效性。这项工作为开发不依赖于大量标注数据的自动化病理诊断工具提供了高效解决方案。
结直肠癌是全球范围内导致癌症相关死亡的主要原因之一,但它同时也是最可预防的癌症之一。在加拿大,50岁以上的人群都有资格接受结直肠癌筛查,其中约20%的人会因为发现癌前息肉而接受活检。这些息肉活检构成了病理医生日常工作的主要部分。然而,病理医生人手的短缺常常导致患者筛查计划出现瓶颈,诊断被延误。如果能够开发出高效的计算模型来帮助筛查这些息肉活检,将能极大改善病理医生的工作流程,并引导他们关注切片上的关键区域。
这正是计算病理学(CPath)希望实现的目标。它位于病理学和计算机科学的交叉点,旨在利用深度学习(DL)等工具,从组织病理学的全切片图像(WSI)中提取有意义的表征,为诊断提供有价值的见解。但现实是骨感的:深度学习模型在计算病理学中面临巨大挑战。首先,全切片图像是高达数十亿像素的“巨无霸”图像;其次,获取详细标注的数据集非常稀缺,因为标注工作需要具有多年临床经验的病理专家,过程既耗时又昂贵。这就导致了一个核心矛盾:强大的模型需要海量标注数据,但现实中这类数据却少之又少。
如何破解这个困境?自监督学习(SSL)提供了一条充满希望的路径。它允许模型利用大量未标注或弱标注的数据进行预训练,学习数据的内在结构和特征,从而减轻对昂贵标注的依赖。其中,Barlow Twins是一种高效的非对比式自监督学习方法,它通过最小化同一图像两个失真视图的嵌入表示之间的冗余来学习特征,并且相比其他方法(如DINO)计算资源需求更少。此前的研究已经表明,Barlow Twins在各种病理数据集上表现出色。然而,现有的研究缺乏将Barlow Twins框架有效应用于分析病理数据的方法,特别是如何针对病理图像的特殊性(如无标准方向、颜色变化低、相邻 patch 形态相似等)进行优化。
因此,由Mahdi S. Hosseini、Cassandre Notton等人领导的研究团队开展了一项研究,旨在提出一个针对结直肠息肉筛查优化的Barlow Twins框架。他们想知道:能否通过调整Barlow Twins的超参数、数据增强策略和编码器架构,使其更好地适应病理数据的特性?不同的视野范围(Field of View, FoV)对筛查性能有何影响?自监督学习获得的特征与有监督学习获得的特征相比,孰优孰劣?
为了回答这些问题,研究人员首先引入了一个新的、部分标注的结直肠息肉数据集——金斯顿总医院(KGH)数据集,包含1037张正常结肠组织和四种结直肠息肉(增生性息肉HP、无蒂锯齿状病变SSLe、管状腺瘤TA、管状绒毛状腺瘤TVA)的全切片图像。他们从这些切片中提取了不同视野范围(1400微米、800微米、600微米和410微米)的图像块(patch)。研究核心是优化Barlow Twins框架,具体包括:1. 通过消融研究调整批大小、投影头维度和权衡参数λ等超参数;2. 设计针对病理数据定制的新数据增强策略,例如采用高阈值(250)的色调分离、弱颜色抖动,并引入垂直翻转和仿射变换,同时摒弃了不适合病理数据的灰度化、高斯模糊等变换;3. 首次在计算病理学中探索将Swin Transformer作为Barlow Twins的编码器,以利用其局部-全局特征提取能力。
为了评估优化效果,研究团队训练了多个编码器模型进行比较,包括有监督训练的ResNet-50和Swin-Tiny,以及在不同设置下(是否使用ImageNet预训练权重、是否使用定制增强策略、使用何种编码器)训练的Barlow Twins模型。他们通过两种方式评估学习到的表征质量:一是在patch级别,在冻结的编码器上训练一个线性分类器进行五分类;二是在切片级别,使用CLAM这一多实例学习(MIL)框架进行分类。此外,他们还研究了预训练所用视野范围对模型迁移能力的影响,并在公开数据集PCam、MHIST和NCT-CRC-7k上进行了下游任务评估,以验证模型的泛化能力。
4.1. Barlow Twins超参数和数据增强策略的消融研究
研究人员首先对Barlow Twins的主要超参数进行了消融研究。结果发现,增大批大小能提升性能,但也会增加计算需求,因此最终选择了512作为一个平衡点。同时,他们为KGH数据集调整了超参数λ的默认值。令人意外的是,在投影头维度的研究中,2048维在本数据集上表现最优,而不是越大越好,这表明息肉的表征在更大维度空间中可能过拟合。在数据增强方面,研究发现,原始Barlow Twins为自然图像设计的增强策略(包含随机裁剪、水平翻转、颜色抖动、随机灰度化、高斯模糊、色调分离等)在病理数据上表现不佳。例如,颜色抖动、高斯模糊和灰度化会改变染色所携带的关键组织特征信息。优化后的策略保留了随机裁剪和水平翻转,采用高阈值的色调分离和弱颜色抖动,并新增了垂直翻转和仿射变换,从而显著提升了性能。
4.2. Patch分类
在线性评估(patch分类)中,自监督方法在所有情况下都优于有监督基线。在大多数数据集上,提出的优化模型(pathBT和swinBT)表现优于其他模型。值得注意的是,swinBT(使用Swin-Tiny编码器)在patch级别上全面超越了所有基于ResNet-50的模型。对于最小的视野范围(pkgh-410),basicBT(无预训练、使用原始增强)反而表现更好,分析认为ImageNet初始化可能使模型在如此大的数据集上难以正确收敛。UMAP可视化显示,有监督ResNet-50的各类特征混淆严重,而pathBT模型能将特征清晰地分为三组:正常组织、HP/SSLe、TA/TVA,这恰好反映了诊断中HP与SSLe、TA与TVA在形态学上的相似性,说明模型学到了有意义的特征。
4.3. Slide分类
在切片级别的多实例学习(MIL)评估中,结果更加复杂。总体而言,自监督模型通常优于有监督模型。在最大的视野范围(pkgh)上,pathBT和swinBT在所有指标上表现最佳。swinBT在多个数据集上都能提供非常高的AUC(>0.9891)。值得注意的是,有监督ResNet-50在pkgh-600和pkgh-410上的某些指标也能达到第二,说明在训练数据子集上也能训练出有效模型,但自监督方法利用了大量未标注数据,潜力更大。
4.4. 在不同视野范围上的预训练
为了研究模型特征的通用性,研究人员将在某一视野范围上预训练的模型,迁移到不同视野范围的数据上进行评估。结果发现,无论是pathBT还是swinBT,模型在与其预训练视野范围相近的数据上表现更好。这强调了所学特征与视野范围及其中可见结构的相关性。同时,swinBT的迁移性能普遍优于pathBT,凸显了Swin Transformer对未见数据的强大泛化能力。
4.5. CLAM热图与ROI相关性分析
CLAM框架可以生成显示高诊断价值区域的热图。分析发现,所有模型的热图都与病理专家的标注(ROI)有相关性,但存在差异。有监督编码器的热图仅局限于标注的ROI区域,未能推广到切片上其他具有相似特征的组织样本。而Barlow Twins编码器(尤其是imBT, pathBT和swinBT)的热图模式在切片内多个组织样本间具有可重复性,表明它们捕捉到了切片整体的组织结构。此外,有监督和basicBT、imBT模型有时会将高诊断价值赋予含有褶皱或撕裂等伪影的patch,而pathBT和swinBT则能聚焦于具有相关组织结构的patch,做出更可靠的诊断。
4.6. 在PCam数据集上的Patch分类
为了验证所提方法的普适性,研究在乳腺癌淋巴结转移分类的PCam基准数据集上重复了实验。结果显示,使用定制增强策略的pathBT略优于basicBT和imBT,而swinBT再次以显著优势(准确率约79.63%)超越了所有其他方法,进一步证实了Swin Transformer在病理数据上的潜力。
4.7. 在MHIST和CRC数据集上的下游任务
研究评估了在KGH上预训练的模型在另外两个结直肠数据集上的泛化能力。在MHIST(HP vs SSLe分类)上,basicBT和imBT的表现优于大型基准模型(benchBT)和提出的pathBT/swinBT,表明针对KGH设计的弱颜色抖动策略可能降低了模型对其它染色变化的泛化能力。然而,在更大的NCT-CRC-7k数据集(九分类)上,swinBT在准确率上全面领先,pathBT则在AUC上表现优异,且所有四个模型在准确率上都超越了benchBT。这证明了KGH数据集作为结直肠息肉筛查模型预训练数据源的高潜力。
本研究通过优化Barlow Twins框架,成功将其应用于结直肠息肉的筛查。主要结论包括:第一,提出的针对病理数据优化的Barlow Twins框架(包括定制的数据增强策略和Swin Transformer编码器)在patch和切片级别都能提供稳健的性能。第二,在弱标注的KGH数据集上,有监督方法表现次优,凸显了自监督学习在利用未标注数据方面的价值。第三,对于全切片图像分类,较小的视野范围(410微米)也能取得很高的AUC(>0.99),而更大的视野范围效果反而下降。第四,自监督方法比有监督方法学到了更真实、更稳健、更有意义的特征,这些特征能更好地反映组织学上的相似性与诊断模糊性。第五,在KGH数据集上预训练的编码器可以有效地迁移到其他结直肠息肉分类任务中,展示了该数据集作为预训练资源的潜力。
研究人员在讨论中指出,本研究的局限性在于未与其他自监督框架(如SimCLR、DINO)进行对比实验。未来的工作应深入探索专门针对病理下游任务的自监督学习方法,研究不同数据增强策略对全切片图像分类的影响,并尝试将多实例学习与病理基础模型相结合。这项研究为开发更高效、更少依赖标注的计算机辅助病理诊断工具迈出了重要一步,其代码和预训练模型权重的开源也将助力计算病理学社区的进一步发展。