《Neural Networks》:Self-supervised Exceptional Prototypical Network for Few-shot Grading of Gastric Intestinal Metaplasia
编辑推荐:
自动给胃黏膜肠上皮化生(GIM)分级有助于早期胃癌诊断。现有原型网络存在多尺度特征学习困难(因标注数据少)和忽略异常样本潜在信息(导致分类边界单一)问题。本文提出Swin-EPN网络:1)通过自监督预训练Swin Transformer提取多尺度特征;2)设计异常原型挖掘模块,利用异常样本动态更新分类边界。在本地三甲医院GIM数据集上验证,1-5 shot场景准确率分别提升6.12%和5.61%。
陈轩驰|徐永辉|李珍|张明哲|于涵|崔丽珍|郑向伟
山东师范大学信息科学与工程学院,济南,250358,中国
摘要
胃肠化生(GIM)的自动分级在辅助早期胃癌诊断方面具有重要意义。近年来,原型网络已成为少样本场景下医学图像处理的有效方法。然而,现有的原型网络在应用于GIM分级时存在以下两个局限性:1)胃镜的拍摄角度不同导致GIM病变的采样粒度多样,从而产生大量的多尺度特征。由于标记的内镜图像有限以及隐私问题,完全监督的编码器难以学习到稳健的多尺度特征。2)基于样本均值的类别原型忽略了异常病例的潜在类别信息,导致类别原型和决策边界的判断片面。为了解决这些问题,我们提出了一种自监督的异常原型网络(Swin-EPN)用于GIM的少样本分级。具体来说,设计了三个定制的 pretext任务来共同预训练swin变压器,该变压器作为模型的嵌入层来学习稳健的多尺度特征。我们提出了一个异常原型挖掘模块,通过为每个样本定义原型分数并更新异常原型库中的潜在异常原型来识别异常原型。这些异常原型作为类别原型的补充信息,用于指导类别决策边界的划分。我们在当地一家三级甲等医院的私有GIM数据集上对Swin-EPN进行了1-shot和5-shot场景的验证,与最先进(SOTA)模型相比,准确率分别提高了6.12%和5.61%。
引言
胃肠化生(GIM)是一种萎缩性胃炎病变,被认为是胃癌(GC)的癌前病变。在过去的几十年中,内镜筛查作为一种有效的方法被用来检测癌前病变。医生通常通过内镜图像评估GIM的等级以预测患者患GC的风险。然而,从内镜图像中准确识别病变既耗时又费力。此外,医生经验和认知方法的不同可能会引入主观因素到病变评估中。这种观察者间的差异(Bolte和Jahnke,2007年)在不同医生评估同一样本时可能导致诊断错误。
人工智能(AI)的最新进展证明了深度学习算法在辅助诊断系统中的有效性(Gridach,2021年;Tang等人,2022年)。然而,这些算法需要大量的标注数据集进行预训练,以确保在多种医疗场景下的泛化能力(Dosovitskiy等人,2020年;Zhang等人,2024年;Liu等人,2021年)。由于图像质量不明确以及标注者的专业水平、经验和感知的差异,获取大规模的GIM分级标注数据面临重大挑战。原型网络(Snell等人,2017年)是一种经典的基于度量的少样本学习方法,它在嵌入空间中构建类别原型。这种策略有助于聚合相似样本的特征,并通过距离度量进行分类。每个原型是相应支持集样本的平均特征向量。然后,对于给定的查询样本,计算其与所有类别原型的欧几里得距离,并将样本分配给最接近的原型所属的类别。先前的研究(Ren等人,2018年)已经证明了原型网络可以从有限的标注样本中学习到原型。
然而,由于以下挑战,GIM分级尚未从原型网络中受益:1)自然图像与内镜图像之间存在显著领域差异。内镜图像是在狭窄的消化道中拍摄的,其可变的拍摄角度导致GIM病变的采样粒度不同,这些病变具有高度复杂性和分辨率变化。基于监督学习的特征编码器由于内镜图像标注不足而无法学习到稳健的多尺度特征。现有的原型网络错误地通过全局粗粒度特征来寻找类别间的区别,限制了其在内镜图像场景中的泛化能力。2)病变的可变性使得理解其特征特别复杂,而在不寻常的医疗案例中,信息往往对于全面掌握病变特征至关重要(Ermakoff,2014年)。诊断不寻常医疗案例的过程常用于帮助实习医生识别疾病的特征(Wheeler等人,2021年)。Wheeler等人通过分析不寻常的医疗案例,识别了对治疗反应异常的患者的癌症分子特征。然而,之前的原型网络仅基于计算出的类别均值构建决策边界,而忽略了不寻常医疗案例中的潜在类别信息。这导致搜索空间过于集中,模型的性能过度依赖于少样本事件的随机性。如图2(a)所示,位于多个类别交界处的查询样本会在之前的原型网络中被错误分类,因为它们与其他类别中心的距离更近。
为了解决上述挑战,我们提出了一种自监督的异常原型网络(Swin-EPN)用于GIM的少样本分级。我们的Swin-EPN包括两个阶段:自监督预训练和少样本学习。首先,使用自监督学习策略在大型未标注数据集上预训练主干网络,使其能够在无需手动标注的情况下学习通用的视觉表示。随后,受到医生利用不寻常医疗案例获取丰富诊断知识的启发,我们提出了一种异常原型网络(EPN),利用异常样本来细化类别原型并提高少样本分类的准确性(参见第4.3节)。需要注意的是,“异常”并不是预先分配的标签;相反,这些样本是根据它们在每次少样本学习过程中的与其他支持样本的关系动态识别的。如图1所示,为了提取高质量的多尺度特征,Swin-EPN采用了swin变压器作为嵌入层。此外,还提出了一个异常原型挖掘(EPM)模块。通过定义计算异常分数的方法,我们识别出异常原型以挖掘潜在的类别信息,然后利用这些信息来指导类别决策边界的划分。这种机制通过学习自适应权重来整合类别中心和异常案例的潜在类别信息,从而改善了片面的分类决策边界选择过程。如图2(b)所示,与原始原型网络相比,Swin-EPN可以扩展搜索空间并提高整体的泛化能力。
我们的主要贡献可以总结如下:
1.我们提出了一种新颖的自监督异常原型网络,用于GIM的少样本分级,提高了诊断的一致性,并可能简化胃癌的早期检测过程。
2.我们提出了一种自监督的预训练策略,用于swin变压器编码器,采用三个定制的pretext任务来学习内镜图像的先验知识。这种策略减轻了由于内镜数据有限而导致的过拟合问题,使模型能够提取捕捉内镜图像病变内在模式的多尺度特征。
3.我们提出了一种利用异常案例指导模型学习的异常原型挖掘模块。异常分数量化了与异常样本的偏离程度,潜在的异常原型被更新并存储在EPB中。异常原型的潜在类别信息被整合到类别原型中,以减轻决策边界片面外推的问题。
部分片段
内镜图像辅助诊断系统
基于医学成像的病变检测系统为临床诊断带来了极大的便利。许多研究人员关注将深度学习算法应用于内镜辅助的疾病筛查(Muhammad等人,2020年)。Yan等人(2020年)提出了一种改进的卷积神经网络(CNN),该网络在ImageNet(Russakovsky等人,2015年)上预训练,并将其参数转移到内镜图像上,用于智能诊断GIM。
问题定义
Swin-EPN结合了自监督学习(SSL)和少样本学习(FSL)的范式。SSL阶段包括专门设计的pretext任务,使Swin Transformer编码器能够学习内在数据表示并获得先验知识。在随后的FSL阶段,原始数据集被划分为支持集和查询集;支持集用于封装特定类别的特征,而查询集用于性能评估。
概述
本节详细介绍了Swin-EPN的组成部分及其逻辑关系。如图3所示,Swin-EPN的结构主要由三个模块组成。具体来说,swin变压器编码器通过三个定制的自监督pretext任务进行预训练,并作为模型的嵌入层来提取内镜图像的多尺度特征。为了挖掘异常原型,EPM利用嵌入特征。根据它们的异常程度筛选潜在原型
数据集
Swin-EPN的有效性在一家当地三级甲等医院的私有GIM数据集(QHGIM)上进行了评估。此外,为了验证Swin-EPN的算法有效性和其在通用场景下的泛化能力,还在miniImagenet数据集(Vinyals等人,2016年)和tieredImageNet数据集(Ren等人,2018年)上进行了实验。这三个数据集简要描述如下:
结论与未来工作
在本文中,我们提出了一种自监督的异常原型网络(Swin-EPN)用于胃肠化生的少样本分级。我们引入了三个自监督pretext任务来预训练swin变压器,该变压器作为Swin-EPN的嵌入层。这种预训练策略减轻了由于内镜数据有限而导致的过拟合问题,使模型能够提取捕捉内镜图像病变内在模式的多尺度表示。此外,我们
CRediT作者贡献声明
陈轩驰:概念化、方法论、写作——原始草稿、写作——审阅与编辑、软件。徐永辉:概念化、方法论、写作——审阅与编辑。李珍:数据管理、验证。张明哲:方法论、研究。于涵:方法论、写作——审阅与编辑。崔丽珍:方法论、写作——审阅与编辑。郑向伟:概念化、写作——审阅与编辑、监督、资金获取。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:郑向伟报告获得了中国山东省关键研发计划(重大科技创新项目)的财政支持。郑向伟报告获得了中国山东省关键研发计划的财政支持。郑向伟报告获得了自然科学基金会的财政支持。