编辑推荐:
GE-ViP通过整合语义与外观过滤、视觉Transformer特征提取、TriFusion-Planar图构建及边缘感知GNN,实现高效可解释的弱监督全切片图像分类,验证其在多癌症队列中的有效性。
Maisha Rahman|Jawad Ibn Ahad|Md.Mehedi Hassan|Golam Moursalin|Sifat Momen
摘要 全幅切片图像(WSIs)为癌症诊断提供了丰富的结构细节,但由于其千兆像素的规模以及缺乏像素级别的注释,自动化分析变得具有挑战性。弱监督学习使得无需详尽的手动标注即可进行切片级别的训练。然而,许多基于卷积神经网络(CNN)和多实例学习(MIL)的流程独立处理图像块,忽略了空间结构;而现有的基于图的方法通常依赖于大型、静态的图,这些图难以扩展且对噪声敏感。我们引入了GE-ViP ,这是一种轻量级的图增强视觉流程 ,旨在通过精心整合的工作流程克服这些限制。GE-ViP首先使用Segment Anything Model(SAM)派生的组织掩膜、基于熵的纹理度量以及与染色相关的线索来选择具有诊断意义的组织区域,有效去除了背景区域和低信息量的图像块。然后,视觉变换器(Vision Transformer)对这些选定的图像块进行编码,以捕获细粒度的细胞特征和更广泛的组织模式。接下来,使用紧凑的TriFusion-Planar 图将图像块连接起来,该图整合了空间邻近性、视觉相似性和语义关系,从而产生连贯的组织结构表示。在弱监督下,边缘条件化的图神经网络(GNN)处理这个图以生成切片级别的预测。与将图像块选择、特征提取和图构建视为独立阶段的先前流程不同,GE-VI P将这些组件统一到一个框架中。这种设计提高了效率、鲁棒性和可解释性,使得能够清晰地可视化有影响力的图像块和组织相互作用,并通过GraphLIME提供特征级别的解释。在多个癌症队列中的广泛评估表明,GE-VI P始终能够提供准确、稳定且可解释的预测,为计算病理学提供了一个实用且可扩展的解决方案。
引言 组织病理学分析[1]是癌症诊断的关键步骤,病理学家在显微镜下观察薄切片组织。这种手动过程虽然有效,但速度慢、主观性强且难以扩展。虽然传统显微镜可以检查整个肿瘤切片,但它不便于进行大规模、可复制的分析或在不同队列之间进行定量建模。全幅切片成像(WSI)[2]将玻璃切片数字化为千兆像素图像,从而实现高效存储、远程访问、可复制性以及大规模应用计算方法。WSI还通过提供标准化的组织形态数字表示[3],支持机器学习模型用于结果预测和生物标志物识别的发展。然而,由于观察者之间的差异以及专家病理学家的短缺,手动解释这些千兆像素的WSI仍然具有挑战性。机器学习(ML)模型可以帮助提高一致性并减少工作量[4],[5]。但构建这样的可靠模型通常需要密集的像素级别注释,这在WSI规模上既昂贵又不切实际[6],[7],[8]。虽然这一挑战通常通过在切片级别上的监督下使用MIL来解决,但现有的流程往往将图像块选择、特征提取和上下文聚合视为独立阶段。为了解决这些限制,我们提出了GE-ViP ,这是一种紧凑、可解释且资源高效的WSI分类流程,它将语义感知的图像块选择、特征提取和基于图的上下文推理整合到一个端到端的框架中。GE-VI P旨在进行弱监督下的切片级别分类,并提供可解释的区域高亮,而不是显式的肿瘤检测或精确的病变定位。特别是,GE-VI P引入了TriFusion–Planar图,该图结合了互补的邻域类型,使得在千兆像素组织病理学数据上进行高效且稳健的建模成为可能。
现有的弱监督WSI方法依赖于包括染色标准化、细胞核分割和手工制作的纹理描述符在内的预处理流程[9],[10],[11]。虽然染色标准化旨在减少切片之间的颜色差异,但多项研究表明,这类手工制作的流程仍然对残余染色差异、扫描仪差异和形态异质性敏感,尤其是在不同队列和机构之间[12],[13]。后来的卷积神经网络(CNN)模型改进了像素级别表示的学习[14],[15],但它们有限的感受野限制了它们能够捕获的组织级别上下文的数量。最近基于变换器和GNN的方法用于弱监督WSI分析,明确地将切片建模为像素级别实例的集合或图,从而能够推理长距离依赖性和空间结构[16],[17],[18],[19]。尽管在切片级别上有效,但这些基于实例的变换器和GNN模型仍然面临重要挑战。随着图像块实例数量的增加,基于变换器的MIL流程往往在计算上变得昂贵,使得它们难以扩展到千兆像素WSI。此外,一些报告的改进依赖于可能因图像块或患者级别泄漏而夸大性能的评估协议。最后,许多端到端的WSI级别变换器和图模型仍然很庞大,缺乏可靠的概率校准和透明的可解释性等实用属性,这对于临床应用至关重要[20],[21],[22],[23]。
我们提出的GE-ViP 是一种资源高效且可解释的弱监督WSI分类流程,主要包括三个阶段。首先,基于语义和外观的过滤步骤选择具有诊断意义的组织图像块,同时去除背景。其次,TriFusion–Planar k-NN模块构建了一个轻量级的图,整合了空间布局、视觉嵌入和语义线索。第三,仅使用切片级别标签训练边缘条件化的GNN,使模型能够在没有密集注释的情况下学习组织结构。为了提高可解释性,我们使用GraphLIME[24]来估计图级别特征的重要性,并探索切片级别、图像块级别和子图级别的显著性[25],以突出每个预测背后的组织区域和相互作用。与处理所有图像块并引入噪声或高内存成本的基于变换器的MIL和大型静态图流程不同,GE-VI P结合了精确的图像块过滤、紧凑的图构建和边缘感知的聚合,从而保持高效、稳定且易于解释。
本研究的主要贡献包括: • 高效的弱监督流程: GE-ViP使用基本的语义和外观线索选择有意义的组织图像块,减少噪声并将计算集中在相关区域。
• 具有边缘感知GNN的TriFusion-Planar图: 我们构建了一个紧凑的 -NN图,结合了空间布局、视觉特征和语义线索,并仅使用切片级别标签训练边缘条件化的GNN来学习组织结构,而无需详细注释。
• 多级可解释性: 我们使用GraphLIME、切片级别和图像块级别的显著性、子图可视化以及T-SNE特征图来突出重要的组织区域,并提供透明的、与病理学对齐的解释。
为了指导读者,本文的其余部分组织如下。第2节回顾了关于弱监督学习、基于视觉变换器的特征提取和WSI的图建模的先前工作。第3节正式提出了GE-ViP流程,包括图像块选择、ViT特征提取、TriFusion–Planar图构建和边缘条件化聚合。第4节描述了数据集、患者级别分割策略、预处理步骤和实现细节。第5节报告了分类性能、消融研究以及与现有MIL和基于图的模型的比较。第6节提供了多个级别的模型解释,包括图像块级别、图级别和特征级别的解释。第7节讨论了GE-ViP的更广泛影响、优势和局限性。最后,第8节总结了研究并概述了未来的研究方向。
小节片段 基于图的WSI建模 基于图的方法在计算病理学中成为一个有影响力的方向,因为它们能够模拟WSI中的细粒度组织外观和更高层次的空间组织。在这些方法中,图像块或细胞被表示为节点,而边则编码空间或语义关系,从而能够对组织结构进行关系推理。早期的GNN,如GCNs[19]和GATs[26]引入了基础的消息传递和注意力机制,但
方法论 我们将WSI建模为一个高分辨率的张量 。从这个切片中,我们提取了一组图像块 ,每个图像块 也与元数据 相关联。这里, 表示图像块中心的空间坐标, 提供语义分数, 包含用于过滤低信息量区域的简单外观特征,如熵或饱和度。使用这些过滤和增强的图像块,我们构建了一个图 ,其中每个节点 对应于图像块 ,并携带一个节点特征向量
实验设置 本节描述了用于评估GE-ViP的实验设计。我们概述了如何将WSI处理成图表示,总结了数据集,详细介绍了实现流程,并展示了用于评估的指标。目标是提供关于模型如何训练和测试的清晰且可复制的描述。
结果与分析 本节展示了GE-VIP在TCGA-ESCA、TCGA-KIDNEY和TCGA-LUNG队列中对癌症类型和癌症阶段的预测性能。所有结果都在表3和表4中报告,并与一系列MIL和基于图的基线进行了比较。
模型解释 在本节中,我们提供了GE-VIP的多级解释。我们强调,这里提供的视觉解释旨在说明在弱监督下的模型可解释性,而不是作为定量肿瘤定位或检测结果。GE-VI P仅使用切片级别标签进行训练,其显著性图并未优化以产生精确的病变边界或检测输出,为此需要像素或区域级别的真实注释
讨论 由于WSI的极端规模、切片内的显著异质性以及缺乏区域级别注释,弱监督WSI分类存在固有的挑战。许多现有方法通过在多实例学习(MIL)框架内独立处理图像块[4],[6]或使用基于变换器或注意力重的聚合机制来建模全局上下文[89],[90]来应对这些挑战。虽然有效,但这些方法通常会带来高昂的成本结论 本研究提出了GE-VI P,这是一种新颖的图增强视觉流程,用于弱监督WSI分类。该框架结合了三个关键思想:仅选择最具信息量的组织区域,提取表达力强的基于变换器的特征,并通过紧凑的图结构建模空间和形态关系。这种设计使GE-VI P能够专注于切片中具有临床意义的区域,同时捕捉这些区域在更广泛组织背景中的相互作用。
CRediT作者贡献声明 Maisha Rahman: 写作 – 审稿与编辑、撰写原始草稿、可视化、验证、方法论、调查、形式分析、数据整理、概念化。Jawad Ibn Ahad: 写作 – 审稿与编辑、撰写原始草稿、验证、资源管理、方法论、调查、概念化。Md. Mehedi Hassan: 可视化、软件开发、形式分析、数据整理、概念化。Golam Moursalin: 可视化、软件开发、形式分析、概念化。Sifat Momen:
利益冲突声明 作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
致谢 作者衷心感谢North South University (NSU)的机器智能实验室(MILAB)为这项工作提供的计算设施。
Maisha Rahman 于2025年从孟加拉国达卡的North South University (NSU)获得计算机科学与工程学士学位,以3.95/4.00的GPA以优异成绩毕业。她目前是NSU机器智能实验室(MILAB)的研究实习生。她的本科论文专注于用于弱监督组织病理学切片分析的图增强视觉流程,目前正在《Neurocomputing》期刊上接受审稿。她撰写并合著了多篇研究论文