《Interdisciplinary Medicine》:Deep learning-based prediction of cervical lymph node metastasis and genetic alterations from whole-slide images of thyroid cancer frozen sections
编辑推荐:
甲状腺癌术中颈部淋巴结转移(CLNM)和基因突变(BRAFV600E/TERTp)的精准评估,对个体化手术及预后管理至关重要。然而,现有检测方法存在局限。本研究利用深度学习(DL)模型,基于多中心的甲状腺癌(TC)术中冰冻切片全切片图像(WSI),成功预测CLNM和BRAFV600E/TERTp突变,模型在内部及外部验证中展现出高准确性和可解释性。该研究为术中快速、精准的辅助决策提供了新工具,有望减少不必要的手术操作,并为传统的分子检测提供快速替代方案。
甲状腺癌是全球最常见的内分泌恶性肿瘤,2022年其发病率在全球癌症中位列第七。其治疗方案的制定,特别是手术范围的选择,高度依赖于对患者病情的精准评估,尤其是颈部淋巴结转移(Cervical Lymph Node Metastasis, CLNM)情况和关键的基因突变状态,如BRAFV600E和端粒酶逆转录酶启动子(TERT promoter, TERTp)突变。CLNM是影响患者长期生存和复发的重要预后因素,而BRAFV600E突变与肿瘤复发、转移及对放射性碘治疗抵抗的风险增加相关,TERTp突变则预示肿瘤进展和不良预后。然而,目前术前的评估手段各有局限:高分辨率颈部超声和计算机断层扫描对微转移灶的敏感性有限;细针穿刺活检(Fine-Needle Aspiration Biopsy, FNAB)用于淋巴结评估则受限于严格的标准和侵入性。而对于基因突变的检测,虽然可以通过聚合酶链反应(Polymerase Chain Reaction, PCR)或二代测序(Next-Generation Sequencing, NGS)等技术在FNAB样本上进行,但面临取样不足、成本高、耗时等问题,难以在术中提供实时指导。因此,临床亟需一种能够在术中实时、可靠且经济地评估CLNM和关键基因突变的工具,以支持精准的手术决策。这项发表在《Interdisciplinary Medicine》上的研究,正是为了应对这一挑战。
为了回答上述问题,研究人员开展了一项基于深度学习(Deep Learning, DL)的多中心回顾性研究。他们从中国五家三甲医院收集了2176名甲状腺癌患者的2499张术中冰冻切片全切片图像(Whole-Slide Image, WSI),旨在开发一个能够从冰冻切片图像中同时预测CLNM状态、BRAFV600E和TERTp突变的深度学习框架。该研究采用了以DINOv2为基础的迁移学习特征提取器,并利用基于注意力的多实例学习(Multiple Instance Learning, MIL)分类器CLAM进行模型训练。针对TERTp突变样本稀少的难题,研究引入了基于StyleGAN3的生成对抗网络(Generative Adversarial Network, GAN)进行数据增强。模型在内部数据集和多个外部独立数据集上进行了全面验证,并通过注意力热图和Leiden聚类等方法对模型的可解释性进行了深入分析。
主要技术方法概述:
研究团队从五个医疗中心收集了2176名患者的2499张甲状腺癌术中冰冻切片WSI构建数据集。图像预处理包括组织分割、采用Vahadane-GPU算法进行染色归一化,并切割成224×224像素的图像块。研究核心是构建一个混合深度学习框架:首先,基于在大量病理图像上预训练的UNI基础模型,利用DINOv2进行迁移学习,得到一个专用于甲状腺癌冰冻切片的特征提取模型,无需像素级标注。然后,使用仅需患者层面标签的CLAM框架(一种注意力多实例学习模型)来训练三个独立的预测模型,分别用于CLNM、BRAFV600E和TERTp突变的预测。针对TERTp阳性样本稀少的问题,额外采用了StyleGAN3生成合成图像以平衡数据。模型性能通过受试者工作特征曲线下面积(Area Under the ROC Curve, AUROC)等多个指标在内部和外部验证集上进行评估。
研究结果
3.1 临床特征
本研究系统性分析了多中心甲状腺癌队列中CLNM的分布模式和基因突变谱。最终共纳入来自五个医疗机构的2176名患者(2499张WSI)。除一个中心(AMUH)外,所有数据集均用于CLNM预测(1929名患者,2118张切片)。经过筛选的亚组分别用于突变分析:四个中心的1783名患者(1965张WSI)用于BRAFV600E突变预测,两个中心的1184名患者(1345张WSI)用于TERTp突变预测。各队列中病理证实的淋巴结阳性率在44.6%至82.8%之间,BRAFV600E突变率在69.5%至94.5%之间,而TERTp突变在NFYH和AMUH队列中的发生率分别为11.0%和3.2%。
3.2 定性评估表明迁移学习模型的特征提取性能得到增强
通过主成分分析(Principal Component Analysis, PCA)对特征向量进行可视化发现,迁移学习模型生成的特征嵌入在潜在空间中形成了与不同甲状腺组织结构相对应的清晰聚类。与从头训练的初步实验模型相比,迁移学习模型对冰冻切片特有的细微形态特征表现出更优的判别性能。利用Leiden聚类和UMAP可视化的综合分析表明,模型能够识别出具有生物学意义的组织类型集群,如肿瘤、间质、滤泡结构和免疫细胞,且这些集群在不同中心的样本中呈现出一致的模式,证明了模型特征提取的泛化能力。
3.3 在独立测试集上验证预测模型
- •
CLNM预测模型:在内部和外部验证中,基于CLAM的模型在WSI层面和患者层面的预测性能均持续优于另一种注意力多实例学习模型ABMIL。在内部测试中,患者层面AUROC达到0.918。在三个外部验证队列中,患者层面AUROC介于0.803至0.885之间,表现出强大的泛化能力。与使用其他通用病理基础模型(UNI、CTransPath、Phikon)特征提取器的基线模型相比,本研究的迁移学习模型在多数情况下表现更优。
- •
BRAFV600E突变预测模型:尽管各数据集存在类别不平衡,该模型在四个独立验证队列中均表现出优秀的性能,AUROC值在0.750至0.814之间。其精确率-召回率曲线下面积(Area Under the Precision-Recall Curve, AUPRC)显著高于各数据集的基线阳性率,显示出强大的特征判别能力。
- •
TERTp突变预测模型:在内部测试集和外部AMUH队列中,未使用数据增强的模型AUROC分别为0.782和0.724。采用StyleGAN3进行数据增强后,性能略有提升,AUROC分别增至0.804和0.732,但差异无统计学显著性。该模型成功建立了一个针对罕见遗传变异的稳健预测器。
3.4 注意力热图识别预测模型的判别性组织病理学特征
注意力热图揭示了训练后模型的决策逻辑。对于CLNM阳性预测,高注意力区域持续定位于肿瘤浸润前沿,即核密集区域和邻近的肿瘤-间质界面,这些区域显示了肿瘤细胞的侵袭性模式。对于BRAFV600E突变阳性预测,高注意力区域几乎完全集中在肿瘤区域内,表现出明显的核多形性、细胞极性丧失和核重叠等特征。TERTp突变阳性预测的机制与之类似,高注意力区域与肿瘤细胞特定的形态特征相关,如细胞体积增大、核仁明显、核质比增高和染色质浓缩导致的核深染。
3.5 Leiden聚类可视化测试数据集中图像块级别的特征分布
通过HPC-atlas(组织形态表型图谱)管道对预测模型学习到的特征空间进行分析。对于CLNM预测模型,高注意力图像块被分为肿瘤、滤泡和间质三类,其中滤泡块通常表现出高核密度,而肿瘤区域则包含混合的间质或滤泡成分,这与注意力热图的发现基本一致。对于BRAFV600E和TERTp突变预测模型,高注意力图像块则高度集中于肿瘤区域,其形态特征和空间分布与注意力热图识别的病理特征直接对应。
研究结论与意义
本研究建立了一个端到端的深度学习管道,首次实现了从多中心、大规模的甲状腺癌术中冰冻切片中同时预测CLNM、BRAFV600E和TERTp突变。其中,CLNM分类器的性能超越了现有方法,而基因突变预测模型则是该临床背景下的首次报道。
该研究的核心意义在于为甲状腺癌的精准外科治疗提供了实时、高效且低成本的决策支持工具。通过将深度学习模型无缝嵌入标准手术流程,在冰冻切片制片完成后,可在短时间内生成关于淋巴结转移和关键基因突变的AI报告,与常规病理报告一同实时反馈给手术室,指导手术范围(如是否行预防性淋巴结清扫、选择腺叶切除还是全甲状腺切除)的精准决策。这不仅有望减少不必要的手术操作及相关并发症,还能为术后复发风险评估和个性化管理提供依据。
此外,研究通过迁移学习优化了特征提取模型,减少了对精细标注的依赖,降低了临床应用门槛。注意力热图和聚类分析增强了模型的可解释性,揭示了模型决策所依据的生物学相关组织病理学特征,增强了临床医生的信任度。
尽管存在跨中心性能差异、对罕见突变亚型预测的泛化性有待提高等局限性,但这项研究整合了人工智能与术中病理分析,为甲状腺癌的精准手术决策奠定了坚实基础,代表了计算病理学在实时临床辅助决策领域的重要进展。