《npj Precision Oncology》:Deep learning inference of cell type-specific gene expression from breast tumor histopathology
编辑推荐:
为解决乳腺癌精准肿瘤学研究中细胞类型特异性基因表达数据获取成本高、耗时长的难题,研究人员开发了深度学习框架SLIDE-EX。该研究直接从常规乳腺癌全切片图像(WSI)预测细胞类型特异性基因表达和丰度,结果表明SLIDE-EX能够稳健推断数千个基因在9种不同细胞类型中的表达,其推断的细胞类型特异性表达谱在两个独立队列中能更准确地预测化疗反应。这项研究为低成本、快速表征肿瘤微环境开辟了新途径。
在精准医疗的时代,深入了解肿瘤的“内心世界”——肿瘤微环境,对于制定有效的治疗策略至关重要。肿瘤并非一团同质的细胞,它更像一个复杂的“微型社会”,其中不仅包含疯狂增殖的癌细胞,还充斥着免疫细胞、成纤维细胞、血管等多种成分。这些细胞之间如何“交流”,各自扮演什么角色,决定了肿瘤的恶性程度以及对治疗的反应。要想解码这个复杂的生态系统,关键在于获取不同细胞类型的基因表达谱,即了解每种细胞正在“生产”哪些蛋白质,从而揭示其功能状态。
然而,获取这样精细的基因表达地图面临巨大挑战。黄金标准技术——单细胞RNA测序(scRNA-seq)虽然能提供单细胞分辨率的表达数据,但成本高昂、操作复杂,难以在大型患者队列中广泛应用。另一种折中方案是“去卷积”分析,即从混合了所有细胞RNA的“批量”(bulk)RNA-seq数据中,通过计算推断出不同细胞类型的表达贡献。这种方法虽然比单细胞测序便宜,但批量RNA-seq本身的成本和实验周期依然不菲,限制了其规模化应用。有没有一种方法,能绕过繁琐的分子实验,直接从临床常规检查中“读取”这些宝贵的生物学信息呢?
发表在《npj Precision Oncology》上的一项研究给出了令人振奋的答案。该研究团队将目光投向了临床病理诊断中最基础、最普及的材料——苏木精-伊红(H&E)染色的组织病理学全切片图像(Whole Slide Image, WSI)。这些图像是诊断癌症的基石,蕴含了关于肿瘤形态、结构和细胞组成的丰富视觉信息。研究人员大胆设想:能否训练一个深度学习模型,让AI学会从病理图像的视觉模式中,直接解读出不同细胞类型的基因活动?基于此,他们开发了名为SLIDE-EX(SLide-based Inference of DEconvolved gene EXpression)的深度学习框架。
研究人员开展这项研究,旨在利用去卷积后的批量RNA-seq数据作为训练标签,直接从常规的乳腺癌组织病理学全切片图像预测细胞类型特异性的基因表达和细胞丰度。该方法的核心是建立病理图像特征与分子表达谱之间的映射关系。研究团队在TCGA乳腺癌队列上训练了SLIDE-EX模型,并通过交叉验证和一个包含160个病例的独立队列对其进行了测试。
为开展此研究,作者主要应用了以下几个关键技术方法:首先,利用TCGA等队列的乳腺癌组织病理全切片图像(WSI)作为模型输入。其次,采用去卷积算法(如CIBERSORTx)处理匹配的批量RNA-seq数据,以获取细胞类型特异性基因表达谱,并以此作为训练模型的“真实标签”。最后,构建并训练深度学习框架(SLIDE-EX),该框架能够从WSI中提取视觉特征,并映射到细胞类型特异性表达空间,从而实现从图像到分子表达的预测。
研究结果
SLIDE-EX robustly infers the expression of thousands of genes across 9 distinct cell types, performing best for cancer-associated fibroblasts and cancer cells.
SLIDE-EX能够稳健预测9种不同细胞类型中数千个基因的表达,其中对癌症相关成纤维细胞(CAF)和癌细胞(cancer cells)的预测性能最佳。这表明深度学习模型能够从病理图像中捕获到与这两种关键细胞成分密切相关的独特形态学特征。
The abundance of these two cell types could also be robustly predicted, together with that of myeloid cells.
除了基因表达,这两种细胞(CAF和癌细胞)的丰度,连同髓系细胞(myeloid cells)的丰度,也能被稳健地预测。这说明模型不仅学习了基因表达模式,也习得了与细胞数量比例相关的图像特征。
The robustly predicted genes reflect key biological functions of their respective cell types.
被SLIDE-EX稳健预测的基因反映了其各自细胞类型的关键生物学功能。例如,在癌症相关成纤维细胞中高预测准确性的基因与细胞外基质组织和胶原蛋白形成有关,而在癌细胞中则与细胞周期和增殖相关。这证实了模型预测结果的生物学合理性。
From a translational perspective, the inferred cell-type-specific expression profiles predict chemotherapy response more accurately than models based on direct prediction from the slides or from the inferred bulk expression in two independent cohorts.
从转化医学的角度看,在两个独立患者队列中,基于SLIDE-EX推断出的细胞类型特异性表达谱所构建的模型,在预测患者对化疗的疗效反应方面,其准确性超过了直接基于病理图像预测反应的模型,也超过了基于推断出的整体(bulk)表达谱所构建的模型。这凸显了获取细胞类型特异性信息对于临床预测的重要价值。
结论与讨论
本研究成功开发并验证了SLIDE-EX,这是一个能够直接从常规乳腺癌H&E染色病理切片预测细胞类型特异性基因表达和丰度的深度学习框架。该研究证明,病理图像中蕴含的丰富形态学信息,与肿瘤微环境在分子层面的功能状态存在深刻关联,这种关联可以通过深度学习模型进行解码。
SLIDE-EX的重要意义在于它提供了一种全新的、极具潜力的研究范式。它将成本低廉、获取方便、临床普及的病理图像,转化为一张张动态的、细胞类型分辨率的“分子表达图谱”。这极大地降低了大规模、低成本研究肿瘤微环境的门槛,有望“民主化”肿瘤微环境的表征。未来,该方法可扩展应用于其他癌症类型,从海量的历史病理切片档案中挖掘生物学洞见,助力发现新的生物标志物、预测治疗反应以及理解耐药机制,最终推动精准肿瘤学的发展。