《Frontiers in Bioinformatics》:Integrating trajectory inference and self-explainable predictive models to explore cell state transitions in breast cancer at single-cell resolution
编辑推荐:
本文通过单细胞RNA测序(scRNA-seq)对浸润性导管乳腺癌样本进行分析,整合了伪时间(pseudotime)轨迹推断与可解释的分类决策树模型。该研究不仅表征了肿瘤微环境(TME)中的异质性细胞群,还深入揭示了细胞状态转变(如上皮-间质转化EMT)过程中的关键驱动基因及其表达阈值,为理解肿瘤进展的分子机制、发现新的预后标志物和潜在治疗靶点提供了透明、可解释的分析框架。
本研究利用单细胞RNA测序(scRNA-seq)技术,对一份人浸润性导管乳腺癌样本进行了深度分析,旨在从单细胞分辨率解析肿瘤及其微环境的异质性,并探索驱动细胞状态动态转变的关键分子。
数据生成与质量控制
研究首先从一个48岁女性患者的浸润性导管癌组织中制备了单细胞悬液,并使用10X Genomics Chromium平台构建了单细胞转录组文库。在数据预处理阶段,经过严格的质量控制(Quality Control, QC),包括过滤低质量细胞、去除高线粒体基因占比的细胞以及检测和移除潜在的多重体,最终保留了5,834个高质量细胞和11,747个基因用于下游分析。
细胞类型鉴定与肿瘤微环境(TME)解析
通过对高质量单细胞转录组进行无监督聚类,研究共识别出六个转录组学上不同的细胞簇。利用已知的标记基因和自动化工具SCSA进行细胞类型注释,这些细胞簇被分别鉴定为:干细胞(Cluster 0, 3,006个细胞)、S100A8/A9高表达炎症/应激细胞(Cluster 1, 1,522个细胞)、上皮细胞(Cluster 2, 649个细胞)、间充质干细胞(Cluster 3和4,分别为484个和139个细胞),以及一个身份不明确的“未知”细胞群(Cluster 5, 34个细胞)。干细胞高表达MYC、CD44、EPCAM、ITGA6和TP63等干性标志物。上皮细胞则特异性表达CDH1、CLDN1、MUC1、KRT7和OCLN,这些基因是维持上皮细胞完整性和极性的关键。相反,间充质细胞的特征是表达FN1、S100A4、VIM、COL1A1/2和FAP等与细胞外基质(ECM)重塑和上皮-间质转化(EMT)相关的基因。
重构细胞分化轨迹
为了探索细胞状态的动态演变,研究采用了基于图的伪时间轨迹推断方法,即分区图抽象(Partition-based Graph Abstraction, PAGA)。分析将身份明确的Cluster 0、2、3、4纳入计算,并将干细胞(Cluster 0)设定为轨迹的起点(根节点)。结果显示,存在一条清晰的从干细胞到上皮细胞,再进一步分化为两个间充质细胞亚群(Cluster 3和4)的进展路径。这一发现证实,EMT在乳腺癌中并非简单的二元开关,而是一个包含多种中间状态的、连续而复杂的渐变过程。
关联轨迹与基因洞察的可解释机器学习
研究的核心创新在于将轨迹推断结果与可解释的决策树模型相结合,以揭示驱动细胞状态转变的具体基因及其表达阈值。研究首先训练了一个包含所有细胞簇的全局分类决策树模型,其根节点分裂基因为OSTC,表明该基因在区分最广泛的细胞状态中起着核心作用,模型整体准确率达到82%。
更重要的是,研究根据伪时间推断的路径(0→2→3→4),为每个相邻的细胞簇对分别训练了二元决策树模型,从而识别出驱动每一步转变的关键基因规则:
- •
从干细胞到上皮细胞的转变(0→2):主要由FABP5的升高来驱动。当FABP5表达>1.203时,细胞倾向于被分类为上皮细胞(Cluster 2)。其他相关基因包括PI3、PERP、CRYAB和SPINK6。
- •
从上皮细胞到间充质干细胞的转变(2→3):COL1A2是首要的决定性基因。COL1A2表达>0.572是区分间充质细胞(Cluster 3)的关键。同时,KRT16的表达下降也是此转变的特征之一。
- •
在间充质细胞亚型间的转变(3→4):长链非编码RNA NEAT1的表达降低(≤-0.762)是区分晚期间充质状态(Cluster 4)的主要特征。
这些决策规则以清晰的“if-then”逻辑呈现,例如“如果FABP5 > 1.203且PERP > 0.711且GJA1 ≤ 1.576,则预测为上皮细胞(Cluster 2)”,提供了高度透明和可生物学解读的见解。
关键基因表达模式验证
研究进一步通过特征重要性分析和差异表达检验验证了上述发现。在干细胞向上皮细胞转变中,FABP5、PI3、PERP、CRYAB和SPINK6在上皮细胞中显著上调。在上皮向间充质转变中,COL1A2、COL6A3、SPON2和DCN在间充质细胞中上调,而KRT16下调。在间充质细胞亚型间,NEAT1、COL6A3、FN1和STC2在更晚期的Cluster 4中下调,而YBX1上调。
多样本验证与通用性分析
为了验证分析流程的通用性,研究将该框架应用于一个来自文献的独立ER阳性乳腺癌scRNA-seq数据集(GSE248288)。经过同样的分析步骤,包括批次校正、细胞类型注释和轨迹推断,在该数据集中也成功识别出了上皮细胞向间充质细胞转变的轨迹。训练的决策树模型再次捕获了已知的EMT关键基因,如VIM、FN1和KRT18,同时也发现了如RASGRP2、ADTRP和AZGP1等潜在的区分性基因。交叉数据集评估表明,在一个数据集上训练的模型能够较好地分类另一个数据集中的细胞,证明了该方法的稳健性和跨数据集的通用性。
结论与展望
本研究展示了一种将高分辨率单细胞转录组学、伪时间轨迹推断与可解释机器学习相结合的强大分析框架。该框架不仅精细描绘了乳腺癌肿瘤微环境的细胞组成,更重要的是,以透明、基于规则的方式揭示了驱动细胞状态动态转变(特别是EMT)的关键基因及其精确的表达阈值。所识别出的基因,如FABP5、COL1A2、COL6A3和NEAT1,是潜在的预后生物标志物和新型治疗靶点。尽管本研究受限于单样本分析,但通过独立数据集的验证证明了其方法的普适性。这项工作为在精准肿瘤学背景下,理解肿瘤进化机制和开发个体化治疗策略提供了新的工具和见解。