《HUMAN MUTATION》:NDC80 as a Prognostic Biomarker: Insights From Single-Cell RNA Sequencing and Machine Learning in Lung Adenocarcinoma
编辑推荐:
肺腺癌(LUAD)预后差且免疫治疗应答率有限,亟需探索新的生物标志物与治疗靶点。本研究整合单细胞RNA测序与机器学习,系统筛选NKT细胞相关调控基因,构建预后模型,并鉴定出NDC80为关键基因。研究发现NDC80在LUAD中高表达,与不良预后、免疫细胞浸润及免疫检查点抑制剂应答相关,并通过体外实验验证其对肿瘤增殖与迁移的调控作用。该研究为LUAD的预后评估与免疫治疗提供了新的候选靶点。
肺癌是全球范围内发病率高、死亡率高的恶性肿瘤,其中非小细胞肺癌(NSCLC)占据绝大多数。肺腺癌(Lung Adenocarcinoma, LUAD)作为NSCLC的主要亚型,尽管近年来靶向治疗和以PD-1/PD-L1抑制剂为代表的免疫检查点抑制剂(Immune Checkpoint Inhibitors, ICIs)等治疗手段取得了进展,但晚期患者的5年总生存(Overall Survival, OS)率仍不足5%,且有相当一部分患者存在对免疫疗法的原发性或获得性耐药。因此,深入理解肿瘤免疫微环境的复杂性,并从中挖掘出能够准确预测患者预后、指导治疗决策的新型生物标志物,已成为当前临床与基础研究的关键方向。
肿瘤微环境(Tumor Microenvironment, TME)中的免疫细胞组成对患者的预后至关重要。NKT(Natural Killer T)细胞在肿瘤免疫监视中扮演着独特而关键的角色,但其在肺腺癌中的具体功能模式、调控网络及其作为预后或治疗靶点的潜力,研究仍相对有限且不够系统。与此同时,单细胞RNA测序(scRNA-seq)技术与机器学习算法的协同融合,为解析肿瘤微环境的异质性、识别关键驱动基因和构建精准预测模型提供了前所未有的强大工具。这项研究正是为了填补这一知识空白,旨在通过整合scRNA-seq与多种机器学习方法,系统性地探究NKT细胞在LUAD中的作用,并阐明其调控基因的功能意义,从而为改善LUAD患者的临床管理提供新的见解。
为了回答上述科学问题,研究人员开展了一项综合性研究。他们首先利用了来自GSE137912数据集的四个LUAD样本(GSM4094251, GSM4094252, GSM4094253, GSM4094254)的单细胞RNA测序数据,结合TCGA(The Cancer Genome Atlas)-LUAD队列的批量RNA测序(bulk RNA-seq)及临床信息。通过一系列生物信息学与机器学习分析,包括使用Seurat软件包进行单细胞数据分析与聚类、利用ConsensusClusterPlus R包进行一致性聚类、应用多种机器学习算法(如随机生存森林RSF)构建和验证预后模型,并进行功能富集分析(包括KEGG和GO分析)。在计算分析筛选出关键基因后,研究进一步在体外进行了功能验证,使用了人NSCLC细胞系A549和NCI-H1299,通过qRT-PCR、克隆形成实验、Transwell迁移与侵袭实验以及划痕实验,来确认目标基因的生物学功能。统计分析方法包括Mann-Whitney U检验和log-rank检验等。
3.1. 单细胞转录组分析鉴定NKT细胞中的关键调控基因
研究人员对四个LUAD样本进行了单细胞RNA测序分析。经过严格的质量控制,包括过滤低质量细胞(要求每个细胞至少含有200个RNA分子,不超过5000个,且线粒体RNA含量低于10%),并利用RPCA方法校正批次效应。通过差异表达分析,鉴定出10个在细胞样本间显著差异表达的基因。随后的单细胞聚类分析将样本分为六个不同的细胞群体,包括耗竭T细胞、T细胞、干细胞、NKT细胞、内皮细胞和纤毛细胞。这为后续聚焦NKT细胞相关基因奠定了基础。
3.2. NKT细胞相关基因的功能分析
通过计算各细胞亚群的平均表达值和通路活性评分,研究发现NKT细胞调控的基因与DNA复制、肿瘤增殖特征、G2M检查点和MYC靶点呈正相关,而与TGF-β和PI3K-AKT-mTOR信号通路呈负相关。功能注释显示,这些基因参与细胞周期调控、对肿瘤细胞的免疫应答、DNA复制前起始复合体组装和组蛋白激酶活性。通过整合TCGA-LUAD队列中的预后基因和肿瘤与癌旁组织的差异表达基因,研究人员进一步筛选出23个与NKT细胞相关的预后差异表达基因。对这些基因的功能富集分析表明,它们在细胞周期调控、细胞衰老和人T细胞白血病病毒1感染等通路中富集。
3.3. 聚类分析
基于NKT细胞相关基因的表达谱,研究人员对TCGA-LUAD队列进行了共识聚类分析,将患者分为两个亚群(Cluster 1和Cluster 2)。生存分析显示,Cluster 1患者的无进展生存期(PFS)和总生存期(OS)均显著差于Cluster 2患者。通路富集分析进一步揭示,Cluster 1显著富集于细胞周期、细胞衰老和p53信号通路等相关通路,而Cluster 2则富集于补体和凝血级联、酪氨酸代谢和紧密连接等通路。这从分子机制上解释了不同亚群患者预后的差异。
3.4. 与免疫治疗相关的NKT相关基因
研究发现,两个亚群在21种免疫细胞类型的浸润水平上存在显著差异。同时,免疫检查点相关基因(如IGSF8, ITPRIPL1, SIGLEC15, PDCD1LG2, PDCD1, LAG3, CD274)的表达在两个亚群间也存在显著差异。更重要的是,通过应用肿瘤免疫功能障碍和排除(Tumor Immune Dysfunction and Exclusion, TIDE)算法预测免疫检查点阻断(ICB)疗法的反应,结果显示Cluster 1的TIDE评分显著高于Cluster 2,提示Cluster 1患者对ICB治疗的反应可能更差。此外,两个亚群在年龄、性别、T分期和N分期等临床特征上也存在分布差异。
3.5. 使用机器学习算法构建预后预测模型
为了实现对LUAD患者的精准预后预测,研究人员利用多种机器学习算法构建了预后特征模型。在TCGA-LUAD训练集和GSE13213验证集上评估发现,基于随机生存森林(Random Survival Forest, RSF)算法构建的模型性能最佳,其曲线下面积(AUC)分别达到0.928和0.624。该模型包含了全部23个候选基因。随后,通过GOSemSim算法和随机森林算法对基因进行重要性排序,NDC80、CCNB1和PLK1等基因在两次排序中均位列前十。鉴于CCNB1和PLK1在肺癌预后中的作用已有报道,而NDC80的重要性突出但研究较少,因此研究选择NDC80进行深入探究。
3.6. NDC80在LUAD中的表达及其预后相关性
分析显示,NDC80在LUAD组织中的表达水平显著高于癌旁正常组织,且其表达量与T分期、N分期、年龄、性别和吸烟史等临床特征相关。受试者工作特征(ROC)曲线分析表明,NDC80是一个有效的LUAD诊断生物标志物。预后分析证实,NDC80高表达与LUAD患者更差的OS显著相关。利用人类蛋白质图谱数据库确定NDC80蛋白主要定位于细胞核。此外,在不同LUAD细胞系中也证实了NDC80的差异表达。
3.7. NDC80表达与LUAD中免疫细胞浸润的相关性
通过xCELL算法分析发现,NDC80高表达组与低表达组在多种免疫细胞(如NKT细胞、单核细胞、CD4+记忆T细胞、内皮细胞、肥大细胞)的浸润水平上存在显著差异。同时,多个免疫检查点分子(如IGSF8, ITPRIPL1, SIGLEC15, TIGIT, PDCD1LG2, PDCD1, LAG3, CTLA4, CD274)的表达也存在组间差异。TIDE算法预测显示,NDC80高表达组的TIDE评分显著更高,提示该组患者对ICB治疗的反应可能更差。相关性分析表明NKT细胞浸润水平与NDC80表达呈正相关。分子对接分析还显示,NDC80与LUAD常用化疗药物具有良好的结合亲和力。
3.8. 敲低NDC80抑制LUAD的进展
在A549和NCI-H1299细胞系中,通过qRT-PCR验证了siRNA的敲低效率。功能实验表明,敲低NDC80能显著抑制细胞的增殖能力(克隆形成实验)。此外,划痕实验和Transwell实验证实,敲低NDC80有效降低了A549和NCI-H1299细胞的迁移和侵袭能力。
综上所述,这项研究通过整合单细胞转录组学和机器学习,系统性地探索了NKT细胞在肺腺癌中的作用,并成功鉴定出NDC80作为一个具有重要临床意义的基因。研究表明,NDC80在LUAD中异常高表达,是患者不良预后的独立风险因素,并且与特定的免疫细胞浸润模式及较差的免疫检查点抑制剂治疗预测反应相关。深入的体外功能实验进一步证实,NDC80直接调控LUAD细胞的增殖和转移能力。这些发现共同确立了NDC80作为一个有前景的LUAD预后生物标志物和潜在的免疫治疗靶点。该研究不仅加深了我们对LUAD肿瘤微环境,特别是NKT细胞调控网络的理解,而且为开发基于NDC80的个体化预后评估工具和新型治疗策略提供了坚实的理论依据和实验证据。论文最终发表在国际期刊《HUMAN MUTATION》上。