《International Journal of Genomics》:Machine Learning Integration of Multiomics Data Reveals RNA Modification–Driven Inflammation–Immune Interplay and Predicts Immunotherapy Response in Cervical Cancer
编辑推荐:
本研究通过整合单细胞RNA测序(scRNA-seq)、空间转录组学(ST)和大规模转录组学数据,并应用包含101种算法的机器学习框架,构建了共识性机器学习来源的RNA甲基化特征(CMDRMS)。该研究不仅解析了RNA修饰(RM)在宫颈癌(CC)肿瘤微环境(TME)中炎症-免疫互作的调控角色,其核心基因NUDT3作为潜在的预后生物标志物和治疗靶点,为改善宫颈癌患者的精准预后与逆转免疫治疗耐药提供了新思路。
1. 引言
宫颈癌(CC)是全球女性癌症相关死亡的第四大常见原因。对于晚期患者,5年生存率仅约20%。靶向治疗、化疗,尤其是免疫治疗等非手术治疗正受到越来越多的关注。在PD-L1阳性的宫颈癌患者中,帕博利珠单抗治疗可将死亡风险降低36%。然而,宫颈癌常伴随肿瘤部位的局部炎症和系统性免疫反应的破坏。理解宫颈癌的机制和发现新的生物标志物,对于结果预测和指导个体化治疗至关重要。RNA修饰(RM)是表观遗传调控的关键,对癌症的预后和进展有显著影响。本研究旨在通过对多组学数据和机器学习技术的综合分析,研究这些与RM相关的基因对药物反应、免疫微环境、免疫治疗结果和预后的影响,为深入了解RM相关基因在宫颈癌发展中的分子机制提供基础。
2. 材料与方法
研究采用了综合性的分析框架。2.1. 单细胞RNA测序(scRNA-seq)数据分析:从GEO数据库获取数据集(GSE168652),使用“Seurat”R包进行质量控制、整合、降维和细胞注释,计算单细胞水平的RM活性得分,并使用“Monocle”包进行拟时序分析。2.2. 空间转录组学(ST)分析:从10x Genomics数据库获取数据,通过“Seurat”包进行分析、聚类和细胞类型鉴定,同样进行拟时序分析。2.3. 批量数据获取:从TCGA数据库获取宫颈癌数据集作为训练集,从GEO数据库获取GSE30760和GSE44001作为验证集。2.4. RM基因集获取:通过整合已发表的上皮转录组基因集、多组学共表达分析和文献综述,识别了8类RM相关基因,共101个基因。2.5. 共识机器学习来源的RNA甲基化特征(CMDRMS)的建立:应用了10种机器学习方法的101种组合。在TCGA-CC、GSE30760和GSE44001数据集中进行单变量Cox比例风险分析,鉴定预后相关基因。通过评估一致性指数(C-index),筛选出最优模型,该模型结合了StepCox和RSF算法。2.6. CMDRMS的预后价值:根据CMDRMS评分将患者分为高风险组和低风险组,评估其预后价值,构建列线图并通过校准曲线、C指数和决策曲线分析评估模型性能。2.7. 发现CMDRMS的免疫特征:使用ssGSEA分析不同CMDRMS组间的免疫细胞浸润和免疫功能差异,并评估免疫检查点相关基因的表达。2.8. CMDRMS在预测免疫治疗反应中的作用:使用癌症免疫图谱(TCIA)数据库和IMvigor210队列评估不同CMDRMS组对免疫检查点抑制剂(ICI)治疗的应答差异,并分析与抗癌免疫过程的关联。2.9. 治疗反应预测:使用“oncoPredict”R包比较不同CMDRMS组对癌症药物的敏感性。2.10. 功能富集分析:使用“clusterProfiler”R包基于京都基因与基因组百科全书(KEGG)通路进行基因集富集分析(GSEA)。2.11. 蛋白质复合物的结构预测:应用AlphaFold3算法预测NUDT3与PD-L1的相互作用。2.12-2.15. 实验验证:包括细胞培养、RNA提取和实时定量聚合酶链反应(RT-qPCR)、组织标本收集、组织学与免疫荧光染色。2.16. 统计分析:使用R软件和GraphPad Prism进行数据分析,设定*p < 0.05为具有统计学显著性。
3. 结果
3.1. scRNA-seq和ST中的RM特征
经过质量控制、降维和聚类,单细胞数据被划分为15个亚群,鉴定出树突状细胞、T细胞、上皮细胞、内皮细胞和平滑肌细胞五种主要细胞类型。RM调节因子在五种主要细胞簇中富集,其中在肿瘤上皮细胞中活性显著增强。空间转录组学分析将细胞分为12个主要簇,并鉴定出巨噬细胞、B细胞、NK细胞、上皮细胞、浆细胞和T细胞六种细胞类型。RM调节因子在这六种主要细胞簇中富集。该研究在单细胞水平揭示了RM调节因子在宫颈癌组织中的分布,特别是在肿瘤上皮细胞中高度富集。
3.2. 结合机器学习发现预测性基因
为了量化肿瘤上皮细胞中基于RM特征的丰度并改进宫颈癌的预后预测,研究评估了101种预测算法。基于平均C指数,StepCox[both] + RSF组合被认为是最佳方法,称为CMDRMS。CMDRMS包含四个基因:CBLL1、LARP1、NUDT3和METTL16。分析表明,这四个关键的RM相关基因可以作为宫颈癌的预后生物标志物。
3.3. 基于RM的CMDRMS及其预后价值的验证
在训练集和验证集中,高CMDRMS组与较低的总生存(OS)率相关。高CMDRMS组和低CMDRMS组在GEO和TCGA数据集中的CMDRMS评分和生存结果存在差异。基于CMDRMS构建了用于预测宫颈癌患者预后的列线图,该列线图显示出强大的预后性能,并通过校准曲线和决策曲线分析得到验证。与2022年至2025年发表的类似预后特征进行比较分析发现,CMDRMS在预测准确性(C指数)上几乎优于所有参考模型。这些结果表明CMDRMS是宫颈癌中一个有前景的预后生物标志物。
3.4. CMDRMS免疫特征的识别
通过ssGSEA分析CMDRMS与癌症免疫的关系。分析显示,除了活化的γδ T细胞、静息肥大细胞、单核细胞、初始B细胞和记忆CD4+T细胞外,低CMDRMS组的免疫细胞浸润水平低于高CMDRMS组。共表达分析显示,高CMDRMS与免疫检查点相关基因呈正相关。此外,癌症免疫应答的关键阶段也与CMDRMS特征呈正相关。研究结果表明,高CMDRMS不仅与更高的免疫细胞浸润相关,还与更高的免疫检查点基因表达相关,突显了其作为调节抗癌免疫的潜在关键机制。
3.5. 预测治疗反应和评估免疫治疗的潜在有效性
研究评估了CMDRMS作为宫颈癌免疫治疗反应预测生物标志物的潜力。高CMDRMS患者显示出较低的总生存率,但对PD-L1治疗的反应也降低。免疫表型评分(IPS)分析显示,低CMDRMS个体对PD-1和CTLA-4疗法表现出更有利的反应性。比较了高、低CMDRMS组对常见抗肿瘤药物的敏感性,鉴定出48种在两组间敏感性不同的药物。低CMDRMS组对大多数抗肿瘤治疗表现出更高的反应性。GSEA分析表明,高CMDRMS组在涉及半胱氨酸和甲硫氨酸代谢、花生四烯酸代谢、丙氨酸、天冬氨酸和谷氨酸代谢、细胞色素P450的药物代谢以及细胞色素P450对外源性物质的代谢等通路上显著富集。该研究强调了CMDRMS可预测宫颈癌的免疫治疗反应,高CMDRMS与PD-L1治疗相关,而低CMDRMS对其他常见治疗表现出更高的敏感性。
3.6. 使用scRNA-seq、ST和RT-qPCR整合分析CMDRMS核心基因
通过整合单细胞和空间转录组学分析,全面描述了四个CMDRMS核心基因(CBLL1、LARP1、NUDT3和METTL16)的表达谱。单细胞RNA测序分析显示NUDT3在五种主要细胞类型中广泛表达。空间转录组学在组织水平上将高CMDRMS基因表达定位于肿瘤微环境中的特定细胞群体,包括巨噬细胞、B细胞、T细胞和上皮细胞。单细胞RNA测序和空间转录组学数据的拟时序轨迹分析揭示了细胞分化的顺序进程。拟时序轨迹分析显示,在单细胞RNA测序数据中,表达CBLL1、LARP1、NUDT3和METTL16水平低的细胞在早期阶段富集,而表达水平高的细胞主要在后期阶段观察到。同样,空间转录组学的拟时序分析也显示出类似的分化依赖性表达模式,其中NUDT3最为显著,高表达与后期阶段相关,低表达与早期阶段相关。该研究将关键RNA调节因子(LARP1、NUDT3和METTL16)的表达与细胞分化联系起来,在肿瘤后期阶段和特定细胞类型中表达更高,尤其是NUDT3。
通过RT-qPCR进一步验证这些观察结果。与正常宫颈上皮细胞系相比,LARP1、NUDT3和METTL16在宫颈癌细胞中显著上调,而CBLL1则显著下调。值得注意的是,NUDT3在四个基因中表现出最显著和最一致的上调,这与其在转录组学分析中观察到的跨细胞类型的广泛表达以及与分化轨迹的强关联一致。这些特征支持了选择NUDT3进行后续验证和功能研究,表明其在宫颈癌发展中的潜在作用。
3.7. NUDT3表达水平和功能的评估
基于整合的转录组学和RT-qPCR分析,NUDT3成为最显著失调的CMDRMS基因,在肿瘤微环境和宫颈癌细胞系中比其他三个基因显示出更高的富集。为了进一步确定这种转录上调是否转化为蛋白质水平的变化,接下来通过免疫荧光分析检测了NUDT3在宫颈癌组织和匹配的癌旁组织中的表达。结果显示,NUDT3主要定位于恶性细胞的细胞质中,在细胞核中程度较轻。定量荧光分析显示,宫颈癌组织中NUDT3蛋白水平显著升高。NUDT3水平升高与更高的临床分级、更晚的T、N、M分期和更差的预后相关。使用Cy3标记的NUDT3和488标记的PD-L1进行免疫荧光测定,以检查这些蛋白质在宫颈癌组织中的亚细胞分布。结果显示NUDT3和PD-L1主要定位于癌细胞的细胞质内。研究发现,在16名宫颈癌患者队列中,NUDT3和PD-L1表达之间存在显著的正相关。
基于上述分析,应用AlphaFold3算法预测了NUDT3与PD-L1之间的相互作用。结果显示NUDT3与PD-L1之间存在相互作用,其特征是通过ARG10、GLU223、ARG41、SER40、ASN138、GLN139、LYS136和ASP109残基形成氢键。进一步通过ipTM和pTM评分评估NUDT3-PD-L1复合物的结构完整性,ipTM和pTM值分别为0.76和0.64,表明预测的复合物结构具有高置信度。分析表明,NUDT3在宫颈癌组织中普遍存在,与晚期临床分期相关,并显示出与PD-L1的共表达和结构相互作用,表明其可能参与癌症进展。
4. 讨论
宫颈癌是女性面临的重大健康威胁。尽管诊断技术和治疗的进步显著改善了患者预后,但患有区域或远处转移的个体预后仍然很差。新出现的证据表明RNA甲基化在宫颈癌进展和临床预后中起关键作用。本研究通过整合组学数据和机器学习算法,探讨了与RM相关的基因在宫颈癌中的表达、功能和临床意义,评估了CMDRMS及其核心基因,特别是NUDT3对药物反应、肿瘤免疫微环境、免疫治疗结果和预后的影响。
研究首先使用单细胞RNA测序和空间转录组学检查了宫颈癌中101个与RM相关的基因。其中许多基因在单细胞分辨率下在癌细胞和免疫细胞中显示出高表达,尤其是在肿瘤上皮细胞中。结果进一步表明,宫颈癌细胞系和肿瘤样本中NUDT3水平升高与内部队列中患者生存率降低相关。这一发现强调了RM相关基因在宫颈癌发病机制中的潜在参与,与先前的研究一致。在精准医学中,TNM分期系统和传统标志物本身不足以精确预测宫颈癌患者的预后。为应对这一挑战,研究中应用了101种机器学习算法。StepCox和RSF算法的组合,即CMDRMS,被发现是预测宫颈癌预后最有效的方法,使用了四个特定基因。通过AUC、C指数、列线图和决策曲线分析结果评估,这四个基因的临床疗效优于其他几个临床变量。这些基因确实与癌症进展相关,其中NUDT3在乳腺癌细胞中作为脱帽酶,通过控制整合素β6来调节细胞运动,而整合素β6是涉及mRNA稳定性和肿瘤转移的关键基因。同样,子宫内膜癌中NUDT3水平升高与较差的生存结果相关。本研究首次发现NUDT3在宫颈癌组织中高表达并与转移相关表型相关,表明其可能通过类似的mRNA调控机制促进宫颈癌进展。
RNA变化通过增加肿瘤微环境中表达PD-1的巨噬细胞的丰度来影响宫颈癌的免疫反应。对单细胞RNA测序和空间转录组学数据的分析揭示了RM基因在多种癌细胞类型中的显著存在,例如上皮细胞、平滑肌细胞、B细胞、T细胞、NK细胞和巨噬细胞。研究发现RM相关基因与肿瘤微环境特征之间存在显著关联。高CMDRMS组个体尽管免疫活性增加,但生存率降低,这种悖论可以通过浸润免疫细胞的功能耗竭来解释,其中免疫检查点分子如PD-L1的表达升高损害了有效的T细胞介导的肿瘤杀伤,并可能通过慢性炎症反应促进肿瘤血管生成。拟时序分析显示,缺乏LARP1、NUDT3和METTL16的肿瘤细胞主要影响分化早期阶段,其中NUDT3最为显著,这可能驱动肿瘤细胞从“分化”表型向“侵袭”表型转化。重要的是,这种解释与临床观察结果一致,即高NUDT3表达与晚期临床分期和转移相关表型相关,突显了其作为宫颈癌进展中分子开关的潜在作用。
免疫检查点抑制剂已被证明在延长包括宫颈癌患者在内的癌症患者的生存期方面具有显著前景。然而,一部分宫颈癌患者对免疫检查点抑制剂治疗表现出原发性耐药。利用IMvigor210队列和免疫表型评分,分析表明低CMDRMS患者可能对免疫检查点阻断疗法更敏感。先前的研究观察到在微重力条件下培养的Jurkat T细胞中POMK、SFT2D2和NUDT3的差异表达,表明这些基因与T细胞活性密切相关。相应地,数据揭示了在本研究队列中NUDT3与PD-L1呈正相关,并证明了两者之间的结构相互作用。这一发现表明NUDT3是免疫治疗的一个有前景的预测性生物标志物。
先前的研究已经探讨了免疫治疗和化疗联合使用作为癌症治疗的新策略。随后,进一步的分析聚焦于风险特征与药物反应之间的关系,旨在确定潜在的治疗选择。这种方法鉴定出48种在低CMDRMS组患者中显示出显著疗效的抗癌药物。通过ATM抑制剂KU55933激活DNA损伤反应通路,已被证明能够使宫颈癌细胞对顺铂和放疗增敏。同样,研究表明检查点激酶1抑制剂MK-8776不仅能降低宫颈癌细胞的活力,还能增强其对顺铂治疗的敏感性。此外,蛋白酶体抑制剂MG132处理通过诱导G2/M细胞周期停滞来损害细胞存活,这与p27表达增加相关。此外,临床试验已探索了MEK抑制剂曲美替尼和EGFR酪氨酸激酶抑制剂吉非替尼在宫颈癌患者中的使用,两种药物均已进入II期试验。总之,这些发现支持了以CMDRMS为指导的治疗策略的可行性,低CMDRMS可能识别出可能从顺铂为基础、并由DDR靶向药物(ATM或检查点激酶1抑制)进一步增强的方案中受益的患者,而其他靶向方法(MEK或EGFR抑制)也可能在CMDRMS定义的亚组中进行探索。
然而,必须承认本研究的局限性。随着对RM基因的持续研究,预计会发现超出本研究分析的101个基因的更多RM相关基因。此外,本工作中分析的数据来自公共数据库,突出了未来多中心研究中验证这些基因的必要性。最后,尽管研究重点关注NUDT3的表达及其与临床特征和PD-L1水平的显著关联,但驱动这些关系的分子机制仍不清楚,需要进一步研究。
5. 结论
总之,我们利用多组学数据和机器学习全面评估了RM相关基因在宫颈癌中的影响。此外,我们在癌组织中验证了NUDT3的作用。这些结果为理解宫颈癌的潜在分子机制提供了新的视角。