机器学习揭示结直肠癌中基因表达与免疫浸润的关联:从单细胞到生存分析的综合性研究

《Journal of Cellular and Molecular Medicine》:Machine Learning Reveals the Association Between Gene Expression and Immune Infiltration in Colorectal Cancer: A Comprehensive Study From Single-Cell to Survival Analysis

【字体: 时间:2026年03月04日 来源:Journal of Cellular and Molecular Medicine 4.2

编辑推荐:

  这篇综述采用机器学习结合单细胞测序(scRNA-seq),系统探究了结直肠癌(CRC)肿瘤微环境(TME)中基因表达与免疫浸润的复杂关联。文章识别了与免疫调节相关的关键生物标志物(如CD19、MAP2、CALB2、TGFB2),构建了具有预测能力的模型,为CRC预后评估、免疫治疗反应预测及个体化治疗策略开发提供了新视角。

引言背景
结直肠癌(CRC)是全球癌症相关死亡的最常见原因之一,其高发病率和高死亡率构成了重大的公共卫生负担。尽管近年来在手术技术、系统疗法和靶向治疗方面取得了进展,但CRC患者,尤其是晚期患者的预后仍然不佳。这凸显了深入了解CRC的细胞和分子机制,以及肿瘤微环境(TME)中免疫细胞浸润的复杂相互作用的重要性。近年来,基因组学技术的进步,如下一代测序和单细胞RNA测序(scRNA-seq),使得以前所未有的分辨率深入解析CRC的异质性成为可能。与此同时,机器学习算法在揭示传统分析方法可能遗漏的微妙关联和模式方面展现出强大能力,已被用于预测治疗反应、对患者进行分层以及识别肿瘤侵袭性和患者生存的分子特征。本研究的核心在于利用机器学习与单细胞RNA测序相结合的整合计算框架,探究CRC肿瘤微环境中基因表达模式与免疫细胞浸润之间的相互作用,以期为CRC的精准医疗和免疫治疗策略设计提供新的见解。
研究方法
1. 数据获取与差异基因鉴定
本研究的数据来源于癌症基因组图谱(TCGA)和基因表达综合数据库(GEO),获取了CRC患者的RNA表达数据和临床数据。经过质量控制,对表达值进行了log2(FPKM+1) 的标准化转换。用于表征CRC复杂性的单细胞转录组谱则从数据集GSE146771中获取。通过差异表达分析,比较了CRC肿瘤组织和癌旁正常组织的基因表达谱,筛选出差异表达基因(DEGs)。进一步的单变量Cox回归分析用于评估这些CRC相关基因与患者生存的关系。
2. 分子亚型鉴定与聚类分析
利用R包“ConsensusClusterPlus”进行无监督共识聚类分析,以确定最佳的聚类数量及其成员。该方法通过对数据子集进行多次聚类来评估聚类的稳定性,并通过一致性矩阵和树状图评估基因和聚类分配的稳定性。生存分析(Kaplan-Meier)用于比较所识别出的不同聚类之间患者的预后差异。聚类结果通过t-SNE算法进行高维可视化。
3. 机器学习模型构建与验证
为评估模型的泛化能力,将CRC数据集划分为TCGA队列和GEO队列进行交叉验证。研究采用了包括随机生存森林(RSF)、弹性网络(Enet)、LASSO、岭回归、逐步Cox回归、CoxBoost、偏最小二乘Cox回归(plsRcox)、超级主成分(SuperPC)、梯度提升机(GBM)和生存支持向量机(survival-SVM)在内的10种算法进行模型训练。模型性能通过平均哈雷尔一致性指数(C-index)进行评估,C-index值越高表示预测性能越优。通过计算个体风险评分(风险评分 = Σ (系数 × 表达值))对患者进行高、低风险分层。模型的稳健性通过Kaplan-Meier生存分析、受试者工作特征(ROC)曲线(采用10折交叉验证)和决策曲线分析(DCA)进行严格评估。
4. 功能富集与免疫浸润分析
通过基因本体(GO)分类和KEGG通路富集分析,表征DEGs在CRC中的功能。采用CIBERSORT和ESTIMATE算法量化不同队列间免疫细胞浸润的差异。
5. 单细胞数据验证与细胞间通讯分析
利用R包“Seurat”对单细胞RNA测序数据进行质量控制和综合分析。质量过滤后,数据经过对数标准化。通过主成分分析(PCA)和t-SNE进行降维和可视化,并通过无监督聚类分析揭示细胞异质性。使用“SingleR”包进行细胞类型鉴定。利用CellChat R包基于配体-受体相互作用数据库,推断和可视化CRC微环境中的细胞间通讯网络,量化细胞类型间的通讯强度,并识别关键的信号通路。
研究结果
1. 肿瘤与正常样本间的差异基因表达
分析揭示了肿瘤与正常样本间存在明显的基因表达差异。其中,有43个基因同时属于差异表达基因和免疫相关基因集合,表明免疫反应在CRC中扮演重要角色。
2. 全面的聚类分析识别出与预后相关的新型分子亚型
通过一致性矩阵分析,识别出两个基于DEGs的CRC分子亚型(C1和C2)。Kaplan-Meier生存曲线分析显示,这两个亚型患者的生存概率存在显著差异(p=0.049)。UMAP降维可视化清晰地显示了这两个亚型的分离。
3. 模型性能评估与关键基因筛选
通过模型性能热图比较,评估了不同算法的预测能力。LASSO回归分析筛选出关键特征基因,并在最优正则化参数下保留了CD19、MAP2、CALB2和TGFB2等基因。环形基因组图谱显示了这些关键基因在人类染色体上的分布。
4. 功能富集分析揭示免疫相关通路
GO和KEGG通路富集分析显示,DEGs显著富集于免疫反应和TME重塑相关的通路,包括补体和凝血级联反应、花生四烯酸代谢以及丝氨酸型肽酶活性等。此外,与细胞外基质(NABA Matrisome, Matrisome-associated)、毛囊发育、角质化及角质化包膜形成相关的通路也被富集。
5. 预后模型性能与风险分层
基于基因表达构建的风险评分模型能够有效区分患者的高、低风险组,Kaplan-Meier曲线显示高风险组患者生存率显著较低(p=0.012)。ROC曲线分析表明,风险评分的预测准确性(AUC=0.707)优于年龄(0.568)和肿瘤分期(0.628)等传统临床因素。单变量和多变量Cox回归分析进一步确认了风险评分是独立的预后因素。
6. 免疫细胞浸润与关键基因表达的关联
分析发现CD19、MAP2、CALB2和TGFB2的表达水平与特定的免疫细胞浸润模式显著相关。具体而言,CD19与B细胞呈强正相关,表明其在B细胞介导的免疫反应中的作用。TGFB2与M2型巨噬细胞和调节性T细胞(Tregs)相关,提示其可能参与塑造免疫抑制微环境。CALB2与B细胞、树突状细胞和部分T细胞亚群相关,可能在抗原呈递和炎症中发挥作用。MAP2与CD8+T细胞和树突状细胞的相关性则呈现异质性,暗示其在免疫逃逸或免疫抑制中的潜在角色。相关热图进一步可视化了这些基因与多种免疫细胞类型及ESTIMATE评分之间的复杂关系。
7. 单细胞测序解析肿瘤微环境细胞异质性
对GSE146771数据集的单细胞RNA测序(scRNA-seq)分析,成功鉴定并分类了CRC组织中的多种细胞类型,包括恶性肿瘤细胞、成纤维细胞、内皮细胞以及CD4+T细胞、CD8+T细胞、Tregs、巨噬细胞、NK细胞、浆细胞等多种免疫细胞,揭示了TME的高度异质性。不同患者间的免疫细胞和基质细胞组成存在显著差异,部分患者富集Treg细胞和耗竭性CD8+T细胞,而另一些患者则B细胞、NK细胞和CD4+T细胞比例更高,反映了不同的免疫应答模式。
8. 关键基因在单细胞水平上的表达模式
在单细胞分辨率下,CALB2、CD19、MAP2和TGFB2呈现出细胞类型特异性的表达模式。例如,CD19主要在B细胞中高表达;CALB2、MAP2和TGFB2则在成纤维细胞、肥大细胞等基质相关细胞中表达较高。UMAP特征图和基因表达小提琴图直观地展示了这些表达分布。此外,基因表达水平在不同TNM分期中也存在显著差异,提示其可能与肿瘤进展和TME变化相关。
9. 细胞间通讯网络揭示巨噬细胞的核心枢纽作用
细胞间通讯网络图谱显示,CRC微环境中的免疫细胞和基质细胞形成了高度互连的网络。+ T细胞、成纤维细胞和巨噬细胞之间的强连接性。(B)基于通讯概率的相互作用强度,突出了成纤维细胞-巨噬细胞和CD8+T细胞-恶性细胞通讯是最活跃的轴。(G-I)分别展示了MIF、ANNEXIN和GALECTIN信号网络中细胞类型间通讯概率的热图。">其中,CD8+T细胞、巨噬细胞与成纤维细胞、恶性细胞之间存在强烈的双向信号交流,而成纤维细胞充当了协调多种相互作用通路的主要枢纽。值得注意的是,巨噬细胞与恶性细胞及多种免疫细胞群均保持着广泛的连接,表明其在免疫调节和肿瘤进展中的双重角色。通路特异性分析进一步识别出巨噬细胞是MIF、ANNEXIN和GALECTIN信号网络中的主要信号发送者。例如,MIF–CD74–CXCR4–CD44轴在巨噬细胞与恶性细胞间表现出高通讯概率,将促炎信号与肿瘤增殖联系起来。这些发现强调了巨噬细胞作为协调CRC中免疫和基质反应的关键通讯枢纽的重要功能。
讨论与局限
本研究通过整合机器学习与免疫浸润分析,深化了对CRC复杂性的理解。机器学习模型在识别CRC预后特征、分子亚型及预测免疫治疗反应方面展现出巨大潜力。所识别的关键基因(CD19、MAP2、CALB2、TGFB2)被证实是CRC免疫微环境的重要调节因子,与特定的免疫细胞浸润模式相关,为开发新的预后标志物和免疫治疗靶点提供了方向。单细胞测序技术则从细胞层面揭示了CRC的高度异质性,并通过对细胞间通讯网络的分析,阐明了巨噬细胞等细胞在TME中的核心协调作用。然而,研究也存在一定局限,例如机器学习模型的可解释性仍然是一个挑战,生物信息学分析结果需要进一步的实验验证来确认其生物学意义,并且单细胞测序数据的深度和覆盖范围可能还不足以完全捕获TME中细胞异质性的全貌。
结论
总而言之,本研究通过整合机器学习与免疫浸润分析方法,成功识别了CRC中的关键预后基因和免疫微环境特征,并构建了有价值的预后模型。这些发现不仅加深了我们对CRC分子机制的理解,也为CRC的个体化治疗决策、免疫治疗策略优化及新靶点的发现提供了重要的理论依据和数据支持,具有潜在的临床转化前景。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号