机器学习驱动的生物信息学分析鉴定结直肠息肉恶性转化关键基因与诊断模型构建

《Frontiers in Molecular Biosciences》:Bioinformatics combined with machine learning for the identification of malignant transformation markers in colorectal polyps

【字体: 时间:2026年03月24日 来源:Frontiers in Molecular Biosciences 4.0

编辑推荐:

  本研究聚焦于结直肠癌(CRC)早期预防的关键环节——息肉恶性转化的分子机制不清。研究人员整合生物信息学与机器学习方法,系统性筛选了调控结直肠肿瘤发生的核心基因,并构建了高精度的诊断模型。最终鉴定出EIF2S3、GTF3A、HMGA1、HSP90AB1、PABPC1、S100A11六个关键基因,所建立的诊断模型在内部与外部验证集中均展现出优异的诊断效能。该研究为阐明CRC发生发展机制提供了新见解,并为临床诊断与治疗提供了潜在的生物标志物和干预靶点。

  
结直肠癌是全球范围内最常见、致死率也位居前列的恶性肿瘤之一。据最新的全球癌症统计数据显示,其疾病负担预计在未来还将持续加重。因此,实现早期、精准的诊断,对于降低患者发病率和死亡率至关重要。然而,现有的早期诊断方法,如粪便检测、影像学检查等,均存在一定的局限性。与此同时,我们对结直肠癌发生发展的深层分子机制了解仍不完整,这阻碍了更精准有效治疗策略的开发。
结直肠癌通常从一个被称为“息肉”的良性病变缓慢演变而来。息肉就像一个潜伏的“前哨”,部分类型具有显著的癌变风险。如果能从分子层面理解息肉如何一步步“黑化”为癌症,将为我们实现早期拦截、预防癌症进展提供关键线索。近年来,高通量测序技术,特别是单细胞RNA测序(scRNA-seq),为我们深入剖析细胞异质性、解析疾病进程中的精细变化提供了革命性的工具。另一方面,组学技术的飞速发展产生了海量的生物数据,如何从这些高维、复杂的“数据宝藏”中挖掘出真正有价值的信息,成为了新的挑战。而机器学习(Machine Learning, ML)技术凭借其强大的数据处理和模式识别能力,在这一领域正展现出非凡的优势。
为了阐明结直肠癌的恶性演化机制,并挖掘具有潜在临床转化价值的治疗靶点,这项发表在《Frontiers in Molecular Biosciences》的研究,采用了一种整合多数据集分析和机器学习的系统化策略。研究人员旨在筛选调控结直肠肿瘤发生的核心基因,并构建可靠的诊断模型。
研究团队主要运用了以下几项关键技术方法:首先,基于公共基因表达数据库(GEO和TCGA),收集并分析了多个结直肠息肉与癌的转录组数据集(包括GSE209741、TCGA-COADREAD、GSE41258)以及一个患者匹配的单细胞RNA测序数据集(GSE161277)。其次,利用生物信息学工具进行差异表达基因(Differentially Expressed Genes, DEGs)分析、加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis, WGCNA)以识别与疾病表型相关的核心基因模块。然后,整合单细胞测序数据,在单细胞分辨率下定位关键基因的表达并分析其动态变化。最后,采用Boruta算法、LASSO回归和XGBoost三种机器学习方法进行特征基因筛选,并基于筛选出的基因构建岭回归(Ridge Regression)诊断模型,随后在内部及外部独立队列中验证模型性能。此外,还利用UALCAN数据库进行蛋白表达验证,进行生存分析,并通过实时定量PCR(qRT-PCR)在细胞系水平进行了实验验证。
研究结果
转录组谱分析揭示与息肉恶性潜能相关的差异表达基因
通过对包含非侵袭性息肉(POP-NA)、侵袭性息肉(POP-A)和癌旁息肉(CAP)的GSE209741数据集进行分析,研究人员鉴定出一系列差异表达基因。主成分分析显示不同息肉组存在明显的聚类模式。热图分析表明,与POP-NA或POP-A相比,CAP中的基因显著上调,POP-A中的基因也比POP-NA上调,且许多上调基因在CAP中同样上调。这为了解不同类型息肉间的分子差异提供了见解。
不同组间差异表达基因的功能富集分析
对差异基因进行功能富集分析发现,与POP-A相比,CAP主要富集在结构形态发生、发育过程调控、细胞增殖、生物粘附和细胞外基质组织等生物过程。京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路分析显示,CAP中粘附和ECM相关信号通路被激活,而一些代谢相关通路受到抑制。分析还表明,细胞周期、上皮-间质转化(Epithelial-Mesenchymal Transition, EMT)和炎症反应通路在不同程度的息肉恶性转化中被激活。
加权基因共表达网络分析及关键模块鉴定
对POP样本进行WGCNA分析,构建了基因共表达网络,并鉴定出16个模块。通过关联模块与表型属性,筛选出与POP-A显著相关的模块(M3, M6, M7, M11, M12)。功能分析显示,这些模块基因分别与免疫反应、转录调控、线粒体功能、细胞分化、血管发育等生物过程相关。
单细胞RNA测序数据揭示结直肠癌发生过程中的细胞异质性
分析单细胞数据集GSE161277,将细胞分为15个独立的细胞簇,并可视化了癌旁、腺瘤和癌组织中细胞簇的变化。进一步验证发现,关键WGCNA模块基因特异性表达于不同的细胞类型,例如M3模块基因主要定位于上皮细胞。在从癌旁到腺瘤再到癌组织的病变恶性程度增加过程中,除M11模块外,其他模块基因的表达均呈上升趋势。
模块基因与单细胞差异基因交集筛选关键基因
研究人员将满足“在腺瘤中相对于正常组织上调表达”且“在癌组织中的表达水平高于腺瘤”条件的基因,与WGCNA各模块基因取交集。统计发现,大部分筛选出的基因主要定位于上皮细胞。对这些上皮细胞定位基因进行富集分析,发现它们显著富集于翻译、泛素化、增殖、坏死性凋亡等生物过程。最终,通过设置模块内连接度(Kme)>0.8等条件,筛选出57个上皮细胞相关的基因。拟时序分析显示,这些基因在结直肠癌发生发展过程中大多呈上调趋势。
基于机器学习算法的结直肠癌恶性转化标志物特征选择
从TCGA-COADREAD队列中划分训练集和内部测试集。基于57个候选基因,使用Boruta、LASSO回归和XGBoost三种算法在训练集上并行进行特征选择。通过取三种算法结果的交集,最终确定了6个基因(EIF2S3, GTF3A, HMGA1, HSP90AB1, PABPC1, S100A11)作为稳健的诊断特征基因。基于这6个特征基因的表达谱构建的岭回归诊断模型,在TCGA内部测试集中显示出优异的诊断效能(准确率98.41%)。在外部独立验证队列GSE41258中,模型同样保持了出色的诊断性能(准确率91.25%),证明了其良好的泛化能力。
结直肠癌恶性转化标志物的表达谱与生存分析
利用UALCAN数据库分析发现,这六个基因在结直肠癌组织中的蛋白表达水平相较于正常组织均显著上调。Kaplan-Meier生存分析显示,EIF2S3和S100A11的高表达与结直肠癌患者的不良预后显著相关,提示它们可能作为潜在的预后生物标志物。
通过qRT-PCR验证关键恶性转化标志物的mRNA表达
qRT-PCR实验验证了六个关键基因在结直肠癌细胞系(HCT116, LOVO, RKO)与正常结直肠上皮细胞系NCM460中的mRNA表达差异。结果显示,所有六个靶基因在癌细胞系中的表达均较正常细胞显著上调,进一步支持了它们在结直肠癌发生发展中的潜在重要作用。
结论与讨论
本研究通过整合多维数据集分析与机器学习策略,系统性地鉴定出六个介导结直肠肿瘤发生的生物标志物(EIF2S3, GTF3A, HMGA1, HSP90AB1, PABPC1, S100A11),并构建了具有高性能的岭回归诊断模型。这六个基因均在结直肠肿瘤组织中高表达,并分别与蛋白质合成、转录调控、染色质重塑、应激应答、细胞迁移侵袭等肿瘤发生发展的核心生物学过程密切相关。其中,EIF2S3和S100A11的高表达与患者预后不良相关,具有成为预后标志物的潜力。
该研究构建的诊断模型在内部和外部数据集中均展现出优异的诊断效能,为结直肠癌的早期无创或微创诊断提供了新的潜在工具,有望弥补现有临床诊断方法在灵敏度、侵入性或患者依从性方面的不足。研究所采用的“批量测序筛选-单细胞测序定位-机器学习验证”的多维研究范式,为癌前病变关键基因的筛选提供了可参考的技术路线。
当然,研究也存在一些局限性,例如依赖于公共数据的表型分类且定义细节不明,结论主要基于生物信息学分析而缺乏大量临床样本和体内外功能实验的深入验证,诊断模型尚未经过前瞻性多中心临床研究的检验等。未来的研究需要在更大规模的独立临床队列中验证这些生物标志物,并阐明其具体的分子调控机制,以优化诊断模型,为结直肠息肉的恶性转化预警和精准干预提供更可靠的依据。
总之,这项研究鉴定出的六个生物标志物是结直肠息肉恶性转化的核心调控因子,基于此构建的诊断模型展现出良好的临床应用前景。研究成果为结直肠癌的早期诊断、预后评估和治疗靶点开发提供了新的理论支持,也为癌前病变的分子机制研究提供了新的视角。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号