揭示一种肌萎缩侧索硬化症血液转录组学特征:一种区别于神经退行性疾病对照组的机器学习分类器

《Neuroinformatics》:Unveiling an ALS Blood Transcriptomic Signature: A Machine Learning Classifier Distinct from Neurodegenerative Controls

【字体: 时间:2026年04月30日 来源:Neuroinformatics 3.1

编辑推荐:

  缺乏可及且可靠的生物标志物是神经退行性疾病早期诊断和分层的关键障碍。尽管外周血为系统病理生理学提供了一个微创窗口,但识别能够克服生物异质性和技术噪声的分子特征仍是一个未解决的挑战。在本研究中,研究人员通过比较肌萎缩侧索硬化症、阿尔茨海默病和帕金森病在全血中的系

  
缺乏可及且可靠的生物标志物是神经退行性疾病早期诊断和分层的关键障碍。尽管外周血为系统病理生理学提供了一个微创窗口,但识别能够克服生物异质性和技术噪声的分子特征仍是一个未解决的挑战。在本研究中,研究人员通过比较肌萎缩侧索硬化症、阿尔茨海默病和帕金森病在全血中的系统性转录组学分析,采用了一种整合无监督网络分析和有监督机器学习方法的综合工作流程,来解决这一问题。通过使用LASSO(最小绝对收缩和选择算子)回归和独立外部队列的交叉验证,研究人员识别出一个稳定且特异性的肌萎缩侧索硬化症转录组学特征,其包含涉及系统性免疫失调和小胶质细胞功能的关键串扰基因,包括CTSS、PTEN、IL18、PTPRC和CSF1R。相比之下,阿尔茨海默病和帕金森病显示出较弱的转录组学特征,且预测再现性差,这表明肌萎缩侧索硬化症具有独特的系统性病理学。此外,该研究证实了线性模型在此基因组特征方面的优越性:虽然复杂的非线性算法,特别是径向基函数核支持向量机和随机森林,在初始表现出高性能,但在外部验证时因过拟合而失败。相反,线性LASSO模型展现出卓越的鲁棒性和泛化能力(AUC 0.74)。总而言之,本研究不仅定义了一个区别于其他神经退行性病变的、独特的肌萎缩侧索硬化症系统性免疫转录组学特征,还确立了可解释性和线性简洁性是开发具有临床转化潜力的、可重现的血液生物标志物的关键因素。
一、 研究背景、问题与目的
神经退行性疾病(如阿尔茨海默病、帕金森病、肌萎缩侧索硬化症)是二十一世纪主要的医疗和社会经济挑战。这些进行性衰弱性疾病目前无法治愈,其临床诊断主要依赖疾病进展晚期才出现的症状,此时神经退行性病变已进入晚期,严重限制了任何治疗策略的疗效和患者的恰当分层。因此,开发易于获取且可靠的生物标志物,对于早期诊断和疾病分层至关重要。外周血作为一种微创窗口,可用于探索系统病理生理学变化。然而,由于生物异质性和技术噪声,从全血中识别稳定、特异的分子特征仍是一大挑战。尽管这些疾病在临床和病理上存在差异,但在分子层面(如蛋白聚集、神经毒性、慢性神经炎症等免疫应答失调)存在共同机制。这为利用共享的病理基础,在易于获取的血液组织中开发系统性生物标志物提供了契机。本研究旨在通过比较分析肌萎缩侧索硬化症、阿尔茨海默病和帕金森病的全血转录组,利用无监督和有监督机器学习方法,鉴定疾病特异性的转录组特征,并评估其区分患者与健康对照的能力,以探索其作为生物标志物的潜力。本研究成果发表于《Neuroinformatics》期刊。
二、 主要技术方法
本研究采用了一套综合的生物信息学与机器学习工作流程。首先,研究人员从基因表达综合(GEO)数据库中严格筛选了包含肌萎缩侧索硬化症、阿尔茨海默病和帕金森病患者与健康对照的大样本量(N>100)全血转录组数据集作为发现队列,并另选了独立的外部数据集用于验证。分析流程包括:对每个疾病分别进行差异表达分析和加权基因共表达网络分析,以识别差异表达基因和共表达模块;通过韦恩图分析鉴定疾病间重叠基因,并利用STRING数据库和Cytoscape构建蛋白-蛋白相互作用网络以鉴定枢纽基因;将枢纽基因与WGCNA关键模块基因取交集,定义为“关键串扰基因”;最后,使用LASSO逻辑回归、支持向量机和随机森林等机器学习算法,基于关键串扰基因构建分类模型,并通过十折交叉验证和独立外部队列验证评估模型性能、基因特征稳定性及不同算法的优劣。
三、 研究结果
1. 差异表达分析与枢纽基因鉴定
差异表达分析揭示了三种疾病不同的基因表达谱。肌萎缩侧索硬化症的上/下调基因数量最多。韦恩图分析发现了44个在三疾病间重叠的基因,以及两两疾病间重叠的基因集。通过构建蛋白-蛋白相互作用网络和拓扑分析,研究人员鉴定了每个重叠基因组合中的枢纽基因。
2. 加权基因共表达网络分析模块与关键串扰基因的鉴定
WGCNA分析为每种疾病鉴定了与疾病状态显著相关的基因共表达模块。通过将枢纽基因与WGCNA关键模块基因取交集,最终确定了24个独特的关键串扰基因,并分配到不同的疾病组合中。表达水平分析显示,除帕金森病队列中的少数基因外,大多数关键串扰基因在患者与对照组间存在显著差异。
3. LASSO模型分析
研究人员利用关键串扰基因构建LASSO分类模型。在原始队列中,肌萎缩侧索硬化症模型表现最佳,准确度为0.78,AUC为0.86;阿尔茨海默病和帕金森病模型表现相对较弱(AUC分别为0.63和0.62)。模型同时进行了基因选择,给出了具有非零系数的特征基因及其权重,其中肌萎缩侧索硬化症的特征基因包括CTSSC5AR1CSF1R等。
4. 在独立外部队列中验证LASSO模型及与其他分类模型的比较
在独立外部验证队列中,肌萎缩侧索硬化症模型保持了最佳的稳健性,AUC为0.74,尽管性能较原始队列有所下降。阿尔茨海默病模型性能略有提升(AUC 0.68),而帕金森病模型则失去预测能力(AUC 0.48)。为评估基因特征的稳定性,研究人员在验证集上重新训练了LASSO模型。肌萎缩侧索硬化症的核心特征基因(如CTSSPTENIL18CSF1R)在两次训练中均被选中,显示出较强的稳定性,但部分基因的系数符号和大小发生了变化。阿尔茨海默病的特征在验证集中被提炼为一个包含4个基因(ITGAMNKTRRPL22TAX1BP1)的核心集。帕金森病的特征则仅剩PTPRC一个基因。此外,与非线性模型(支持向量机、随机森林)的比较表明,线性LASSO模型在泛化能力上更具优势,非线性模型在外部验证中出现了严重的性能下降,表明其存在过拟合。
四、 讨论与结论
讨论部分总结:
本研究首次对三种主要神经退行性疾病进行了系统性转录组学的比较分析。结果表明,肌萎缩侧索硬化症在血液中表现出稳健的遗传学特征,而阿尔茨海默病和帕金森病的信号则微弱得多。这可能是因为阿尔茨海默病和帕金森病的核心病理主要局限于中枢神经系统,导致其系统性转录组足迹微弱;而肌萎缩侧索硬化症被认为是一种涉及显著外周免疫和代谢失调的多系统疾病,其强烈的系统性炎症特征在血液中得以体现。
肌萎缩侧索硬化症模型的稳健性源于LASSO模型整合了一个复杂的、多方面的免疫失调特征,而不仅仅是单一的炎症标志物。该特征包括:代表小胶质细胞活化的CTSS(在两次分析中均为高系数正预测因子);反映系统性免疫耗竭或失调的负预测因子,如与神经元死亡通路和神经胶质功能障碍相关的PTEN、与炎症小体激活相关但可能指示外周免疫耗竭的IL18、与B淋巴细胞调节相关可能反映免疫耗竭的PTPRC,以及对小胶质细胞/单核细胞存活至关重要的CSF1R。此外,代表B细胞活化因子信号的TNFSF13B也被纳入特征。
与阿尔茨海默病特征的比较揭示了共享的免疫相关通路,但存在差异调节。例如,核糖体蛋白基因RPL22在肌萎缩侧索硬化症中高表达(可能与加速细胞衰老相关),在阿尔茨海默病中则低表达,表明两者具有根本不同的系统性衰老特征。类似地,PTPRC基因在肌萎缩侧索硬化症和帕金森病中呈现相反的调控方向。这进一步证实,虽然这些疾病共享某些免疫易感性节点,但其系统性免疫失调的方向性是疾病特异的。
结论翻译:
从转化角度来看,本研究鉴定了一个特异性转录组特征,并开发了一个用于肌萎缩侧索硬化症的稳健分类模型,这证明了系统性血液基因表达能够支持疾病分类。这种方法的主要优势在于其临床适用性,因为该RNA特征可以通过标准技术(如RT-qPCR)从全血样本中进行量化。未来需要在更大规模、多中心、尤其是纵向队列中进行研究,以确定其不仅具有诊断效用,还具有预后和进展监测的潜力。此外,未来的机制研究对于进一步阐明这些基因的系统性表达与中枢神经系统核心病理之间的生物学联系至关重要。总之,本研究不仅描绘了肌萎缩侧索硬化症区别于其他神经退行性疾病的独特系统性免疫-转录组模式,而且确立了可解释性和线性简洁性是开发具有临床转化潜力的、可重现的血液生物标志物的关键因素。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号