跨物种蛋白质组学整合与机器学习策略揭示自闭症谱系障碍的新型诊断生物标志物

【字体: 时间:2026年03月05日 来源:Biomolecules 4.8

编辑推荐:

  本研究通过整合孤独症谱系障碍(ASD)患者与CNTNAP2基因敲除小鼠的脑组织及血清蛋白质组数据,识别出132个在物种间一致失调的蛋白质,并利用机器学习筛选出10个关键蛋白(COL1A1, ITIH4, CLU, NID1, C5, MASP1, PON1, PLTP, HSPA5, FETUB)构成诊断标志物组合,经XGBClassifier验证在独立测试集中展现出良好的诊断性能(AUC = 0.75)。该工作为ASD的生物标志物发现提供了一种基于多物种、多组学数据整合与人工智能分析的新策略。

  
引言
孤独症谱系障碍(Autism Spectrum Disorder, ASD)是一种具有高度异质性的神经发育障碍,目前诊断主要依赖行为评估,缺乏客观的生物标志物。本研究旨在通过跨物种蛋白质组学整合方法,结合机器学习分析,挖掘与ASD相关的保守分子特征,为开发可靠的诊断工具提供新思路。研究以CNTNAP2基因敲除(Knockout, KO)小鼠——一种成熟的ASD遗传模型——以及人类ASD患者的血清样本为主要研究对象。
方法
研究首先对CNTNAP2 KO小鼠的脑组织和血清,以及人类ASD患者和神经典型对照者的血清进行了定量蛋白质组学分析。样本处理包括高丰度蛋白去除、酶解和液相色谱-串联质谱(LC-MS/MS)分析。使用DIA-NN等软件进行蛋白质鉴定和定量,并通过统计方法筛选差异表达蛋白(Differentially Expressed Proteins, DEPs)。
为进行跨物种比较,研究人员将小鼠蛋白质数据通过g:Profiler平台和UniProt数据库映射到其人类同源物,仅保留明确的一对一同源关系。最终,整合了来自小鼠脑、小鼠血清和人类血清三个数据集中共同检测到的蛋白质,构成了一个“物种间共享同源蛋白集”。这个集合的定义基于蛋白质身份和跨物种可检测性,而非表达水平变化的一致性。
在机器学习和生物标志物筛选方面,研究者从共享蛋白集及通过蛋白质-蛋白质相互作用(Protein-Protein Interaction, PPI)网络分析识别的蛋白质中提取特征。使用Extra Trees Classifier进行特征重要性排序,筛选出最具区分力的蛋白质组合。随后,评估了包括XGBClassifier在内的多种机器学习算法在训练集和独立测试集上的性能,通过准确度、敏感度、特异度和受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)等指标进行模型评估。
结果
3.1. CNTNAP2 KO小鼠与人类ASD患者的蛋白质组分析
蛋白质组学分析显示,在小鼠血清中鉴定出1706个蛋白质,其中589个为DEPs。在小鼠脑组织中鉴定出8915个蛋白质,其中495个为DEPs。在人类ASD血清中鉴定出242个蛋白质,其中132个为DEPs。这些差异表达情况通过火山图进行了可视化展示。
3.2. 跨物种比较分析
通过同源映射和数据集整合,研究发现有1018个蛋白质在小鼠脑和血清中均有检测。更重要的是,有132个蛋白质在小鼠脑、小鼠血清和人类ASD血清三个数据集中被共同检测到,构成了一个共享的同源蛋白核心集。该工作流程和蛋白质重叠情况通过维恩图进行了总结。对共享蛋白集分别进行小鼠和人类数据的蛋白质-蛋白质相互作用网络分析,揭示了涉及补体和凝血级联、血浆脂蛋白颗粒代谢、氧化应激等相关过程的蛋白质功能簇。
3.3. 利用机器学习识别生物标志物组合
通过基于Extra Trees Classifier的特征选择,研究确定了10个排名最高的蛋白质:COL1A1, ITIH4, CLU, NID1, C5, MASP1, PON1, PLTP, HSPA5, FETUB。这些蛋白质的特征重要性排序如图所示。在评估的多种机器学习算法中,XGBClassifier在独立测试集上表现最佳,其准确度为0.78,敏感度为0.67,特异度为0.82,AUROC为0.82。该模型的性能通过ROC曲线(AUC=0.75)、精确率-召回率曲线和混淆矩阵进行了评估。
3.4. 生物标志物在ASD患者血清中的差异表达
进一步分析显示,在ASD患者与对照者的血清中,除补体成分C5外,其余9个候选蛋白质均表现出显著的差异表达,这增强了该生物标志物组合用于ASD诊断的潜力。
3.5. 通路与网络分析
对10个候选生物标志物进行功能富集分析(Gene Ontology, GO; KEGG)显示,它们在突触信号传导、免疫相关过程、细胞应激反应和代谢调节等方面显著富集。其功能富集情况通过气泡图进行了展示。蛋白质-蛋白质相互作用网络分析进一步将这些蛋白质划分为不同的功能簇,包括一个与脂质代谢相关的簇、一个包含COL1A1和NID1的细胞外基质相关簇,以及一个以MASP1为中心的免疫相关节点。其中,CLU在网络中显示出最高的连接度,可能作为连接不同功能模块的枢纽。
讨论
本研究通过整合CNTNAP2 KO小鼠和人类ASD患者的蛋白质组数据,识别出一个由132个蛋白质组成的跨物种共享同源蛋白集,这些蛋白质反映了基于蛋白质身份和跨物种存在性的共享分子特征,而非表达变化方向的一致性。这为超越单一物种或组织分析、优先筛选与ASD生物学相关的候选分子特征提供了框架。
利用机器学习从该共享蛋白集中筛选出的10个蛋白质组合,在本研究分析的队列中显示出区分ASD与对照样本的能力。然而,该结果基于内部交叉验证和单一训练/测试集划分,且队列未按临床亚型、症状严重程度等进行分层,因此应被视为探索性和假设生成性的,而非具有广泛诊断适用性的通用标签。
功能分析表明,这些候选蛋白质涉及突触信号、免疫调节、氧化应激反应和代谢通路等多个生物学过程,与ASD的已知病理生理机制相吻合。特别是脂质代谢和氧化应激相关蛋白的富集,提示了代谢失衡在ASD中的潜在作用。蛋白质CLU作为网络枢纽,可能在连接代谢和免疫通路中扮演整合角色。同时,补体系统成分(如C5)和ITIH家族蛋白的参与,进一步支持了神经免疫失调机制在ASD中的相关性。
结论
与以往主要关注遗传变异、免疫标志物或氧化应激的ASD生物标志物研究相比,本研究提供了一个互补的视角,强调在蛋白质组水平上识别跨物种共享的同源蛋白质特征。通过将跨物种蛋白质组学与机器学习和网络分析相结合,该研究优先筛选了可能与ASD相关生物学过程有关的候选分子特征,有助于将动物模型的分子观察结果与人类ASD样本中的发现联系起来。
研究也存在一些局限性,包括队列规模有限、依赖单一的ASD小鼠模型、机器学习分析缺乏独立的外部验证等。未来的研究需要在更大规模、表型分层的患者队列以及更多ASD相关动物模型中进行验证,并整合多组学方法,以评估所发现生物标志物的普遍性、稳健性和潜在的临床应用价值。总之,本研究证明了跨物种蛋白质组学整合结合机器学习与网络分析,可作为识别ASD相关候选分子特征的有效发现框架。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号