整合生物信息学与机器学习,研究用于大动脉粥样硬化性中风的具体生物标志物

《Computational Biology and Chemistry》:Integrated bioinformatics and machine learning, research on specific biomarkers for large-artery atherosclerosis stroke

【字体: 时间:2026年03月24日 来源:Computational Biology and Chemistry 3.1

编辑推荐:

  大动脉粥样硬化性脑卒中(LAA)的血液生物标志物研究通过整合多组学数据和机器学习方法,鉴定出PYGL、CLEC4D、LAMP2、IRS2等差异表达基因,并构建lncRNA-mRNA调控网络,最终通过qRT-PCR验证临床样本。

  
郭琳琳|王阳珍|陈梅英|陈彪|李丽红|林萍|林颖|李伟珍|陈善健
中国龙岩市第二医院实验室医学科,龙岩364000

摘要

大动脉粥样硬化性中风(LAA)是缺血性中风的主要亚型。目前,LAA的诊断主要通过磁共振成像(MRI)来确认。众多物质被广泛研究作为生物标志物,包括代谢物、炎症因子、RNA等。在本研究中,我们整合了来自不同数据集的LAA患者外周血数据,并采用差异分析(differential analysis)、基因表达谱分析(GSEA)、全基因组关联网络分析(WGCNA)、蛋白质相互作用网络分析(PPI)和机器学习等方法,以识别在LAA中特异性表达的分子。我们通过qRT-PCR验证了这些特征基因。通过差异分析,我们在中风患者的外周血样本中鉴定出131个差异表达基因,并通过功能富集分析发现它们与炎症相关信号通路、溶酶体、吞噬体等相关反应有关。WGCNA识别出与大动脉粥样硬化性中风最相关的模块,通过取交集得到50个关键基因,然后使用随机森林算法确定特征基因。结果通过qRT-PCR进行了验证。最后,我们构建了lncRNA-mRNA网络来评估lncRNA与mRNA之间的相互作用。我们的研究表明,PYGL、CLEC4D、LAMP2和IRS2可以作为诊断LAA的生物标志物,而lnc-STARD3NL-4:1可能是一个调控多种LAA相关因子的关键lncRNA。

引言

中风是全球导致死亡和残疾的主要原因之一,其中缺血性中风(IS)占所有中风的80%以上(Sarfo等人,2018年)。大动脉粥样硬化性中风(LAA)是缺血性中风的主要类型,其特征是主要脑动脉(颈动脉或椎动脉)或皮质动脉(前脑动脉、中脑动脉或后脑动脉)出现严重的狭窄或阻塞,这可以通过临床检查和磁共振成像(MRI)等影像学手段检测到(Wu等人,2023年)。
目前的临床诊断主要依赖影像学检查,但在预测中风风险方面效果不佳。大多数患者无法及时预防疾病,从而错过了最佳治疗时机。生物标志物是用于评估正常或病理过程、药物反应以及预测恢复结果的客观指标(Rosário和Fonseca,2023年)。
生物标志物可以是可测量的生化成分、遗传信息,或是通过成像技术捕获的组织物理特征。理想的生物标志物应易于获取、标准化、具有高敏感性和特异性、易于解释、成本效益高,并具有附加价值(Kamtchum-Tatuene和Jickling,2019年)。生物标志物可以帮助患者更好地了解疾病发生或复发的风险。
目前,已有多种生物标志物被证明在预测中风方面具有可靠性(Bang等人,2008年;Kigka等人,2021年)。例如,胆固醇颗粒是一种备受关注的中风生物标志物。一项涉及75,000多名成年人的研究表明,脂蛋白A水平高的个体患颈动脉内膜厚度≥1.0毫米和颈动脉斑块形成的风险增加。与胆固醇代谢相关的蛋白质也被发现与LAA的发生有关。此外,某些炎症因子(如CRP和TNF-α)的激活也被认为与LAA患者的疾病进展有关(Shindo等人,2014年)。CRP水平在颅内LAA患者中显著升高(CRP > 5.5 mg/L;风险比5.4 [2.3至12.7];p = 0.0001)。
测序技术的发展,尤其是高通量测序技术的出现,为现代生物学研究提供了强有力的支持,为疾病发病机制和治疗方案的研究提供了更全面的证据。同时,公共数据库具有巨大的数据挖掘潜力。面对如此庞大的数据量,机器学习在医学研究(Swanson等人,2023年;Heo等人,2019年)、计算机辅助医疗(Handelman等人,2018年)、影像诊断(Sheth等人,2023年)等领域得到了广泛应用,因其出色的性能和高准确性。同样,机器学习技术在特定疾病生物标志物的研究中也具有巨大潜力。一项使用k-最近邻(k-nearest neighbors)机器学习方法的研究成功识别出10个急性缺血性中风的生物标志物,准确率达到94.9%(O'Connell等人,2016年)。
因此,本研究利用生物信息学和机器学习全面客观地分析了LAA的相关基因和生物学功能,并通过临床样本进行了验证,以确定外周血中能够识别LAA的特异性生物标志物,为疾病发病机制的研究和新药开发奠定了坚实的基础。

数据集和数据预处理

本研究使用的数据集来自GEO数据库(http://www.ncbi.nlm.nih.gov/geo)。GSE16561、GSE124026和GSE58294是基于阵列的表达谱数据集,而GSE146882是基于阵列的非编码基因数据集。此外,我们还包括了GSE197829,这是一个高通量测序(RNA-seq)数据集。对于阵列数据集的探针注释,我们使用了AnnoProbe R软件包。在合并多个数据集进行分析时,我们剔除了批次效应。

中风患者中差异表达基因的鉴定

研究设计如图1所示。首先,我们使用了GEO数据库中的GSE16561数据集,其中包含39个缺血性中风(IS)患者和24个对照组的外周血样本。我们鉴定出131个差异表达基因(DEGs),包括113个上调基因和18个下调基因(图2A)。热图显示IS组与对照组之间的基因表达水平存在显著差异(图2B)。

缺血性中风的功能富集分析

我们对患者外周血中的DEGs进行了功能富集分析

讨论

中风作为对人类生存的主要威胁,由于其突发性和缺乏及时治疗,是导致残疾甚至死亡的主要原因之一。根据临床证据,中风症状出现后的60分钟是临床治疗的黄金时间。通过挽救缺血半影区,可以减少脑损伤,从而缓解中风后的神经功能障碍症状(Fassbender等人,2013年;Baron,2018年)。因此,有必要开发能够

结论

总之,我们通过结合WGCNA和机器学习方法,鉴定了四个潜在的LAA生物标志物基因,即PYGL、CLEC4D、LAMP2和IRS2,并在数据集和临床样本中进行了验证。此外,我们还构建了lncRNA-mRNA网络,有助于发现更深入的基因调控关系。总之,我们的研究揭示了LAA发病机制的潜在机制,为LAA生物标志物和发病机制的研究提供了新的参考。

数据和代码的可用性

本研究中分析的数据集可在基因表达组学数据库(GEO)中获取(https://www.ncbi.nlm.nih.gov/geo/)。本研究中用于数据分析的自定义代码和脚本可向相应作者索取。

机构审查委员会声明

本研究遵循赫尔辛基宣言进行,并获得了福建医科大学第一附属医院伦理委员会的批准(批准编号:MRCTA, ECFAH of FMU [2020]265)。

知情同意声明

所有参与研究的受试者均已获得知情同意。

资助

本研究未接受任何外部资助。

作者贡献声明

林颖:软件开发。林萍:撰写 – 审稿与编辑。李丽红:数据分析。陈彪:资源获取。陈梅英:方法学设计。王阳珍:数据可视化。郭琳琳:初稿撰写、数据管理、概念构思。陈善健:结果验证与监督。李伟珍:实验设计。

利益冲突声明

作者声明没有已知的利益冲突或个人关系可能影响本文的研究结果。

利益冲突声明

作者声明没有利益冲突。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号