整合生物信息学与机器学习，研究用于大动脉粥样硬化性中风的具体生物标志物

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computational Biology and Chemistry》：Integrated bioinformatics and machine learning, research on specific biomarkers for large-artery atherosclerosis stroke

【字体：大中小】 时间：2026年03月24日 来源：Computational Biology and Chemistry 3.1

编辑推荐：

　　大动脉粥样硬化性脑卒中（LAA）的血液生物标志物研究通过整合多组学数据和机器学习方法，鉴定出PYGL、CLEC4D、LAMP2、IRS2等差异表达基因，并构建lncRNA-mRNA调控网络，最终通过qRT-PCR验证临床样本。

郭琳琳|王阳珍|陈梅英|陈彪|李丽红|林萍|林颖|李伟珍|陈善健

中国龙岩市第二医院实验室医学科，龙岩364000

摘要

大动脉粥样硬化性中风（LAA）是缺血性中风的主要亚型。目前，LAA的诊断主要通过磁共振成像（MRI）来确认。众多物质被广泛研究作为生物标志物，包括代谢物、炎症因子、RNA等。在本研究中，我们整合了来自不同数据集的LAA患者外周血数据，并采用差异分析（differential analysis）、基因表达谱分析（GSEA）、全基因组关联网络分析（WGCNA）、蛋白质相互作用网络分析（PPI）和机器学习等方法，以识别在LAA中特异性表达的分子。我们通过qRT-PCR验证了这些特征基因。通过差异分析，我们在中风患者的外周血样本中鉴定出131个差异表达基因，并通过功能富集分析发现它们与炎症相关信号通路、溶酶体、吞噬体等相关反应有关。WGCNA识别出与大动脉粥样硬化性中风最相关的模块，通过取交集得到50个关键基因，然后使用随机森林算法确定特征基因。结果通过qRT-PCR进行了验证。最后，我们构建了lncRNA-mRNA网络来评估lncRNA与mRNA之间的相互作用。我们的研究表明，PYGL、CLEC4D、LAMP2和IRS2可以作为诊断LAA的生物标志物，而lnc-STARD3NL-4:1可能是一个调控多种LAA相关因子的关键lncRNA。

引言

中风是全球导致死亡和残疾的主要原因之一，其中缺血性中风（IS）占所有中风的80%以上（Sarfo等人，2018年）。大动脉粥样硬化性中风（LAA）是缺血性中风的主要类型，其特征是主要脑动脉（颈动脉或椎动脉）或皮质动脉（前脑动脉、中脑动脉或后脑动脉）出现严重的狭窄或阻塞，这可以通过临床检查和磁共振成像（MRI）等影像学手段检测到（Wu等人，2023年）。

目前的临床诊断主要依赖影像学检查，但在预测中风风险方面效果不佳。大多数患者无法及时预防疾病，从而错过了最佳治疗时机。生物标志物是用于评估正常或病理过程、药物反应以及预测恢复结果的客观指标（Rosário和Fonseca，2023年）。

生物标志物可以是可测量的生化成分、遗传信息，或是通过成像技术捕获的组织物理特征。理想的生物标志物应易于获取、标准化、具有高敏感性和特异性、易于解释、成本效益高，并具有附加价值（Kamtchum-Tatuene和Jickling，2019年）。生物标志物可以帮助患者更好地了解疾病发生或复发的风险。

目前，已有多种生物标志物被证明在预测中风方面具有可靠性（Bang等人，2008年；Kigka等人，2021年）。例如，胆固醇颗粒是一种备受关注的中风生物标志物。一项涉及75,000多名成年人的研究表明，脂蛋白A水平高的个体患颈动脉内膜厚度≥1.0毫米和颈动脉斑块形成的风险增加。与胆固醇代谢相关的蛋白质也被发现与LAA的发生有关。此外，某些炎症因子（如CRP和TNF-α）的激活也被认为与LAA患者的疾病进展有关（Shindo等人，2014年）。CRP水平在颅内LAA患者中显著升高（CRP > 5.5 mg/L；风险比5.4 [2.3至12.7]；p = 0.0001）。

测序技术的发展，尤其是高通量测序技术的出现，为现代生物学研究提供了强有力的支持，为疾病发病机制和治疗方案的研究提供了更全面的证据。同时，公共数据库具有巨大的数据挖掘潜力。面对如此庞大的数据量，机器学习在医学研究（Swanson等人，2023年；Heo等人，2019年）、计算机辅助医疗（Handelman等人，2018年）、影像诊断（Sheth等人，2023年）等领域得到了广泛应用，因其出色的性能和高准确性。同样，机器学习技术在特定疾病生物标志物的研究中也具有巨大潜力。一项使用k-最近邻（k-nearest neighbors）机器学习方法的研究成功识别出10个急性缺血性中风的生物标志物，准确率达到94.9%（O'Connell等人，2016年）。

因此，本研究利用生物信息学和机器学习全面客观地分析了LAA的相关基因和生物学功能，并通过临床样本进行了验证，以确定外周血中能够识别LAA的特异性生物标志物，为疾病发病机制的研究和新药开发奠定了坚实的基础。

数据集和数据预处理

本研究使用的数据集来自GEO数据库（http://www.ncbi.nlm.nih.gov/geo）。GSE16561、GSE124026和GSE58294是基于阵列的表达谱数据集，而GSE146882是基于阵列的非编码基因数据集。此外，我们还包括了GSE197829，这是一个高通量测序（RNA-seq）数据集。对于阵列数据集的探针注释，我们使用了AnnoProbe R软件包。在合并多个数据集进行分析时，我们剔除了批次效应。

中风患者中差异表达基因的鉴定

研究设计如图1所示。首先，我们使用了GEO数据库中的GSE16561数据集，其中包含39个缺血性中风（IS）患者和24个对照组的外周血样本。我们鉴定出131个差异表达基因（DEGs），包括113个上调基因和18个下调基因（图2A）。热图显示IS组与对照组之间的基因表达水平存在显著差异（图2B）。

缺血性中风的功能富集分析

我们对患者外周血中的DEGs进行了功能富集分析

讨论

中风作为对人类生存的主要威胁，由于其突发性和缺乏及时治疗，是导致残疾甚至死亡的主要原因之一。根据临床证据，中风症状出现后的60分钟是临床治疗的黄金时间。通过挽救缺血半影区，可以减少脑损伤，从而缓解中风后的神经功能障碍症状（Fassbender等人，2013年；Baron，2018年）。因此，有必要开发能够

结论

总之，我们通过结合WGCNA和机器学习方法，鉴定了四个潜在的LAA生物标志物基因，即PYGL、CLEC4D、LAMP2和IRS2，并在数据集和临床样本中进行了验证。此外，我们还构建了lncRNA-mRNA网络，有助于发现更深入的基因调控关系。总之，我们的研究揭示了LAA发病机制的潜在机制，为LAA生物标志物和发病机制的研究提供了新的参考。

数据和代码的可用性

本研究中分析的数据集可在基因表达组学数据库（GEO）中获取（https://www.ncbi.nlm.nih.gov/geo/）。本研究中用于数据分析的自定义代码和脚本可向相应作者索取。

机构审查委员会声明

本研究遵循赫尔辛基宣言进行，并获得了福建医科大学第一附属医院伦理委员会的批准（批准编号：MRCTA, ECFAH of FMU [2020]265）。

知情同意声明

所有参与研究的受试者均已获得知情同意。

资助

本研究未接受任何外部资助。

作者贡献声明

林颖：软件开发。林萍：撰写 – 审稿与编辑。李丽红：数据分析。陈彪：资源获取。陈梅英：方法学设计。王阳珍：数据可视化。郭琳琳：初稿撰写、数据管理、概念构思。陈善健：结果验证与监督。李伟珍：实验设计。

利益冲突声明

作者声明没有已知的利益冲突或个人关系可能影响本文的研究结果。

利益冲突声明

作者声明没有利益冲突。

联系信箱：

粤ICP备09063491号

摘要

引言

数据集和数据预处理

中风患者中差异表达基因的鉴定

缺血性中风的功能富集分析

讨论

结论

数据和代码的可用性

机构审查委员会声明

知情同意声明

资助

作者贡献声明

利益冲突声明

利益冲突声明

热点排行