《Computational Biology and Chemistry》:Glioblastoma diagnostic models and therapeutic drug discovery based on GEO data and machine learning methods
编辑推荐:
胶质母细胞瘤(GBM)治疗研究通过整合机器学习算法组合、蛋白质互作网络及分子动力学模拟,建立了高维度筛选流程。使用175种机器学习算法组合分析GEO数据库的771个差异表达基因,结合SHAP解释和生存分析确定LOX为核心治疗靶点。经虚拟筛选、ADMET预测和分子对接验证,发现多个候选化合物并证实LOX-配体结合具有高稳定性(RMSD<2.0 ?,Rg变化<5%)。该方法通过多算法集成和动态验证,解决了传统GBM靶点筛选的模型单一性和动态验证不足的问题,为精准治疗提供新策略。
作者:韩世谦 | 王广泽 | 王军 | 刘云宁
中国辽宁省沈阳市沈阳化工职业技术学院科学学院,邮编110142
摘要
背景
胶质母细胞瘤(GBM)由于高度的分子异质性和治疗耐药性而仍然具有致命性。尽管先前的研究提出了多种生物标志物,但仍存在一个关键的研究空白:缺乏可靠的算法验证以及与药物发现的系统关联。现有的研究主要依赖于单一的机器学习模型或传统统计学方法,这些方法往往无法在不同临床数据集中提供稳定的结果。为了解决这个问题,我们开发了一个高维流程,比较并整合了175种机器学习算法组合。与传统的单一模型工作流程不同,这种方法确保了目标识别的稳定性,并利用基于SHAP的可解释性和分子动力学来弥合生物标志物发现与精准治疗之间的差距。
方法
通过蛋白质-蛋白质相互作用(PPI)和功能分析对GEO数据集中的差异表达基因(DEGs)进行了优化。175种算法的组合识别出了核心基因,并通过生存分析验证了其临床实用性。随后实施了一个药物发现流程,包括虚拟筛选、ADMET和分子动力学(MD)分析,以评估针对这些核心基因的化合物。
结果
在771个DEGs中,识别出34个关键基因,其中LOX被验证为核心治疗靶点。最优预测模型的AUC达到了0.953,而生存分析进一步强调了LOX的显著预后价值。经过系统筛选后,通过MD模拟确定了最具潜力的化合物,该化合物表现出优异的结合稳定性、良好的药代动力学特性和最小的毒性风险。
结论
这一集成流程为识别精准靶点和有效的候选化合物提供了可靠的框架,为克服GBM治疗难题提供了新的策略。
引言
胶质母细胞瘤(GBM)是最常见的原发性恶性颅内肿瘤,在世界卫生组织(WHO)的中枢神经系统肿瘤分级系统中被归为IV级。未经治疗的患者中位生存期仅为约3个月(Linhares等人,2020年)。其全球年发病率约为每10万人中有3例(Agarwal等人,2024年)。由于其高复发率和对现有治疗的耐药性,GBM被广泛认为是最难治疗的肿瘤之一,仍然是临床研究的重点(Yalamarty等人,2023年)。尽管已经开发了多种治疗方法,包括细胞毒性化疗、靶向治疗、电场疗法和免疫疗法,但治疗效果仍不尽如人意(Wu等人,2021年)。患者长期生存率低,复发率高且普遍存在治疗耐药性(Liu等人,2024年)。
尽管有大量的GBM基因组数据可用,但准确识别可靠的治疗靶点仍然具有挑战性。这主要是由于转录组数据的高维性和噪声,这常常导致模型过拟合。此外,许多现有研究仅依赖于单一的传统算法,导致在不同数据集中选定的基因的稳健性较差。尽管最近的研究利用了差异表达和蛋白质-蛋白质相互作用(PPI)网络来探索GBM靶点(Song等人,2024年),但筛选过程通常仅限于应用单一模型。很少有尝试结合不同的机器学习算法,也缺乏对各种筛选模型可靠性的比较分析。
为了解决上述局限性,本研究在进行了传统的差异分析和构建PPI网络后,并没有直接使用单一模型。相反,我们建立了一个更为严格的筛选流程。具体来说,我们使用了15种机器学习算法生成了175种排列和组合,使用AUC指标评估了所有组合的性能。通过这些算法的内部比较分析,我们确定了最稳健的模型,并进一步确定了七个候选核心基因。这种方法有效缓解了单一算法使用中的不稳定性,显著提高了结果的可靠性。在确定候选核心基因后,我们通过结合SHAP(Shapley Additive Explanations)来解决机器学习模型的可解释性挑战——通常被称为“黑箱”效应——以评估每个基因对预测结果的贡献。结合生存分析,这一过程确定了LOX为核心基因,确保结果具有统计意义和生物学合理性。在确定核心基因后,我们开始了针对该靶点的药物筛选。候选化合物来自ChEMBL数据库,并通过Ro5原则、PAINS过滤和ADMET预测进行了多步骤筛选。这一步骤旨在筛选出具有不良药物性质或化学干扰的分子。随后,我们通过分子对接评估了LOX的药理性。这一步骤旨在验证所识别的生物标志物是否能够稳定地与小分子结合,从而证明LOX是一个可行的GBM药物治疗靶点。由于对接本质上是静态的,无法模拟溶剂系统中的动态稳定性,我们进一步进行了分子动力学(MD)模拟。通过分析RMSD、Rg、SASA和RMSF等关键指标,验证了配体-受体结合的稳定性。这种方法从静态筛选过渡到动态验证,确保了筛选结果的可靠性,并为后续针对GBM的靶向药物开发提供了参考。
部分摘录
访问公共数据
本研究中使用的GBM生物标志物的功能特征来源于来自公共NCBI GEO数据集的基因表达数据(https://www.ncbi.nlm.nih.gov/geo/)(Barrett等人,2013年)。GEO是一个全球开源的基因组数据检索数据库,为研究提供了丰富的公共资源(Clough等人,2023年)。从GEO数据库中检索了与人类GBM相关的数据集,并将其分为训练和测试队列。
差异表达基因(DEGs)和GSEA
本研究对GSE116520和GSE137900数据集进行了差异表达分析(logFC > 2,adj.P.Val < 0.05)。在数据质量评估阶段进行了主成分分析(PCA)。在GSE116520中,PC1贡献了17.8%的方差,PC2贡献了7.2%的方差(图2A)。在GSE137900中,PC1贡献了26%的方差,PC2贡献了18.9%的方差(图3A)。两个数据集中的“对照组”和“治疗组”的样本点显示出明显的差异
GBM诊断的现状及本研究的意义
GBM是一种原发性恶性肿瘤,起源于大脑或脊髓细胞的异常生长,其特征是快速增殖和强烈的组织侵袭性。尽管GBM可以发生在任何年龄,但其发病率随年龄增长而增加,给家庭和社会结构带来了巨大的经济和心理负担。尽管在靶向治疗和免疫治疗方面取得了进展,但由于缺乏高灵敏度的早期诊断生物标志物和有效的治疗手段,GBM仍然是一个主要的临床挑战(Yalamarty等人,2023年)。
结论
总之,本研究利用GEO数据集和机器学习算法开发了一个GBM诊断模型。通过整合生存分析和功能分析,确定了LOX作为与患者预后和肿瘤进展显著相关的核心特征。这些发现与当前文献中关于该基因在驱动恶性发展和调节肿瘤微环境中的作用一致。
此外,还构建了一个多阶段的计算筛选框架——包括
CRediT作者贡献声明
刘云宁:软件开发。
王军:正式分析。
王广泽:撰写——初稿、可视化、软件、方法学。
韩世谦:撰写——审稿与编辑、监督、概念化。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
韩世谦目前是沈阳化工职业技术学院科学学院的副院长。他于2004年获得东北大学数学硕士学位。他的研究兴趣包括深度学习和动态化学过程的故障诊断。