一种用于识别脑部疾病关联基因并促进药物重定位的原型增强图表示学习框架(Multi-omics Graph Transformer Network, MOGT)

《PLOS Computational Biology》:A prototype-augmented graph representation learning framework for identifying brain disorder-associated genes and facilitating drug repurposing

【字体: 时间:2026年05月30日 来源:PLOS Computational Biology 3.6

编辑推荐:

  全基因组关联分析(Genome-wide Association Study, GWAS)已鉴定出多个与神经精神疾病及神经退行性疾病相关的遗传位点,但这些位点如何影响疾病的发生机制尚不清楚。深度学习方法与多组学数据的进展有望将GWAS发现与疾病机制相关联。本研

  
全基因组关联分析(Genome-wide Association Study, GWAS)已鉴定出多个与神经精神疾病及神经退行性疾病相关的遗传位点,但这些位点如何影响疾病的发生机制尚不清楚。深度学习方法与多组学数据的进展有望将GWAS发现与疾病机制相关联。本研究提出多组学图变换网络(Multi-omics Graph Transformer Network, MOGT),一种半监督图神经网络(Graph Neural Network, GNN),利用图表示学习对源自多组学数据构建的生物网络进行建模,以预测疾病关联基因。MOGT在两种精神疾病及三种神经退行性疾病/神经系统疾病的疾病基因预测任务中优于现有方法。MOGT预测的帕金森病(Parkinson's Disease, PD)高风险基因(High-Risk Genes, HRGs)与连接图(Connectivity Map, CMAP)数据库整合用于药物发现,最终鉴定出10种潜在候选药物。其中,药物UK-356618在原代神经元模型中经实验验证可逆转PD关联基因的异常表达并改善PD的细胞水平表型。综上所述,MOGT可用于识别脑部疾病的高风险基因,所预测的高风险基因为揭示脑部疾病的发病机制及治疗提供了高层次见解。
《PLOS Computational Biology》刊载论文解读:基于原型增强多组学图变换网络的脑部疾病关联基因识别与药物重定位研究
研究背景与意义
全基因组关联分析(Genome-wide Association Study, GWAS)已发现大量与精神分裂症(Schizophrenia, SCZ)、阿尔茨海默病(Alzheimer's Disease, AD)、帕金森病(Parkinson's Disease, PD)、双相情感障碍(Bipolar Disorder, BP)及偏头痛(Migraine, MG)相关的显著单核苷酸多态性(Single Nucleotide Polymorphism, SNP),但绝大多数显著SNP位于内含子或基因间区,难以直接锚定致病变异所对应的靶基因(即"基因优先排序"问题)。传统无监督整合方法缺乏真值评估且难以处理高维特征,而现有的深度学习方法(如EMOGI、CGMega等)多针对癌症基因预测设计,未充分考虑脑部疾病GWAS特点及SNP–SNP互作(epistasis interaction)信息。为桥接GWAS发现与脑部疾病机制解析,研究人员开发了多组学图变换网络(Multi-omics Graph Transformer Network, MOGT),一种融合原型学习(Prototype Learning)的半监督图变换神经网络,旨在利用SNP–SNP互作网络和多组学节点特征精准预测脑部疾病高风险基因(High-Risk Genes, HRGs),并基于HRGs进行药物重定位(Drug Repurposing)。
主要关键技术方法
研究人员收集SCZ、BP、AD、PD、MG的GWAS汇总数据(显著SNP阈值 p<5×10?8),以索引SNP上下游1 Mb内基因为候选基因;正样本来自HPO、OMIM、DisGeNet、GeneCards并剔除脑低表达基因,负样本为不与正样本互作(BioGRID)且脑低表达的基因。构建以基因为节点、SNP–SNP上位互作(取自UK Biobank,保留top 1%)为边的生物网络图,节点特征整合差异表达(Differential Expression, DE)、患者与对照增强子–启动子互作(Enhancer-Promoter Interactions, EPI)及五个脑区(顶叶、额叶、颞叶、小脑、枕叶)青少年与成人基因表达。MOGT采用基于Transformer的图神经网络层进行消息传递,引入每类含7个原型的原型层,通过对比损失(Contrastive Loss)最大化节点与同类原型互信息,分类层使用Focal Loss应对类别不平衡,经5折交叉验证与早停策略训练,性能以AUROC、AUPRC、F1-score评估。药物重定位以PD为例:用WGCNA和DiffCoEx构建PD基因共表达模块,筛选富集MOGT-HRGs且与PD差异表达基因(Differentially Expressed Genes, DEGs)及PD相关SNP显著富集的模块,将其上调/下调基因提交至CMAP数据库计算连通性评分筛选候选化合物,并通过鱼藤酮诱导的原代小鼠中脑神经元模型及HT-22细胞系验证候选药物效用。
研究结果
Overview of MOGT architecture(MOGT框架概述)
研究人员展示了MOGT整体流程:从GWAS定义候选基因→构建以基因为节点、SNP–SNP互作为边的多组学属性图→原型增强图变换网络训练输出各基因患病关联概率→应用于五种脑部疾病预测HRGs与LRGs(Low-Risk Genes)→取HRGs富集最显著的共表达模块对接CMAP进行药物重定位。框架验证了多组学与网络拓扑联合建模的可行性。
MOGT is effective in predicting brain disorder genes(MOGT在脑部疾病基因预测中的有效性)
在SCZ、AD、PD、BP、MG的留出测试集上,MOGT取得AUROC分别为0.8596、0.8327、0.8475、0.8561、0.7661,AUPRC分别为0.7007、0.6867、0.6786、0.7165、0.1216,均优于EMOGI、HGDC、Logistic Regression及LabelSpreading基线。去除原型学习模块或去除SNP–SNP互作边均导致F1-score下降,证实二者贡献;去除基因表达特征引起最大性能降幅,表明脑区基因表达是最重要组学特征。±500 Kb与±1 Mb窗口下基因风险分类一致性>99%(MG为83.3%),说明SNP–基因映射窗口选择对最终结果影响有限。更换更严格负样本集(不排除BioGRID互作基因)后AUPRC平均降9.4%但AUROC仅降3.7%,模型排序能力仍稳健。
Applications of MOGT in multiple brain disorders(MOGT在多种脑部疾病中的应用)
MOGT分别预测得到SCZ 201个、BP 117个、AD 242个、PD 81个、MG 67个HRGs。组织特异性分析显示HRGs比LRGs在脑组织中(颞叶皮层TCTX、额叶皮层FCTX、海马HIPP、枕叶皮层OCTX)具更高特异表达(pcorrected<0.05,Wilcoxon检验+FDR校正);细胞类型特异性分析表明HRGs在神经元(含GABA能、兴奋性、多巴胺能神经元Dopaminergic neurons, DaNs)、星形胶质细胞、少突胶质细胞中显著富集。脑发育阶段表达轨迹显示HRGs在青春期(12Y≤年龄<20Y)达峰值且在发育全程高于LRGs,提示五种脑部疾病HRGs具相似发育调控模式。
The HRGs identified by MOGT compared with other methods(MOGT鉴定的HRGs与其他方法比较)
以SCZ为例,MOGT预测的HRGs与iGOAT、coloc、TWAS、H-MAGMA预测基因集显著重叠(Fisher精确检验pcorrected<0.05)。MOGT-only基因(未被H-MAGMA等预测为风险基因者)在15个SCZ相关基因集中显著富集,反之其他方法的独有基因仅富集于1~3个集合,说明MOGT敏感性更高。发育表达分析亦显示MOGT-HRGs在脑发育各阶段表达水平高于其他方法所得HRGs。MOGT在留出测试集上AUROC(0.8602)显著高于H-MAGMA(0.6404)和iGOAT(0.6569)。
Applications of MOGT in drug discovery(MOGT在药物发现中的应用)
以PD的81个HRGs构建加权基因共表达网络,筛选出特异共表达模块HCpink同时显著富集PD差异表达基因(pcorrected<0.05)和PD相关SNP(pcorrected<0.05)。取HCpink中10个上调及19个下调基因提交CMAP,获得排名前10的低连通性评分候选化合物。其中UK-356618(选择性基质金属蛋白酶-3抑制剂 Matrix Metalloproteinase-3 inhibitor, MMP3 inhibitor)与GSK-1059615被选取做实验验证。细胞实验表明6 nM UK-356618预处理可显著逆转鱼藤酮(Rotenone)诱导的原代神经元活力下降,减少磷酸化α-突触核蛋白(phospho-α-synuclein, Ser129)聚集并恢复突触标记物微管相关蛋白2(Microtubule Associated Protein 2, MAP2)及酪氨酸羟化酶(Tyrosine Hydroxylase, TH)表达,且上调鱼藤酮抑制的基底突触小泡蛋白基因Bassoon(BSN)转录、下调升高的MMP3蛋白水平。人PD死后黑质组织中BSN表达显著低于对照(p=0.0199),支持BSN为PD潜在关联基因。
讨论与结论
研究人员指出MOGT较既往方法有三点创新:(1)以SNP–SNP互作而非蛋白质–蛋白质互作(Protein-Protein Interaction, PPI)网络作为图边关系;(2)引入原型学习增强对高风险基因典型表示模式的捕获,通过对比损失最大化节点–原型互信息;(3)将GWAS位点和多组学生物网络桥接进行半监督学习。HRGs表现出预期的脑区、细胞类型特异性及发育阶段高表达模式,与已知脑部疾病病理生理相符。药物重定位示例说明MOGT-HRGs可通过共表达模块识别疾病功能单元并筛选逆转其表达特征的已上市/在研药物——即便直接药物靶标(如MMP3)本身非模型预测的HRG,亦可通过模块水平干预发挥神经保护作用,BSN的下调被UK-356618逆转且与PD表型改善相关。研究局限包括负样本排除与正样本互作基因可能人为拉大正负类分离度、±1 Mb窗口未涵盖远端调控、未纳入转录因子等其他调控分子、依赖原始GWAS效力等。综上,MOGT是一种可推广至其他疾病、整合异质基因组数据与图表示学习的通用框架,能高效识别脑部疾病关联高风险基因并辅助药物候选发现,为解析脑部疾病遗传机制及老药新用提供新途径。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号