基于通路聚合遗传剂量平均(PGVDA)的机器学习框架在神经肌肉接头疾病与炎性周围神经病分类中的可解释性研究

《Briefings in Bioinformatics》:PGVDA: a pathway-aggregated genetic dosage framework for interpretable disease classification using machine learning

【字体: 时间:2026年02月05日 来源:Briefings in Bioinformatics 7.7

编辑推荐:

  本研究针对神经肌肉接头疾病(NMDs)与炎性周围神经病(IPNs)鉴别诊断难题,提出了一种基于通路聚合遗传剂量平均(PGVDA)的可解释机器学习框架。通过整合UK Biobank中667例患者的非同义变异数据,利用比值比加权变异剂量进行通路水平聚合,结合SHAP多层级解析,成功识别出糖基化疾病、胶原含细胞外基质等5个关键通路及ADAMTS18、COL27A1等核心基因。该模型AUROC达0.891,为自身免疫性神经肌肉疾病的精准分型提供了新范式。

  
在神经科学领域,神经肌肉接头疾病(NMDs)和炎性周围神经病(IPNs)虽然都影响周围运动系统,但其病理机制和临床管理策略存在显著差异。尤其当患者出现急性呼吸衰竭时,快速准确鉴别重症肌无力(MG)与吉兰-巴雷综合征(GBS)等亚型至关重要——前者需无创通气支持,后者则可能因自主神经功能障碍而禁忌该疗法。然而,当前基于临床症状的鉴别诊断易受主观因素干扰,而遗传层面的直接对比研究尚显不足。更关键的是,相同生物通路在不同疾病中可能通过特异性变异模式发挥作用,这一现象尚未在机器学习框架中得到系统探索。
为破解这一难题,研究团队在《Briefings in Bioinformatics》发表了创新性研究,开发了基于通路聚合遗传剂量平均(PGVDA)的可解释机器学习框架。该研究利用英国生物银行(UK Biobank)的667例患者基因数据,通过将比值比(OR)加权变异剂量聚合至通路水平,构建了既能实现高精度分类又能解析生物机制的双功能模型。
研究采用多阶段技术路线:首先对UK Biobank的487,159例样本进行质控过滤,筛选出249例NMDs和418例IPNs患者的862个非同义变异;接着通过Reactome/GO/KEGG数据库进行通路富集分析,利用比值比对数的权重计算PGVDA值;最后采用留一法交叉验证比较多种机器学习模型,并运用SHAP进行通路-基因-变异三级解析。
通路富集与PGVDA特征表征
研究识别出67个显著富集通路(调整后P<0.05),经层次聚类(HC)和方差膨胀因子(VIF)过滤后保留15个核心通路。统计分析显示所有PGVDA在NMDs和IPNs间均存在显著差异(P<1×10-4),其中胶原含细胞外基质、细胞外基质组织等通路效应量最大。VIF分析证实筛选后的PGVDA变量间多重共线性得到有效控制(VIF<10)。
机器学习模型性能比较
在HC阈值0.4时,逻辑回归(LR)模型表现最优,平衡准确率达0.811,F1分数0.762,AUROC为0.891。与基于多基因风险评分(PRS)的传统模型相比,PGVDA-LR模型在所有HC阈值下均显著优于PRS-LR(Delong检验P<2.86×10-3),证实通路水平聚合能提升预测效能。
SHAP多层级贡献度解析
通过双路径SHAP分析框架,研究揭示出五大关键通路:糖基化疾病(Diseases of glycosylation)、胶原含细胞外基质(Collagen-containing extracellular matrix)、运动蛋白(Motor proteins)、淋巴与非淋巴细胞免疫调节相互作用(Immunoregulatory interactions between a Lymphoid and a non-Lymphoid cell)及细胞外基质组织(Extracellular matrix organization)。基因层面发现ADAMTS18、COL27A1、KIF20B、HLA-A等核心贡献基因,其中免疫相关通路基因多具有特异性,而基质相关通路存在显著基因重叠现象。
该研究创新性地将遗传变异信息聚合至生物通路水平,不仅实现了NMDs与IPNs的高精度分类(AUROC>0.89),更通过可解释AI技术揭示了跨疾病的共享通路特异性扰动模式。例如在糖基化通路中,ADAMTS18基因可能通过调节免疫微环境影响疾病进程;而运动蛋白通路中的KIF20B基因则被发现与神经元极性和髓鞘形成密切相关。这些发现为理解自身免疫性神经肌肉疾病的共性与特性提供了新视角。
尽管研究存在局限于外显子变异、单一人群队列等不足,但PGVDA框架首次证实了通路水平遗传聚合在交叉疾病分类中的优势。未来通过纳入多组学数据扩展模型维度,有望在神经免疫疾病的精准诊疗领域发挥更大价值。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号