遗传关联与机器学习改善1型糖尿病风险预测

《Nature Genetics》:Genetic association and machine learning improve the prediction of type 1 diabetes risk

【字体: 时间:2026年05月01日 来源:Nature Genetics 29

编辑推荐:

  1型糖尿病(T1D)具有显著的遗传成分,对T1D进行扩展遗传学研究可增强生物学和治疗发现并改善风险预测。在此,研究人员对20,355例T1D患者和797,363例欧洲血统非糖尿病患者以及10,107例T1D患者和19,639例主要组织相容性复合体(MHC)基因

  
1型糖尿病(T1D)具有显著的遗传成分,对T1D进行扩展遗传学研究可增强生物学和治疗发现并改善风险预测。在此,研究人员对20,355例T1D患者和797,363例欧洲血统非糖尿病患者以及10,107例T1D患者和19,639例主要组织相容性复合体(MHC)基因座非糖尿病患者进行了全基因组遗传关联和精细定位分析,鉴定出160个风险信号。研究人员训练了一种名为T1GRS的机器学习模型,利用遗传风险预测T1D,与之前的评分相比,该模型改善了欧洲人的分类效果,且在非裔美国人中表现相似。特别是在具有较少高风险HLA单倍型和更复杂风险特征的T1D患者中,T1GRS显著提高了预测能力,并揭示了MHC与非MHC基因座之间154种非线性相互作用。最后,基于T1GRS特征,研究人员识别出四个遗传亚群,这些亚群在发病年龄和糖尿病并发症方面存在显著差异。总体而言,改进的遗传发现和预测将对T1D的临床、治疗和研究应用产生广泛影响。
论文解读:遗传关联与机器学习驱动1型糖尿病风险预测与分型的新突破
1型糖尿病(T1D)作为一种自身免疫性疾病,其发病机制涉及遗传易感个体暴露于环境触发因素后,导致胰岛特异性自身抗体和自身反应性T细胞产生,进而引起进行性胰岛素分泌功能丧失。尽管目前已知主要组织相容性复合体(MHC)基因是T1D最大的遗传风险因素,尤其是HLA-DRB1 * 03:01~HLA-DQB1 * 02:01(DR3-DQ2)和HLA-DRB1 * 04:01~HLA-DQB1 * 03:02(DR4-DQ8)单倍型可将风险提高16倍以上,且已发现超过90个非MHC风险位点,但T1D的遗传性仍未完全阐明,且现有遗传风险评分(GRS)通常基于等位基因的加性效应计算,未能充分考虑位点间的非线性相互作用,且计算流程复杂,限制了其临床应用潜力。为了克服这些局限,研究人员开展了此项结合大规模遗传关联分析与先进机器学习技术的研究,相关成果发表在《Nature Genetics》上。
本研究采用了多项关键技术方法。首先,研究人员构建了包含欧洲血统T1D患者和非糖尿病对照的大规模meta分析队列,并利用TOPMed v3等参考面板进行基因型插补。其次,针对MHC区域的高度连锁不平衡(LD),采用了逐步条件分析结合贝叶斯方法推导95%置信集(Credible Sets)。在模型构建方面,研究采用了基于梯度提升框架(CatBoost)的机器学习模型T1GRS,并利用SHAP(Shapley Additive Explanations)分析解析模型特征重要性和非线性相互作用。此外,还通过主成分分析(PCA)和Leiden聚类算法对个体进行了遗传亚型划分,并结合电子健康记录(EHR)定义了临床结局。
研究结果显示,在全基因组关联和精细定位分析中,研究人员共鉴定出160个T1D风险信号,其中包括8个新的风险位点(如ZMIZ1和CLNK)。通过对MHC基因座的精细定位,研究不仅验证了已知的HLA风险等位基因,还发现了4个与已知风险无关的新信号,包括位于HLA-DRB1上游的非编码信号。
在机器学习模型改进T1D分类方面,T1GRS模型在区分T1D与非糖尿病个体时表现出色,曲线下面积(AUC)达到0.937,显著优于现有的GRS2模型。该模型在缺乏高风险HLA单倍型的个体中表现尤为突出,并在非洲裔美国人群体中显示出与族群特异性评分相当的预测能力。
关于非线性相互作用的预测,研究揭示了154对具有统计学显著性的非线性相互作用对,其中最强的相互作用发生在HLA-DQB1氨基酸57位点和HLA-DRB1氨基酸13位点之间。此外,研究还发现了MHC位点与非MHC位点(如INS基因座)之间存在显著的交互作用,表明遗传风险并非简单的线性叠加。
基于T1GRS特征的聚类分析将个体分为四个遗传亚群,分别为“MHC驱动型”、“MHC富集型”、“T细胞富集型”和“胰腺富集型”。这些亚群在临床特征上存在显著差异,例如“MHC驱动型”个体发病年龄较早,而“胰腺富集型”个体虽然发病较晚,但其肾病、神经病变和心血管疾病的风险显著升高。
在讨论部分,研究人员指出,T1GRS模型通过直接利用插补面板中的变异,避免了传统方法中使用代理SNP进行HLA单体型定相所带来的模糊性,极大提高了模型的普适性和可及性。尽管该研究主要基于欧洲血统人群,但在非洲裔美国人中的验证结果令人鼓舞。研究也存在一定局限性,如对电子健康记录(EHR)定义的T1D准确性依赖、环境因素的缺失以及罕见变异的覆盖不足。综上所述,该研究通过整合遗传关联研究与机器学习方法,不仅提供了一个高精度、易用的T1D预测工具T1GRS,还揭示了T1D遗传异质性背后的复杂相互作用和临床亚群,为T1D的精准医疗和基础生物学研究提供了重要的资源与理论依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号