基于模拟的遗传疾病预测方法评估：机器学习分类器与多基因风险评分的比较研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Human Genetics》：Evaluating genetic-based disease prediction approaches through simulation

【字体：大中小】 时间：2026年01月22日 来源：Human Genetics 3.6

编辑推荐：

　　本研究针对不同遗传架构下疾病预测模型性能评估不足的问题，通过蒙特卡洛模拟生成含500个风险SNP的模型基因组，系统比较了逻辑回归、随机森林、朴素贝叶斯和神经网络等机器学习分类器在加性、显性、隐性等遗传模式下的预测效能。研究发现随机森林在各类遗传模式下均表现最优，且多基因风险评分(PRS)与预测精度(AUC)存在显著相关性，为复杂疾病遗传预测模型的优化选择提供了重要依据。

随着大规模遗传关联研究的深入开展，人们对复杂疾病遗传基础的理解日益深入。全基因组关联研究(GWAS)已发现数十万个与疾病易感性相关的高频变异，为利用基因组数据改进疾病预测和诊断带来了希望。然而，不同预测建模方法在不同遗传架构下的相对性能尚未得到系统评估。由于等位基因频率、基因型外显率、易感位点数量和上位性相互作用等因素共同决定疾病的遗传架构，理解这些参数对各类预测模型性能的影响，对提高基因组谱的疾病预测准确性至关重要。

为系统评估不同预测算法在疾病遗传预测中的效能，威斯康星大学麦迪逊分校等机构的研究团队在《Human Genetics》发表了题为"Evaluating genetic-based disease prediction approaches through simulation"的研究论文。该研究通过构建蒙特卡洛模拟，生成包含500个携带风险等位基因的SNP的模型基因组，参数化了效应强度和不同遗传模式（加性、显性、隐性及其组合），在此基础上比较了多种机器学习分类器的预测性能。

研究采用的关键技术方法包括：基于Hardy-Weinberg平衡和Beta分布等位基因频率的疾病遗传模型构建、多基因风险评分(PRS)计算、LASSO特征选择，以及逻辑回归(LR)、随机森林(RF)、朴素贝叶斯(NB)和前馈多层神经网络(NN)四种机器学习分类器的比较评估，所有分析均基于平衡设计的4000个模拟基因组（2000病例/2000对照）进行。

分类器性能比较

研究发现，随着外显率扰动值δ?的增加，所有分类器的AUC均从0.5开始单调增加，呈现近似线性增长后渐近接近1.0的S型曲线模式。在不同遗传模式下，随机森林分类器在大多数δ?值范围内均优于其他算法，特别是在隐性遗传效应下优势最为明显。逻辑回归和朴素贝叶斯表现居中，而神经网络预测精度最低。特征选择通过LASSO对分类器性能改善影响甚微，这与模拟中无效位点仅占10%的设计相关。

AUC与PRS的关系分析

研究表明，病例与对照间的PRS差异(ΔPRS)与逻辑回归预测器的AUC存在显著相关性（加性模型r=0.884，隐性模型r=0.924，显性模型r=0.815）。通过比较模拟获得的AUC与Dudbridge推导的解析预测值，发现当风险等位基因效应较弱时，对数风险模型能准确估计AUC-PRS关联，而当风险等位基因效应较强时， liability阈值模型表现更优。这种差异可能与遗传风险在人群中的分布特征有关：效应较强时，病例和对照基因型分区更明显，更接近阈值模型；效应较弱时，基因型重叠度高，对数风险模型更适用。

研究结论与意义

该研究通过系统模拟评估，证实了随机森林在非上位性遗传架构下具有最优的疾病预测能力，支持了PRS作为疾病风险启发式指标的实用价值。研究还揭示了不同遗传模式下分类器性能的差异规律，以及PRS与预测精度关系的模型依赖性。这些发现为复杂疾病遗传预测模型的优化选择提供了重要参考，同时也指出了当前研究在连锁不平衡、上位性相互作用等多基因复杂架构方面的局限性，为后续研究指明了方向。该模拟框架可进一步扩展至多祖先样本、连锁不平衡整合等更复杂的生物真实场景，推动基因组医学时代的精准疾病预测发展。

联系信箱：

粤ICP备09063491号

热点排行