编辑推荐:
本研究首次在南非多祖先混合人群中,评估了基于欧洲血统(Nalls等人,2019)和全球多血统(Kim等人,2024)全基因组关联研究(GWAS)汇总数据的多基因风险评分(PRS)对帕金森病(PD)风险预测的表现。研究对1398名南非人(661例病例,737名对照)进行了分析,并系统评估了不同连锁不平衡阈值、p值阈值和协变量组合。结果显示,PRS预测效能中等(AUC: 0.5847-0.6183),其中年龄是重要的协变量。工作强调了在全球精准医学研究中纳入代表性不足人群的重要性。
引言:帕金森病的遗传基础与多基因风险评分
帕金森病(PD)是一种复杂的神经退行性疾病,其病因涉及环境和遗传因素的交互作用。尽管约5-10%的病例由效应较大的单基因突变引起,但全基因组关联研究(GWAS)已明确多数散发性PD具有多基因基础,由大量效应微小的遗传变异共同贡献风险。多基因风险评分(PRS)是一种整合GWAS识别的易感性变异及其效应值的方法,用于量化个体的遗传性患病倾向。2016年,首个关于PD的多基因风险与临床结局的报告问世。随后多项研究评估了PRS在PD风险预测中的表现,其预测效能(以受试者工作特征曲线下面积AUC衡量)在~60%-76%之间。这种预测效能在很大程度上取决于所纳入的单核苷酸多态性(SNP)数量和人群特征。PRS可用于个体相对疾病风险的分类,有助于风险分层、早期干预和制定个体化的精准医疗策略。然而,目前关于PD遗传学的大部分知识源于欧洲血统人群的研究,我们对遗传风险在其他人群(如高度混合人群)中如何发挥作用的理解存在巨大空白。本研究首次在南非人群队列中评估了PRS对PD的预测表现。
方法概述:从数据到模型评估
研究数据来自南非PD研究队列,收集时间为2002年至2020年。PD患者(n=691)依据女王广场脑库标准诊断。在质量控制(QC)和排除了亲属关系个体后,最终分析共纳入661名PD病例和737名对照。该南非人群为五向混合(非洲、欧洲、南亚、马来和科伊桑血统)。研究通过全局帕金森病遗传学计划(GP2)使用NeuroBooster Array进行基因分型,并利用TOPMed服务器进行基因型填充。研究采用了两个独立的GWAS汇总统计数据作为基础数据集:一个是基于欧洲血统的Nalls等人(2019)的研究,另一个是包含多种血统的Kim等人(2024)的多血统荟萃分析。目标数据集(南非数据)被随机分为训练队列(70%,n=979)和验证队列(30%,n=419)。PRS计算使用PRSice-2软件,通过逻辑回归进行分析,并校正了性别、年龄和推断的本地血统成分(祖先)。研究测试了不同聚集窗口大小、连锁不平衡(LD)阈值和SNP纳入p值阈值的组合,以确定风险预测的最佳参数。评估预测效能的主要指标包括AUC、敏感性、特异性,并分析了不同协变量组合对模型所解释方差的贡献。
结果:模型效能与协变量贡献
PRS对疾病状态的预测表现
使用Nalls等人(2019)的汇总统计数据,在训练数据集中获得的最佳PRS模型参数为:聚集窗口100kb,LD r2= 0.8,p值阈值=1×10-3。该模型包含3,466个SNP,在训练集中解释了35.84%的表型方差(PRS R2=0.005)。在验证集中,该模型解释了37.90%的方差(PRS R2=0.019)。使用Kim等人(2024)的多血统汇总数据,最佳模型参数相同(100kb窗口,r2=0.8,p=1×10-3),包含3,208个变异。该模型在训练集中解释了36.93%的方差(PRS R2=0.015),在验证集中解释了40.17%的方差(PRS R2=0.042)。
模型性能评估
研究通过AUC、敏感性、特异性等指标评估了模型性能。使用Nalls等人(2019)数据构建的PRS模型,在训练数据集的AUC为0.6077,在验证数据集的AUC为0.5847。而使用Kim等人(2024)数据构建的模型,在训练和验证数据集中的AUC分别为0.6183和0.6159。总体而言,PRS模型显示出中等预测能力,AUC值范围在0.5847至0.6183之间。20次随机数据分割的平均AUC结果与原始分割结果一致,表明预测性能稳定。在固定的0.5概率阈值下,分类准确率在55.85%到60.16%之间。敏感性在验证数据集中(约63%)高于训练数据集,而特异性则在训练数据集中更高。通过使用百分位阈值分析发现,随着纳入更多病例(降低阈值),敏感性增加,特异性相应降低,阳性预测值在所有阈值下均较低,而阴性预测值始终很高(>99%)。
协变量对模型方差的贡献
研究评估了年龄、性别和血统(ANC)等协变量组合对方差解释的贡献。结果表明,在仅调整性别时,PRS R2(PRS所解释的方差)最高。然而,包含年龄、性别和血统的模型具有最高的零模型R2,表明这些协变量独立于多基因评分解释了最多的变异。相比之下,仅包含性别的模型零模型R2最低,表明性别本身对模型方差的贡献有限,不能单独用于预测风险。年龄似乎提供了更有意义的贡献,特别是当与其他协变量结合时。值得注意的是,在所有模型和数据集中,PRS R2值始终较低,这表明仅靠当前PRS方法捕获的遗传风险不足以进行可靠的疾病预测。但Delong检验表明,在仅包含性别或血统的模型中加入PRS可以显著提高AUC,而当模型已包含年龄和血统协变量时,PRS带来的增益则不显著。这突显了PRS的预测贡献依赖于人口学和祖先因素。
发病年龄与内部PRS分析
针对PD发病年龄(AAO)的PRS分析显示,PRS对所有数据集中AAO方差的解释比例很小。具体而言,在Nalls等人(2019)的分析中,训练子集和验证子集的PRS R2分别为0.0019和0.0054。在Kim等人(2024)的分析中,相应值分别为0.0005和0.0243。这表明所选PRS对解释该队列的AAO能力有限。此外,研究还利用南非GWAS中达到提示性显著水平的351个变异构建了内部PRS。经过LD聚集后,141个独立变异被纳入。该内部PRS在训练队列中解释了33.9%的表型方差(AUC=0.7736),在验证队列中解释了36.0%的方差(AUC=0.7667)。由于该PRS是在同一队列中构建和测试的,这些估计值可能反映了过拟合,应解释为队列特异性结果而非普遍预测性能。
讨论与结论:意义、局限与未来方向
本研究首次评估了PRS在南非队列中对PD的预测能力。尽管所使用的基础汇总数据与该南非人群(五向混合)的遗传背景不完全匹配,但研究结果表明,多基因模型仍能捕捉到PD易感性中比例不大但显著的一部分方差,凸显了PRS在多样化人群中的效用。通过系统评估不同协变量组合所解释的方差,研究强调了人口学和遗传因素对疾病风险预测的贡献。年龄是重要的预测因子,而性别贡献最小。PRS本身解释的方差有限,表明单靠遗传风险不足以进行可靠的预测,需要整合非遗传协变量以增强预测性能。
本研究的优势在于其新颖性,首次在南非研究人群中评估PD的PRS,从而解决了遗传风险研究中的一个关键空白。通过纳入基于欧洲血统和多血统的汇总统计数据,能够比较PRS在不同血统间的可转移性,并评估基础数据集的祖先组成如何影响预测性能。对聚集阈值、LD参数和p值阈值进行系统评估以确定最佳输入参数组合,进一步强化了本分析方法。
研究也存在一些局限性,包括样本量较小,对照组平均年龄低于病例组,并且缺乏适当的血统匹配验证队列。此外,所达到的AUC值反映了中等程度的判别能力。这一发现表明,虽然PRS有助于风险分层,但其本身尚不足以用于临床决策。未来的研究应结合特定血统的GWAS、功能注释和整合风险模型,以进一步提高PRS在非洲血统和混合人群中的准确性。随着针对非洲和混合基因组的LD资源不断完善,评估PRS-CS或PRS-CSx等LD感知方法至关重要。
总之,本研究结果强调了在构建和评估PRS模型时纳入多样化祖先队列和相关协变量的重要性。通过系统评估不同协变量组合观察到的方差,我们揭示了人口学和遗传因素对疾病风险预测的贡献。未来的努力应继续完善特定血统的风险模型,以确保PRS从研究到早期筛查、疾病风险预测和精准医疗的临床应用转化具有公平性。