基于多基因风险评分评估帕金森病风险预测在南非混血人群中的应用

【字体：大中小】 时间：2026年03月10日 来源：PLOS Genetics 3.7

编辑推荐：

　　本研究首次在南非多祖先混合人群中，评估了基于欧洲血统（Nalls等人，2019）和全球多血统（Kim等人，2024）全基因组关联研究（GWAS）汇总数据的多基因风险评分（PRS）对帕金森病（PD）风险预测的表现。研究对1398名南非人（661例病例，737名对照）进行了分析，并系统评估了不同连锁不平衡阈值、p值阈值和协变量组合。结果显示，PRS预测效能中等（AUC: 0.5847-0.6183），其中年龄是重要的协变量。工作强调了在全球精准医学研究中纳入代表性不足人群的重要性。

引言：帕金森病的遗传基础与多基因风险评分

帕金森病（PD）是一种复杂的神经退行性疾病，其病因涉及环境和遗传因素的交互作用。尽管约5-10%的病例由效应较大的单基因突变引起，但全基因组关联研究（GWAS）已明确多数散发性PD具有多基因基础，由大量效应微小的遗传变异共同贡献风险。多基因风险评分（PRS）是一种整合GWAS识别的易感性变异及其效应值的方法，用于量化个体的遗传性患病倾向。2016年，首个关于PD的多基因风险与临床结局的报告问世。随后多项研究评估了PRS在PD风险预测中的表现，其预测效能（以受试者工作特征曲线下面积AUC衡量）在~60%-76%之间。这种预测效能在很大程度上取决于所纳入的单核苷酸多态性（SNP）数量和人群特征。PRS可用于个体相对疾病风险的分类，有助于风险分层、早期干预和制定个体化的精准医疗策略。然而，目前关于PD遗传学的大部分知识源于欧洲血统人群的研究，我们对遗传风险在其他人群（如高度混合人群）中如何发挥作用的理解存在巨大空白。本研究首次在南非人群队列中评估了PRS对PD的预测表现。

方法概述：从数据到模型评估

研究数据来自南非PD研究队列，收集时间为2002年至2020年。PD患者（n=691）依据女王广场脑库标准诊断。在质量控制（QC）和排除了亲属关系个体后，最终分析共纳入661名PD病例和737名对照。该南非人群为五向混合（非洲、欧洲、南亚、马来和科伊桑血统）。研究通过全局帕金森病遗传学计划（GP2）使用NeuroBooster Array进行基因分型，并利用TOPMed服务器进行基因型填充。研究采用了两个独立的GWAS汇总统计数据作为基础数据集：一个是基于欧洲血统的Nalls等人（2019）的研究，另一个是包含多种血统的Kim等人（2024）的多血统荟萃分析。目标数据集（南非数据）被随机分为训练队列（70%，n=979）和验证队列（30%，n=419）。PRS计算使用PRSice-2软件，通过逻辑回归进行分析，并校正了性别、年龄和推断的本地血统成分（祖先）。研究测试了不同聚集窗口大小、连锁不平衡（LD）阈值和SNP纳入p值阈值的组合，以确定风险预测的最佳参数。评估预测效能的主要指标包括AUC、敏感性、特异性，并分析了不同协变量组合对模型所解释方差的贡献。

结果：模型效能与协变量贡献

PRS对疾病状态的预测表现

使用Nalls等人（2019）的汇总统计数据，在训练数据集中获得的最佳PRS模型参数为：聚集窗口100kb，LD r²= 0.8，p值阈值=1×10^-3。该模型包含3,466个SNP，在训练集中解释了35.84%的表型方差（PRS R²=0.005）。在验证集中，该模型解释了37.90%的方差（PRS R²=0.019）。使用Kim等人（2024）的多血统汇总数据，最佳模型参数相同（100kb窗口，r²=0.8，p=1×10^-3），包含3,208个变异。该模型在训练集中解释了36.93%的方差（PRS R²=0.015），在验证集中解释了40.17%的方差（PRS R²=0.042）。

模型性能评估

研究通过AUC、敏感性、特异性等指标评估了模型性能。使用Nalls等人（2019）数据构建的PRS模型，在训练数据集的AUC为0.6077，在验证数据集的AUC为0.5847。而使用Kim等人（2024）数据构建的模型，在训练和验证数据集中的AUC分别为0.6183和0.6159。总体而言，PRS模型显示出中等预测能力，AUC值范围在0.5847至0.6183之间。20次随机数据分割的平均AUC结果与原始分割结果一致，表明预测性能稳定。在固定的0.5概率阈值下，分类准确率在55.85%到60.16%之间。敏感性在验证数据集中（约63%）高于训练数据集，而特异性则在训练数据集中更高。通过使用百分位阈值分析发现，随着纳入更多病例（降低阈值），敏感性增加，特异性相应降低，阳性预测值在所有阈值下均较低，而阴性预测值始终很高（>99%）。

协变量对模型方差的贡献

研究评估了年龄、性别和血统（ANC）等协变量组合对方差解释的贡献。结果表明，在仅调整性别时，PRS R²（PRS所解释的方差）最高。然而，包含年龄、性别和血统的模型具有最高的零模型R²，表明这些协变量独立于多基因评分解释了最多的变异。相比之下，仅包含性别的模型零模型R²最低，表明性别本身对模型方差的贡献有限，不能单独用于预测风险。年龄似乎提供了更有意义的贡献，特别是当与其他协变量结合时。值得注意的是，在所有模型和数据集中，PRS R²值始终较低，这表明仅靠当前PRS方法捕获的遗传风险不足以进行可靠的疾病预测。但Delong检验表明，在仅包含性别或血统的模型中加入PRS可以显著提高AUC，而当模型已包含年龄和血统协变量时，PRS带来的增益则不显著。这突显了PRS的预测贡献依赖于人口学和祖先因素。

发病年龄与内部PRS分析

针对PD发病年龄（AAO）的PRS分析显示，PRS对所有数据集中AAO方差的解释比例很小。具体而言，在Nalls等人（2019）的分析中，训练子集和验证子集的PRS R²分别为0.0019和0.0054。在Kim等人（2024）的分析中，相应值分别为0.0005和0.0243。这表明所选PRS对解释该队列的AAO能力有限。此外，研究还利用南非GWAS中达到提示性显著水平的351个变异构建了内部PRS。经过LD聚集后，141个独立变异被纳入。该内部PRS在训练队列中解释了33.9%的表型方差（AUC=0.7736），在验证队列中解释了36.0%的方差（AUC=0.7667）。由于该PRS是在同一队列中构建和测试的，这些估计值可能反映了过拟合，应解释为队列特异性结果而非普遍预测性能。

讨论与结论：意义、局限与未来方向

本研究首次评估了PRS在南非队列中对PD的预测能力。尽管所使用的基础汇总数据与该南非人群（五向混合）的遗传背景不完全匹配，但研究结果表明，多基因模型仍能捕捉到PD易感性中比例不大但显著的一部分方差，凸显了PRS在多样化人群中的效用。通过系统评估不同协变量组合所解释的方差，研究强调了人口学和遗传因素对疾病风险预测的贡献。年龄是重要的预测因子，而性别贡献最小。PRS本身解释的方差有限，表明单靠遗传风险不足以进行可靠的预测，需要整合非遗传协变量以增强预测性能。

本研究的优势在于其新颖性，首次在南非研究人群中评估PD的PRS，从而解决了遗传风险研究中的一个关键空白。通过纳入基于欧洲血统和多血统的汇总统计数据，能够比较PRS在不同血统间的可转移性，并评估基础数据集的祖先组成如何影响预测性能。对聚集阈值、LD参数和p值阈值进行系统评估以确定最佳输入参数组合，进一步强化了本分析方法。

研究也存在一些局限性，包括样本量较小，对照组平均年龄低于病例组，并且缺乏适当的血统匹配验证队列。此外，所达到的AUC值反映了中等程度的判别能力。这一发现表明，虽然PRS有助于风险分层，但其本身尚不足以用于临床决策。未来的研究应结合特定血统的GWAS、功能注释和整合风险模型，以进一步提高PRS在非洲血统和混合人群中的准确性。随着针对非洲和混合基因组的LD资源不断完善，评估PRS-CS或PRS-CSx等LD感知方法至关重要。

总之，本研究结果强调了在构建和评估PRS模型时纳入多样化祖先队列和相关协变量的重要性。通过系统评估不同协变量组合观察到的方差，我们揭示了人口学和遗传因素对疾病风险预测的贡献。未来的努力应继续完善特定血统的风险模型，以确保PRS从研究到早期筛查、疾病风险预测和精准医疗的临床应用转化具有公平性。

热点排行