编辑推荐:
本研究通过对全球帕金森病遗传学计划(GP2)中9个不同祖先人群的样本(36,127例病例,19,475例对照)进行大规模、多祖先的基因组范围纯合性(ROH)分析,揭示了病例与对照间在纯合子总长度(SROH)、平均长度(AVROH)、数量(NROH)和近交系数(FROH)上存在显著差异,且这些差异在排除已知隐性PD相关基因后依然存在。研究首次表明,跨人群的ROH区域共同贡献了PD的部分遗传力,并提示了除已知隐性基因外,可能存在额外的隐性遗传修饰因子影响疾病风险和发病年龄(AAO)。通过纯合子定位,本研究在家庭、近亲个体及早发型PD(EOPD)病例中优先筛选了52个变异,为理解PD的隐性遗传结构提供了新视角。
摘要与背景
帕金森病(PD)是一种由复杂基因与环境相互作用引起的疾病,其遗传风险包括罕见、高外显率和常见变异。超过20个基因被报道会导致或易感典型的PD或非典型帕金森病,但大多数缺乏重复验证。尽管单基因突变可能出现在散发病例中,仍有大量遗传力无法解释。约有3%–5%的散发性PD病例涉及PRKN、PINK1和PARK7等隐性变异,尤其在发病年龄(AAO)小于50岁的早发型PD(EOPD)病例中。多态性涉及等位基因频率和效应大小的谱系,包括高风险罕见变异和低风险常见变异。例如,VPS13C中的常见和罕见变异通过全基因组关联研究(GWAS)和隐性遗传研究与PD相关。
纯合子延伸(ROH)是隐性遗传的结果。更大、更混合的人群具有更短、更少的ROH,而瓶颈、近亲和孤立人群则具有更长的ROH(如文档中图S1所示)。这反映了特定隐性基因座和风险单倍型对疾病风险的贡献。共享等位基因区域表明了遗传相关性或共同祖先。在相关人群中进行纯合子定位有助于识别常染色体隐性疾病的基因和变异。
本研究旨在进行首次大规模、多祖先的PD研究,以评估基因组范围同源性对疾病风险和AAO的影响。通过分析九个不同人群的基因分型、插补和全基因组测序(WGS)数据,我们旨在识别有助于PD遗传力的新型同源性区域。
方法与数据
本研究使用了来自全球帕金森病遗传学计划(GP2)第10版发布的数据,包括来自九个祖先人群的34,599名PD病例和19,475名对照:非洲混合(AAC)、非洲(AFR)、德系犹太人(AJ)、美洲混合(AMR)、中亚(CAS)、东亚(EAS)、欧洲(EUR)、中东(MDE)和南亚(SAS)。此外,还包括了8,031名PD病例和3,496名对照的WGS数据。
基因分型使用NeuroBooster Array进行,原始数据通过GenoTools流程处理,包括初始质量控制(QC)和插补。使用PLINK版本2.0对插补后的数据进行进一步QC。使用KING版本2.3计算亲缘系数,并移除了亲缘系数≥0.0884(表明是二级亲属)的相关个体,最终保留了54,675名无关个体(35,637名PD病例;19,038名对照)。变体经过过滤,次要等位基因频率<5%,并以50kb窗口大小、5步长和r2为0.5进行修剪。
个体ROH的检测是使用PLINK版本1.9分别对祖先群体进行的,应用了50个单核苷酸多态性(SNP)的滑动窗口,步进方法为1500kb。ROH区域至少需要100个SNP,允许一个杂合SNP和五个缺失SNP的阈值。如果一个区域中每个SNP被至少5%的纯合滑动窗口覆盖,则被认为是一个潜在的ROH。ROH的截断值设定为>1.5 Mb,因为更长的ROH更能提供关于近交和疾病关联的信息,而<1.5 Mb的ROH往往反映了连锁不平衡模式和群体亚结构。我们设定了1 Mb的最大SNP距离和每50 kb至少一个SNP的最小密度。
通过以下同源性指标分析每个祖先的病例状态:
1. ROHs总长度(SROH)
2. ROHs数量(NROH)
3. 平均ROH长度(AVROH)
4. 基于ROH的近交系数估计(FROH),使用FROH> 0.0156来识别近亲个体。
我们评估了每个祖先的样本分布。PD病例被分为EOPD(<50岁)和晚发型PD(LOPD,≥50岁)。缺失的AAO使用每个祖先组的平均年龄进行插补。进行了逻辑回归模型分析。所有模型都根据招募年龄、性别和五个主成分进行调整,以捕捉方差同时最小化过拟合。
ROH被进一步研究是否跨越已知的PD、苍白球-锥体束综合征(PPS)和非典型帕金森病基因区域,以及从GWAS基因座定义的风险基因座,使用GWAS命中点和基因上游或下游约1 Mb的窗口。
使用ROH阈值来研究不同人群中ROH长度的起源和时间。逻辑回归测试了AVROH与病例状态之间的关联,并应用了Bonferroni校正。
我们使用纯合子定位来识别因病例状态而异的已知和新型基因组区域。为了识别高外显性隐性变异,我们优先考虑了对照不携带的ROH,并提名了在家庭、有近亲关系的PD病例和EOPD中检测到的ROH区域中的罕见编码变异。变体使用Ensembl的变异效应预测器版本110进行注释。为了进一步验证我们的发现,我们在英国生物样本库和All of Us数据库中,对先前在GP2 PD病例中发现的ROH区域进行了复制分析。
结果
基因组范围评估显示帕金森病同源性增加
参数在29,673名无关个体中进行了检查。我们检测到311,620个>1.5 Mb的ROH,其中92%的对照和94%的病例至少携带一个,表明流行率很高。队列的平均NROH为5.63 ± 0.98,在AMR中最高,在AAC中最低。平均SROH在SAS中最高,在AAC中最低。AAC、AFR、AJ、AMR和MDE的病例具有更长的AVROH,并且在AAC和AFR中,病例比对照有更多的近亲关系。NROH在除AAC和AJ外的所有祖先的病例和对照之间存在显著差异。在排除已知的隐性PD基因后,AMR、EAS、EUR、MDE和SAS中显著的NROH关联仍然存在。MDE和AJ显示出最高的FROH,而AAC显示出最低的FROH。
线性回归显示AAO与SROH、NROH和FROH显著相关,并且在排除已知的隐性PD基因后仍然显著。
超出已知隐性基因的同源性增加提示存在额外的隐性因素
我们研究了AAO-ROH关系以识别遗传-发病修饰因子。逻辑回归分析针对每种PD状态与对照进行。在AFR、AMR和MDE(EOPD)以及EAS、EUR和SAS(LOPD)中观察到显著的SROH差异。AVROH在AAC、AFR、EUR、MDE和SAS(EOPD)以及EAS(LOPD)中富集。此外,NROH和FROH在AFR、AMR和MDE(EOPD)以及EAS和SAS(LOPD)中更高。在AJ或CAS中没有观察到显著性。在排除已知的隐性PD基因后,结果保持不变。
我们通过研究四个参数分析了EOPD与LOPD病例的ROH负担。在AMR和SAS组中存在显著的富集,在其他祖先中没有差异。在排除已知的隐性PD基因后重复了分析。尽管进行了此调整,统计学上显著的结果保持不变,表明在多样的祖先人群中,额外的、尚未阐明的隐性基因有助于PD的遗传力。
同源性重叠已知基因和基因座提示在疾病病因学中具有更广泛的影响
为了探索先前报道的多态性风险基因座可能携带隐性变异的可能性,我们研究了与已知PD、PPS和非典型帕金森病遗传基因座相交的ROH。我们评估了与454个基因区域重叠的ROH片段和病例中富集的ROH。尽管在Bonferroni校正后,ROH在病例中没有富集,但由于潜在的隐性变异的预期低频,我们识别出了跨越这些区域的有希望的ROH。
同源性区间在发病年龄和祖先间存在差异
评估了从2到10 Mb的AVROH。ROH长度在病例状态之间存在差异,在AAC、AFR、CAS和MDE中具有名义显著性,在AMR、EAS、EUR和SAS中具有多个显著长度。对EOPD和LOPD重复了分析,对每组与对照进行了回归。将EOPD与对照比较显示ROH频率存在显著差异。在AJ和EAS中,2 Mb的ROH对LOPD显著,而EUR、MDE和SAS在EOPD和LOPD中均显示出多个显著长度。
ROH重叠在家庭内分离
我们的分析识别出在MDE家庭中分离的10个ROH和在AJ家庭中分离的3个ROH,这些ROH存在于遵循潜在隐性遗传模式的病例中,而在对照中不存在。WGS数据用于研究这些ROH中识别的变体。总共在MDE组中优先考虑了44个变体,包括PINK1中的一个终止获得变体(rs45539432),该变体被分类为致病性的,并可能是EOPD的病因。在AJ家庭中分离的9号染色体上优先考虑了8个变体。在其他祖先组中没有发现仅在病例中分离且在家庭内特有的ROH。
近亲个体中富集的ROH
在总样本中,747名PD病例显示有近亲关系。对这些病例的分析揭示了跨祖先的近亲病例中的ROH计数。WGS数据用于进一步研究仅在近亲个体中存在的ROH。我们总共保留了12个变体,每个变体出现在不同的病例中。
我们的分析在所有祖先中识别了10,883个ROH重叠,其中8,224个在病例中富集,3,207个通过了Bonferroni校正。我们分析了与已知隐性PD、PPS和非典型帕金森病基因及风险基因座重叠的ROH、在近亲个体中富集的ROH以及通过Bonferroni校正的ROH。值得注意的是,AAC和SAS组与已知隐性PD、PPS和非典型帕金森病基因及风险基因座重叠的显著ROH最少,这表明新的遗传原因可能有助于该组的PD易感性,或者具有相同遗传原因的病例数很少。
纯合子定位识别在早发型病例中富集的ROH
使用纯合子定位来研究在EOPD病例中富集的ROH。我们的分析揭示了仅在EOPD病例中存在的ROH池。WGS数据用于进一步研究仅在EOPD病例中存在的ROH。此外,我们调查了在EOPD病例中富集的ROH池,其中91个通过了Bonferroni校正。最后,我们检查了与PD基因重叠的ROH和在EOPD病例中富集的ROH,其中28个与这些区域重叠的ROH通过了Bonferroni校正。
纯合子定位的复制
已识别的13个ROH中没有一个在独立数据集中得到复制。然而,我们复制了47个使用纯合子定位识别的变体。在英国生物样本库中,在41个复制的变体中,39个在病例和对照中均存在,5个仅在对照中发现。在All of Us中,在37个复制的变体中,31个在病例和对照中均存在,6个仅在对照中发现。
结论
本研究是对不同人群中PD同源性进行的最广泛筛查。我们成功地调查了九个祖先中ROH的负担。我们筛选了与已知隐性PD、PPS和非典型帕金森病基因/风险基因座相交的ROH。我们进一步提名并优先考虑了家庭、近亲个体和EOPD病例中的新型共识ROH,并使用WGS数据验证了这些发现。
我们的多祖先基因组范围评估揭示了PD中同源性增加。在近亲人群,如MDE和AJ组中,观察到SROH、AVROH和NROH的较大值。来自这些人群的个体更可能共享最近的共同祖先。为了定义PD发病的隐性修饰因子,在EOPD和LOPD中观察到ROH负担的显著过度表达。这些发现突出了ROH参数在理解PD遗传结构中的相关性。此外,在排除已知的隐性PD基因后,关于病例与对照、EOPD与对照、LOPD与对照以及EOPD病例与LOPD病例的结果显示统计学显著性保持不变。最终,基因组同源性增加(排除已知隐性基因)表明未知的遗传因素有助于PD的遗传力。
以细致的方式表征了同源性增加,并可能提名了包含新型和罕见隐性变异的区域以供进一步研究。与已知基因和风险基因座相交的ROH提示了疾病病因学中假定的多效性效应,或者存在跨不同祖先的误诊病例,值得进一步调查。尽管WGS数据的可用性有限,限制了对已知基因区域内重叠ROH的全面评估,但仍出现了值得注意的发现。少量的PRKN和PINK1携带者可能反映了WGS样本针对已知遗传原因阴性的预选。然而,这些发现支持了ROH分析在揭示已知和潜在已知区域中人群特异性纯合信号的价值,特别是在研究不足的群体中。
我们观察到与先前报道的EOPD类似的趋势,即随着ROH区间增量的增加,AVROH减少。同源性长度区间分析揭示了基于AAO和祖先的独特遗传结构模式。这突出了具有更高混合水平的群体,通常被视为“更古老”的群体,往往表现出更短的ROH片段。这些较短的片段可能存在了更长时间,表明是古老的混合。相比之下,更长的ROH反映了更近的亲缘关系,可能来自奠基者效应或近亲繁殖。这种区别为研究家族特异性ROH与作为常见群体单倍型的ROH提供了一个概念验证。此外,在大多数祖先组中,EOPD病例的AVROH持续高于LOPD病例。然而,在AJ、EUR和SAS人群中,LOPD病例表现出比EOPD病例略高的AVROH。祖先间的这些差异进一步强调了在PD遗传研究中纳入多样化祖先群体以充分理解遗传结构的重要性。
本研究识别了在家庭内分离的同源性重叠、在近亲个体中富集的区域以及在EOPD病例中富集的区域。在21个优先考虑的WGS变体中,rs45539432被确定为MDE组中一个家庭的PD遗传原因。该变体先前被显示在苏丹一个家庭的受影响成员中共分离。功能研究表明,编码的蛋白质表达较差、不稳定,在线粒体去极化时仅得到最小程度的稳定,无法激活Parkin并启动底物泛素化。其余优先考虑的变体是错义或剪接位点变体,被分类为可能良性或未报告。尽管EUR组拥有最多的EOPD病例,但MDE组拥有最多仅存在于病例中的ROH。
相反,所有组都显示出EOPD病例中与已知PD基因区域重叠的ROH。这表明,尽管一些祖先群体可能携带尚未与已知PD区域关联的独特遗传因素,但其他群体显示出与已确定的PD基因座的直接重叠。这将支持我们关于新型多态性效应的假设。不同群体中已知PD区域存在ROH,突显了PD复杂的遗传结构,涉及常见和潜在的新型遗传因素对疾病易感性的贡献。尽管纯合子定位没有识别出任何与PD相关的新基因区域,但研究结果证明了这种分析方法在探索疾病遗传病因学方面的潜力。在此,我们开发了一个开放科学框架,以无偏见和大规模的方式进行纯合子定位。未来的研究应侧重于跨不同祖先的更大样本量,并包括全面的WGS数据,以进一步识别有助于疾病易感性的罕见变异。
尽管我们成功地进行了跨九个祖先的基因组范围同源性评估,但我们的研究存在局限性。首先,EUR参与者的主导地位可能导致结果偏差,因为他们的过度代表性可能歪曲解释,并限制了跨祖先的普适性。此外,某些祖先群体,如MDE组,对照数量有限,导致病例与对照的比例不平等,并可能影响检测ROH关联的能力。由于样本量限制,我们在一些人群中检测罕见变异的能力不足,限制了我们捕捉全部遗传多样性的能力,并可能低估了在非欧洲人群中重要的罕见变异。缺失的年龄被插补以作为协变量纳入,引入了潜在的偏差和不确定性,可能影响结果的准确性。此外,大多数我们通过基因分型优先考虑的ROH池没有WGS数据,限制了我们进一步探索提名区域的能力。未来的数据发布预计将显著增加WGS的数量,特别是对于先前在PD遗传研究中代表性不足的群体。此外,最初的ROH可能特定于原始数据集,可能是由于群体结构、小样本量或噪音,并且不能推广到其他群体。然而,纯合子定位寻找的是纯合区域内的特定变体,而不是整个ROH。复制的变体也在对照中发现,这意味着这些不是完全外显的,也不是高度有害的突变。此外,我们承认,一些被识别为纯合的区域实际上可能代表由于一个等位基因的缺失而导致的半合子,而不是真正的纯合。区分这些情况对于基因分型和插补数据具有挑战性,因为此类平台无法以所需的分辨率可靠地检测拷贝数丢失。这一限制意味着我们识别的一些纯合区域或变体可能反映了潜在的缺失,而不是双等位基因遗传。未来使用高分辨率测序或补充拷贝数分析的研究可能有助于解决这种模糊性,并提供对真正纯合区域的更精确映射。最后,我们承认可能高估了由杂合缺失导致的潜在ROH的存在,这有效地模仿了纯合性的行为。纯合和杂合结构变异的分析不在本项目范围内。
我们的发现强调了同源性对PD遗传病因学的潜在贡献,提供了令人信服的证据,表明PD遗传力的额外部分可能归因于已知隐性PD基因之外的隐性遗传模式。我们全面的方法提名了几个跨不同祖先在PD中富集的新型ROH,为促进我们对全球范围内PD遗传力理解的进一步发现铺平了道路。