基于短串联重复序列的全基因组关联研究揭示阿尔茨海默病的遗传机制

《Nature Communications》:GWAS on short tandem repeats identifies genetic mechanisms in Alzheimer’s disease

【字体: 时间:2026年06月06日 来源:Nature Communications 15.7

编辑推荐:

  全基因组关联研究(GWAS)通常聚焦于单核苷酸多态性(single-nucleotide polymorphisms,SNPs),而常常排除短串联重复序列(short tandem repeats,STRs)等复杂遗传变异。在此,研究人员报告了在英国生物样本库

  
全基因组关联研究(GWAS)通常聚焦于单核苷酸多态性(single-nucleotide polymorphisms,SNPs),而常常排除短串联重复序列(short tandem repeats,STRs)等复杂遗传变异。在此,研究人员报告了在英国生物样本库(UK Biobank)约330,000名个体中,系统评估短串联重复序列(包括基于推断获得者以及通过全基因组测序(whole genome sequencing,WGS)直接分型者)对阿尔茨海默病风险影响的GWAS分析结果。该数据集包括3287例病例、47,048例阿尔茨海默病代理病例(Alzheimer’s disease-by-proxy cases)以及283,111名对照。利用短串联重复序列基因型数据,研究人员鉴定出15个彼此独立的位点,显示出与阿尔茨海默病风险达到全基因组显著水平的关联证据。尽管大多数已识别位点此前已被基于SNP的GWAS提示,研究仍检测到位于SNX32(chr. 11q13)和WSB1(chr. 17q11)附近的基于STR的关联信号。此外,研究进一步界定了若干其他位点,在这些位点中,短串联重复序列而非SNP,要么构成主导关联信号(ABCA7),要么对由SNP驱动的关联作出重要贡献(HLA-DRB1、MINDY/ADAM10和APOE)。遗传力分析估计,在该数据集中,短串联重复序列至少解释了阿尔茨海默病总表型方差的3%。将最显著的短串联重复序列与人脑样本的DNA甲基化和转录组谱进行整合后提示,若干短串联重复序列可能通过影响基因表达而发挥其生物学效应。
该论文发表于《Nature Communications》,围绕阿尔茨海默病(Alzheimer’s disease,AD)的复杂遗传结构展开,重点考察了以往常被传统全基因组关联研究(genome-wide association study,GWAS)忽视的短串联重复序列(short tandem repeats,STRs)在疾病风险中的作用。阿尔茨海默病是典型的复杂神经退行性疾病,早发型家族性阿尔茨海默病可由APP、PSEN1和PSEN2中的罕见致病突变直接导致,而绝大多数晚发型病例则受多基因遗传结构支配。既往基于单核苷酸多态性(single-nucleotide polymorphisms,SNPs)的GWAS已在70多个位点发现与AD风险显著相关的常见变异,但仍有相当比例的表型方差无法解释,即所谓“缺失遗传力”。在这一背景下,STR因其高度多态性以及对基因表达、mRNA剪接和DNA甲基化的广泛影响,被认为可能是补充解释AD遗传结构的重要变异类别。受限于早期技术条件,STR在复杂疾病中的全基因组系统研究长期不足,因此开展本研究具有明确的理论与方法学意义。

研究人员利用英国生物样本库(UK Biobank,UKB)的大样本数据,对STR与AD风险之间的关系进行了系统评估,分别采用基于SNP数据推断的STR基因型以及WGS直接获得的STR基因型开展关联分析。研究最终鉴定出15个独立位点与AD风险达到全基因组显著相关,其中大多数位点与既往SNP-GWAS所发现区域重叠,但SNX32附近和WSB1附近出现了新的STR相关信号。更重要的是,研究通过条件分析与精细定位显示,在ABCA7位点,STR而非SNP可能是主要关联驱动因素;在HLA-DRB1、MINDY2/ADAM10以及APOE区域,STR对已知SNP信号具有显著贡献。遗传力分析进一步表明,STR至少解释了该数据集中AD总遗传方差的约3%。与人脑甲基化数量性状位点(methylation quantitative trait locus,meQTL)及表达数量性状位点(expression quantitative trait locus,eQTL)数据整合后,研究提示部分STR可能通过调控邻近基因表达而影响疾病风险。这些结果说明,STR是AD遗传结构中此前被低估的重要组成部分。

研究所采用的主要技术方法包括:在UKB队列中对推断STR和WGS来源STR分别实施GWAS;以“White-British”样本作为发现队列,并在独立“Other-White”子队列中进行重复验证;采用双等位和多等位分析框架评估STR信号稳健性;利用GCTA-COJO与SuSiE-RSS进行精细定位,并通过双向条件分析区分SNP与STR贡献;在来源于OPTIMA队列的人脑内嗅皮层(entorhinal cortex)样本中整合DNA甲基化、RNA测序转录组数据,开展meQTL、eQTL与eQTM分析,以探索潜在功能机制。

以下为论文结果部分的分项解读。

Genome-wide association analyses on imputed STRs
研究人员在质量控制后纳入333,446名彼此无亲缘关系的UKB参与者,并在其中295,551名自报“White-British”个体中,对3,026,404个经质量控制的推断STR变异进行发现性GWAS。结果显示,共有254个STR变异分布于14个独立位点,达到多重校正后的全基因组显著性阈值。另有228个STR变异分布于21个独立位点达到提示性显著。多数显著STR位于19q13.32的APOE区域,提示该区域仍是AD最强遗传热点。除APOE外,其余位点大多靠近既往已知AD GWAS区域,仅chr11q13.1的一个信号位于既往未提示的区域,邻近OVOL1和SNX32。性别分层分析及基因型×性别交互分析均未发现明确的性别特异性信号;加入年龄作为协变量的敏感性分析与主分析高度一致,说明模型结果稳健。针对双等位编码可能带来的偏差,研究又进行了靶向多等位分析,证实最初14个显著位点均得到直接或间接支持。

Genome-wide association analyses on WGS-derived STRs
为比较推断STR与直接测得STR的结果,研究人员在95,201名“White-British”个体的WGS来源STR数据中开展GWAS。由于样本量明显较小,显著信号数目相应减少。在双等位分析中,共有72个STR达全基因组显著,但除APOE区域外,仅chr17:27264667附近的WSB1信号达到显著。该位点在多等位分析中不再显著,提示其效应可能由单一特定等位基因驱动,而非重复长度总体变化所致。研究进一步发现,ABCA7和SNX32区域在WGS数据中虽未达到主分析同等显著性,但其代理STR仍表现出一致方向的关联,支持这些区域STR参与AD风险调控的结论。

Independent replication of primary STR-based GWAS results
在独立的20,840名“Other-White” UKB个体中,研究人员对发现阶段得到的全基因组显著STR进行重复验证。结果显示,14个显著STR中有2个达到严格校正后的直接重复标准,另有4个达到名义显著,且除1个外其余方向一致。进一步的固定效应Meta分析显示,多数位点在合并分析后统计学支持增强。总体而言,14个位点中有12个位点获得直接或间接重复支持。相比之下,WGS来源的WSB1位点在独立子集中未获重复,但作者指出该子集病例数极少且相关等位基因频率较低,因此统计功效不足,阴性结果解释需谨慎。

Discerning the drivers of STR-based GWAS signals
考虑到STR推断依赖SNP单倍型,研究重点分析了STR信号究竟是独立驱动,还是仅反映局部SNP效应。精细定位结果显示,ABCA7位点的STR在GCTA-COJO和SuSiE分析中均被提名为该区域最可能的驱动变异,后验纳入概率(posterior inclusion probability,PIP)高达0.96。条件分析进一步显示,14个显著STR位点在纳入既往已知SNP后,其信号普遍减弱,但ABCA7及MINDY2/ADAM10附近STR仍保留接近提示性显著的残余关联,且效应值下降有限,提示STR在这些区域具有独立或显著补充作用。HLA-DRB1和ABCA7部分STR在校正SNP后反而关联增强,APOE区域也出现类似现象,提示该区域遗传结构较为复杂,除经典ε4等位基因外,可能还存在其他由STR参与标记的效应。WGS来源WSB1位点在校正局部最强SNP后仍保持全基因组显著,支持其独立性。

Heritability estimates for STRs compared to SNPs
研究利用GCTA-LDMS方法估算STR对AD遗传力的贡献。结果表明,SNP单独解释的平均遗传力为37.05%,STR单独解释的平均遗传力为30.78%,而SNP与STR联合模型的平均遗传力为38.09%。据此计算,STR至少贡献了总AD遗传力的约3%。虽然这一比例低于部分其他复杂性状中的报道,且批次间方差相对较大,但在不同患病率设定下结果较为稳定。作者指出,由于SNP与STR之间存在广泛相关结构,部分真实STR效应可能被SNP所遮蔽,因此3%应视为下限估计。

Comparison of imputed vs. WGS-derived STRs
研究还系统比较了推断STR与WGS来源STR的可靠性。在95,201人的重叠样本中,可按位置与等位长度匹配约622K个STR,二者GWAS效应值相关性很高,Spearman相关系数达0.85;对于经人工严格校准的84个强关联STR,效应值相关性几乎完美,Spearman相关系数为0.99。等位基因频率及位点总等位长度在两类数据中的相关性同样很高。这些结果说明,尽管当前STR推断精度仍不及SNP推断,但在本研究框架下,尤其对于强关联STR信号,推断数据总体可靠。

Delineating potential functional mechanisms of AD-associated STRs
为探索STR影响AD风险的潜在机制,研究人员将显著STR与人脑内嗅皮层样本中的DNA甲基化及转录组数据进行整合。meQTL分析显示,6个STR位点与31个CpG位点显著相关,其中包括7q22区域、HLA相关区域以及SNX32区域。SNX32相关STR chr11:65810443与其内含子1中的cg15531562表现出很强的meQTL关联。进一步eQTM分析显示,cg15531562甲基化水平与SNX32转录本ENST00000308342表达呈正相关,即甲基化降低伴随SNX32表达降低。eQTL分析虽然未达到FDR显著,但该STR与SNX32转录本存在较强名义显著关联,方向与meQTL/eQTM结果一致。综合GWAS、meQTL、eQTM及eQTL结果,研究支持SNX32区域STR可能通过影响局部甲基化状态和基因表达,进而参与AD发病。HLA区域也呈现遗传关联、甲基化关联和表达关联三者高度一致的证据链,进一步增强了STR在免疫相关通路中作用的可信度。

讨论部分指出,本研究最重要的发现之一是识别出两个新的潜在STR相关AD位点,即SNX32附近和WSB1附近。尽管二者尚需进一步大样本独立验证,但从功能背景看均具有较强生物学合理性。第二项重要发现是ABCA7与MINDY2/ADAM10区域中STR可能是主导信号或重要贡献因素,这提示单纯基于SNP的后GWAS解释可能不完整。第三项关键发现是HLA/MHC区域中的多个STR在遗传、甲基化和转录层面都显示出一致信号,表明STR可能在该免疫相关区域中发挥实质性调控作用。作者同时指出研究局限,包括主分析依赖推断STR、双等位化处理可能损失部分信息、无法纳入相关个体、代理表型存在一定偏倚、非欧洲祖源样本较少,以及功能验证所依赖的人脑样本量相对有限等。

研究结论部分可译为:总之,本研究构成了一项针对阿尔茨海默病风险的大规模STR基础GWAS。除检出两个潜在新颖且具有功能意义的AD位点(位于SNX32和WSB1附近)外,结果还提示STR可能在另外四个位点(ABCA7、MINDY2/ADAM10、HLA-DRB1和APOE)的遗传效应中发挥重要作用。此外,研究估计STR至少解释了AD遗传方差的3%。未来仍需在大型AD数据集中,尤其是采用直接分型STR的数据,进一步验证这些结果,并更深入界定STR在AD遗传构成中可能具有的重要作用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号