人群规模基因组测序揭示EBV DNA持续存在的遗传决定因素及其与免疫介导疾病的关联

《Nature》:Population-scale sequencing resolves determinants of persistent EBV DNA

【字体: 时间:2026年01月31日 来源:Nature 48.5

编辑推荐:

  本研究利用英国生物银行(UKB)和“我们所有人”(AOU)计划的大规模全基因组测序(WGS)数据,开发了一种可扩展的计算流程,从血液来源的WGS数据中量化EB病毒(EBV)DNA载量,定义了EBV DNA血症(EBV DNAemia)这一新指标。研究揭示了EBV DNA血症与多种呼吸系统、自身免疫、神经及心血管疾病的关联,并通过全基因组关联研究(GWAS)和通路分析,发现抗原加工和MHC II类分子变异是EBV持续存在及疾病异质性的关键免疫调节因素,为理解病毒持续存在的遗传架构提供了新见解。

  
EB病毒(Epstein-Barr virus, EBV)是一种几乎无处不在的疱疹病毒,它与从癌症到自身免疫病等多种人类疾病密切相关。尽管超过90%的成年人都感染了EBV,但绝大多数人终身无症状,只有少数个体会发展出严重的并发症。为什么EBV感染的临床结局差异如此之大?其决定因素长期以来并不清楚。虽然已知人类遗传变异部分贡献了这种表型差异,但针对EBV这类具有复杂表型的常见感染的遗传关联研究,往往因队列规模不足而缺乏效力。现在,随着英国生物银行(UK Biobank, UKB)和“我们所有人”(All of Us, AOU)等大型生物样本库对数十万参与者进行全基因组测序(Whole Genome Sequencing, WGS),为在人群规模上解析病毒持续存在的遗传基础提供了前所未有的机会。
为了回答“哪些遗传因素决定了EBV在初级感染后的持续存在”这一关键问题,研究人员开展了一项创新性研究。他们意识到,在hg38等现代人类参考基因组中,EBV基因组(chrEBV)是作为一个独立的“contig”被包含进来的,初衷是收集来自淋巴母细胞样细胞系(Lymphoblastoid Cell Lines, LCLs)测序数据中大量的病毒核酸 reads,以改善人类基因组的变异识别。本研究则另辟蹊径,提出假说认为,从血液来源的WGS数据中比对到chrEBV的 reads,可以反映原发性感染后EBV DNA的持续存在。基于此,研究团队开发了一种可扩展的计算流程,从UKB(n=490,560)和AOU(n=245,394)的WGS数据中提取并量化了每个个体血液中EBV DNA的含量,从而创建了一个可用于大规模遗传和表型关联研究的新分子特征——EBV DNA血症。
研究人员首先验证了这种方法的可靠性。他们发现,在去除两个因高重复性可能导致定量偏差的区域后,基于WGS的EBV DNA检测结果与UKB中部分个体(n=9,687)的EBV血清学状态(针对至少两种EBV抗原的抗体滴度阳性)显示出极强的关联(Fisher精确检验比值比Odds Ratio=14.6, P=1.7×10-26)。他们将EBV DNA血症定义为EBV DNA载量高于1.2个病毒基因组/104个人类细胞,据此在UKB中识别出47,452名(9.7%)个体。在AOU队列中的独立分析成功复制了这一比例(11.9%)以及EBV DNA血症与年龄、性别、遗传背景和使用免疫抑制药物等因素的关联,证明了该指标的可重复性。
随后,研究团队利用这一新指标进行了大规模的表型组关联分析(PheWAS),发现EBV DNA血症与271个国际疾病分类第十版(ICD-10)代码显著相关,不仅包括已知的与脾脏疾病、霍奇金淋巴瘤、类风湿关节炎、慢性阻塞性肺疾病(COPD)、系统性红斑狼疮的关联,还揭示了与慢性缺血性心脏病、急性肾衰竭、抑郁发作和中风等以往多为小规模研究或个案报道的潜在关联。这些发现将EBV DNA血症确立为多种复杂疾病潜在的生物标志物。
研究的核心在于通过全基因组关联研究(GWAS)揭示EBV DNA血症的遗传架构。在对UKB中主要来自非芬兰欧洲裔(Non-Finnish European, NFE)的个体进行分析后,发现了22个与EBV DNA血症达到基因组水平显著相关(P < 5×10-8)的独立基因位点。其中,最强的信号集中在人类6号染色体上的主要组织相容性复合体(Major Histocompatibility Complex, MHC)区域,特别是编码MHC I类和II类分子的HLA基因。进一步的外显子组关联分析(ExWAS)在148个基因中识别出686个与EBV DNA血症显著相关的错义突变。通路富集分析明确显示,这些关联基因显著富集于抗原加工和呈递、MHC蛋白复合体组装以及T细胞调节等免疫相关通路。单细胞RNA测序数据分析也证实,这些EBV相关基因特征在B细胞和抗原呈递细胞(如常规树突状细胞)中表达最为丰富,这与EBV主要潜伏于B细胞以及免疫清除机制相吻合。
为了深入理解HLA等位基因如何通过呈递EBV抗原来影响病毒持续存在,研究人员利用NetMHCpan和NetMHCIIpan工具,系统地预测了所有观察到的HLA等位基因与EBV蛋白组中所有潜在表位的结合亲和力。他们发现,能够更强效呈递EBV抗原的HLA等位基因(如HLA-B35:01和HLA-B55:01,它们已知可呈递EBV的免疫优势表位)与较低的EBV DNA血症风险相关,即具有保护作用。相反,某些等位基因(如HLA-A*03:01)则与较高的EBV DNA血症风险相关。这种关联在MHC II类分子(HLA-DP, -DQ, -DR)中尤为显著,强调了CD4+T细胞介导的免疫在控制EBV感染中的核心作用。这些计算预测的结果在AOU队列中得到了很好的复制。
此外,研究还探讨了EBV病毒自身的遗传变异。通过分析人群WGS数据中EBV基因组的序列变异,他们评估了先前在鼻咽癌(Nasopharyngeal Carcinoma, NPC)患者中报道的31个EBV蛋白改变突变的意义。结果发现,其中27个突变在UKB和AOU的健康人群中也以较高频率(≥10%)存在,表明它们更可能是地理漂变的结果,而非NPC特异性的致病驱动突变。这为区分真正的功能性病毒变异与中性多态性提供了人群水平的参考数据。
本研究成功地将大规模生物样本库的WGS数据转化为研究病毒-宿主相互作用的强大资源,创建了EBV DNA血症这一可量化的新表型。它系统地揭示了人类遗传变异,特别是MHC II类分子介导的抗原呈递通路,在决定EBV持续感染中的关键作用。这不仅深化了对EBV相关疾病易感性的理解,所建立的“从废弃测序数据中挖掘病毒信息”的研究框架也可推广至更广泛的人类病毒组研究,为未来探索其他病毒持续感染的遗传和免疫机制开辟了新道路。该研究于2025年发表在《自然》(Nature)杂志。
关键技术与方法概述:
研究的关键技术在于从UKB和AOU队列的血液来源WGS数据的比对文件中,提取高质量(MAPQ ≥ 30)比对到EBV参考基因组(chrEBV)上的 reads,进行定量分析。通过识别并屏蔽高重复性区域以消除偏差,定义了EBV DNA血症的阈值。遗传分析采用了基于阵列基因型并经填充的全基因组关联研究(GWAS)和外显子组关联分析(ExWAS)。利用NetMHCpan/NetMHCIIpan进行HLA-病毒肽亲和力预测。表型关联则进行了大规模的表型组关联分析(PheWAS)。单细胞数据(如CITE-seq)用于验证基因特征在特定免疫细胞中的富集情况。
研究结果详述:
EBV DNA在生物样本库WGS数据中的检出与表征
研究证实,血液来源的WGS数据中确实存在可量化的EBV DNA。通过分析UKB队列中EBV contig的覆盖度,发现除低可比对性区域外,存在两个覆盖度异常高的重复序列区域。屏蔽这些区域后,EBV DNA检测与血清学状态的关联性极大增强。研究估计,在UKB队列中,0.3%的个体其EBV DNA载量达到至少1个病毒基因组/1000个人类细胞。EBV DNA血症的流行率显示出与年龄、性别(男性更高)、遗传背景、免疫抑制药物使用以及出生地纬度相关的差异。
EBV DNA血症与复杂性状的关联
PheWAS分析揭示了EBV DNA血症与大量疾病表型的广泛关联,包括自身免疫病、呼吸系统疾病、神经系统疾病和心血管疾病等。其中87个在UKB中显著的ICD-10代码在AOU队列中成功复制。值得注意的是,与多发性硬化症(Multiple Sclerosis, MS)的关联未通过多重检验校正,而传染性单核细胞增多症因病例数较少而检验效能不足。研究还观察到EBV DNA血症与乏力、疲劳以及某些代谢物(如磷脂酰胆碱)水平变化存在关联,提示其与慢性疲劳综合征/肌痛性脑脊髓炎(ME/CFS)的潜在联系。
EBV DNA血症的遗传基础
GWAS鉴定出22个与EBV DNA血症相关的独立基因位点,其单核苷酸多态性(SNP)为基础的遗传力(h2)为2.21%。最强的关联信号位于MHC区域,特别是HLA基因。ExWAS进一步在148个基因中发现了显著的蛋白编码变异。通路分析显示,这些基因显著富集于抗原加工和呈递、MHC复合体组装等免疫相关生物学过程。利用cupcake框架进行的分析表明,EBV DNA血症的遗传结构与自身免疫性疾病,尤其是血清抗体阳性类型的疾病(如类风湿关节炎、系统性红斑狼疮、1型糖尿病等)共享遗传风险成分。
HLA等位基因与EBV肽段呈递预测
对HLA等位基因的关联分析发现了42个与EBV DNA血症显著相关的等位基因(18个I类,24个II类)。计算预测显示,能够强效呈递EBV抗原的HLA等位基因(如HLA-B35:01, HLA-B55:01)对EBV DNA血症有保护作用,而某些等位基因(如HLA-A*03:01)则增加风险。这种关联在MHC II类等位基因中尤为突出,强调了CD4+T细胞免疫的重要性。
EBV基因组遗传多样性分析
对健康人群中EBV病毒序列变异的分析表明,许多先前在鼻咽癌中报道的EBV变异在健康人群中也普遍存在,提示它们可能主要是地理漂变的结果,而非特定的致病驱动因素。这为区分功能性病毒变异提供了重要的群体基线数据。
结论与意义
本研究通过创新性地再利用人群规模WGS数据,将通常被忽略的比对到病毒基因组的测序 reads 转化为量化EBV持续感染的新生物标志物——EBV DNA血症。研究证实,EBV DNA血症是一个具有多基因遗传基础的性状,其遗传架构与多种免疫介导疾病共享成分,特别是由MHC II类分子介导的抗原呈递通路。这为理解为何绝大多数EBV感染者无症状,而少数个体却面临更高疾病风险提供了重要的遗传学解释。所建立的研究框架具有普适性,可应用于研究其他病毒成员的持续感染机制,极大地促进了我们对病毒-宿主相互作用及其在人类健康与疾病中作用的理解。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号