《Journal of Advanced Research》:Unmasking human T cell receptor germline diversity: 335 novel alleles identified in 47 Pangenome reference individuals using the gAIRR Suite
编辑推荐:
本研究针对当前T细胞受体(TR)胚系基因(gAIRR)参考数据库多样性不足、缺乏群体代表性及侧翼序列信息不完整等问题,研究人员利用gAIRR Suite分析了47个高质量泛基因组参考个体的数据,发现了335个新TR等位基因(305个TRV,30个TRJ),并构建了包含侧翼序列和RSS的完整数据库。这项工作显著扩展了已知TR胚系多样性,为精准免疫基因组学和免疫遗传关联研究提供了重要资源。
在适应性免疫系统的复杂世界中,T细胞受体(T cell receptor, TR)扮演着关键角色,它们能够识别各种外来抗原并启动特异性免疫应答。这些受体的多样性主要通过V(D)J重组过程产生,而这一过程依赖于胚系基因(germline AIRR, gAIRR)的编码。然而,当前国际免疫遗传学数据库(IMGT)中收录的TR基因等位基因可能仅代表了人类真实多样性的一部分,许多群体代表性不足,且大量等位基因缺乏完整的侧翼序列信息,特别是重组信号序列(recombination signal sequence, RSS),这些因素限制了我们对免疫受体组库(expressed AIRR, exprAIRR)的准确解析。
随着精准医疗时代到来,研究人员越来越认识到gAIRR等位基因本身作为遗传因素,与疾病易感性、疫苗应答差异以及免疫相关不良事件密切相关。例如,特定TRBV多态性已被发现与自身免疫疾病和免疫治疗不良反应相关。然而,与人类白细胞抗原(human leukocyte antigen, HLA)基因相比,我们对TR胚系多样性的了解仍然滞后。这一知识缺口部分源于早期测序技术的限制,以及全球范围内基因组测序努力的不均衡性。
为了突破这些限制,由Yu-Hsuan Yang、Chi-Yuan Yao等研究人员组成的团队在《Journal of Advanced Research》上发表了他们的最新研究成果。他们利用人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)提供的高质量基因组资源,结合自主开发的gAIRR Suite分析工具,对TR胚系多样性进行了系统性探索。
研究人员主要采用了gAIRR Suite这一集成分析框架,该套件包含三个核心模块:gAIRR-annotate(基于基因组组装的注释工具)、gAIRR-seq(靶向捕获测序方法)和gAIRR-call(等位基因分型工具)。研究分析了HPRC提供的47个个体的高质量、单倍型定相的二倍体基因组,这些个体代表了非洲、欧洲、东亚、南亚和混合美洲等五大超级种群。所有新发现的等位基因都通过两条正交管道进行交叉验证:基于组装的注释(gAIRR-annotate)和基于靶向短读长测序的基因分型(gAIRR-seq/gAIRR-call)。此外,研究还建立了完整的侧翼序列数据库,并使用RSSite工具预测了RSS位点,利用Digger工具评估了新等位基因的功能状态。
识别306个新TR等位基因通过核心序列分析
研究人员应用gAIRR-annotate工具分析了47个HPRC样本的单倍型定相基因组组装,通过与IMGT参考数据库比对,识别出309个新等位基因(279个TRV和30个TRJ)。通过gAIRR-seq/gAIRR-call管道的正交验证,最终确认了306个高可信度新等位基因(277个TRV和29个TRJ)。这些新等位基因使用IgLabel命名系统分配了唯一标识符,并通过短读长和长读长测序数据的可视化验证。
利用侧翼序列背景发现29个额外新等位基因
研究发现,仅基于核心区域的比对可能导致等位基因的错误分类。通过整合50bp侧翼序列信息,研究人员发现了29个新等位基因(28个TRV和1个TRJ),这些等位基因的核心序列与已知IMGT等位基因相同,但末端模式和侧翼序列与其他等位基因更相似。这一发现凸显了侧翼序列信息在准确等位基因注释中的重要性。
gAIRR-annotate和gAIRR-seq/gAIRR-call管道的交叉检查和一致性
通过两条独立管道的交叉验证,335个最初由gAIRR-annotate报告的等位基因中有335个得到确认,验证率高达99.1%。这种双重验证策略为新高可信度等位基因的发现提供了严格的质量控制框架。
TRV和TRJ等位基因分别比IMGT数据库扩展91.6%和30.9%
研究发现显著扩展了现有IMGT数据库,TRV等位基因数量增加91.6%,TRJ等位基因增加30.9%。新等位基因在人群中出现频率较高,特别是在非洲裔个体中更为丰富。不同超级种群间的等位基因分布分析显示,非洲人群拥有最多独特的新等位基因,反映了其较高的遗传多样性。
建立TR等位基因综合侧翼序列数据库
研究建立了包含所有检测等位基因上下游侧翼序列的综合数据库。分析发现,同一等位基因可能存在多个不同的侧翼序列组,表明即使核心编码区外也存在显著的序列多样性。等位基因在人群中的流行度与其侧翼序列多样性呈正相关。
侧翼序列内RSS变异性表征
研究人员使用RSSite工具预测了侧翼序列中的RSS位点。大多数RSS基序位于预期位置范围内,但也发现了一些异常定位的RSS,这些异常可能与基因功能受损相关。某些等位基因的不同侧翼序列组还表现出RSS位置的偏移,可能影响重组效率。
新TR等位基因功能分类和转换评估
通过Digger工具评估新等位基因的功能状态预测,发现大多数新等位基因(91.9%的TRV和85.7%的TRJ)保持了其功能状态,但部分等位基因从功能性转换为开放阅读框(open reading frame, ORF)或假基因状态,表明这些新等位基因可能对TR结构和功能产生实质性影响。
研究的讨论部分强调了这一工作对免疫基因组学领域的重要意义。通过结合高质量基因组组装和靶向捕获测序,研究团队不仅显著扩展了已知TR胚系等位基因的多样性,还提供了经过实验验证的、包含完整侧翼序列和RSS信息的宝贵资源。这些资源将直接提升exprAIRR分析的准确性,为免疫遗传关联研究奠定更可靠的基础。
值得注意的是,研究中发现的新等位基因有相当一部分在外部数据库或先前研究中得到独立支持,这为它们的真实性提供了强有力的验证。同时,仍有148个等位基因是首次报道,表明即使经过多项大规模基因组努力,人类TR胚系多样性的很大一部分仍有待发现。
研究人员也坦诚指出了研究的局限性,包括样本规模相对有限、群体代表性不够均衡,以及当前短读长测序技术对长V基因全长的覆盖不足等挑战。这些限制为未来研究指明了方向,包括扩展到更大的数据集(如HPRC Release 2的232个个体)、纳入更多代表性不足的群体,以及开发更高效的等位基因命名和数据库整合机制。
总体而言,这项研究通过创新性的方法学组合,为人类TR胚系多样性研究设立了新标准,为实现真正意义上的精准免疫基因组学迈出了重要一步。随着更多高质量基因组资源的出现和分析工具的不断完善,我们有望构建出真正代表全人类多样性的完整免疫遗传图谱,最终推动 ancestry-independent(祖先独立性)且 diversity-comprehensive(多样性全面)的疫苗、免疫疗法和精准医疗策略的发展。