基于全外显子组和SNP芯片数据推算HLA-G高分辨率等位基因及其调控单倍型：一项促进免疫调控、移植与癌症研究的计算方法学新策略

《Human Immunology》：Imputing HLA-G high-resolution alleles and regulatory haplotypes from exomes and SNP array data

【字体：大中小】 时间：2026年02月22日 来源：Human Immunology 2.2

编辑推荐：

　　研究者针对HLA-G免疫检查点分子完整的编码及调控区信息难以从广泛可得的组学数据（如肿瘤外显子、SNP芯片）中获取的问题，开发了基于HIBAG的推算模型。该研究利用包含5347个个体的多族裔参考面板，成功实现了从全外显子组和SNP芯片数据高精度（>99%及>95%）预测HLA-G四字段等位基因、启动子及3'UTR单倍型，为在缺乏完整基因序列的大规模数据集中探究HLA-G在免疫调控、移植、癌症及妊娠并发症中的作用提供了强大的分析工具。

论文解读文章

在人类免疫系统的复杂网络中，HLA-G（Human Leukocyte Antigen G）分子扮演着一个独特而关键的角色。它像一个“和平信使”，主要在免疫豁免组织如母胎界面中表达，通过与免疫细胞上的受体结合，抑制免疫反应，确保胚胎不被母体排斥，是维持妊娠期间免疫耐受的重要分子。然而，这把“双刃剑”在病理状态下却可能“反戈一击”。研究表明，在许多肿瘤（如癌症）和慢性感染中，HLA-G的表达会上调，帮助肿瘤细胞或病原体逃避免疫系统的追杀，从而促进疾病进展。这使得HLA-G成为免疫治疗和疾病研究的一个极具潜力的靶点。

尽管HLA-G在生理和病理过程中如此重要，科学家们在对它进行深入研究时却遇到了一个不小的麻烦。与那些极度多态性的经典HLA I类基因不同，HLA-G的编码区域多样性相对有限，全球范围内常见的蛋白型只有几种。它的“秘密”更多地藏在基因的调控区域——启动子（控制基因“开关”速度）和3'非翻译区（3' Untranslated Region， 3'UTR，影响信使RNA的稳定性和翻译效率）。这些区域存在着丰富的序列变异（如单核苷酸多态性SNPs），它们可以显著影响HLA-G的表达水平，进而决定其免疫抑制功能的强弱。更关键的是，HLA-G位点表现出极强的连锁不平衡，这意味着编码区等位基因、启动子变异和3'UTR单倍型在遗传上是高度连锁、打包传递的。这好比一个家族里，特定的相貌特征、血型和某种天赋总是捆绑出现。这种遗传结构使得通过部分遗传信息来推算出完整的HLA-G单倍型成为可能。

然而，现实情况是，目前大量可获得的基因组学数据，如广泛用于肿瘤研究和疾病关联分析的全外显子组测序和单核苷酸多态性芯片数据，恰恰无法捕获HLA-G完整的遗传信息。外显子组测序只针对蛋白质编码区，通常会遗漏非编码的启动子和3'UTR；而SNP芯片在整个HLA区域分布的标记也极为稀疏。这导致研究者们无法充分利用这些海量数据来系统探究HLA-G变异与疾病的关系，限制了我们对HLA-G在免疫调控、移植、癌症及妊娠并发症中作用的深入理解。因此，开发一种能够从这些不完整数据中，高精度地推算出HLA-G完整单倍型（包括高分辨率等位基因和调控序列）的计算方法，成为了一个迫切的需求。

为了回答这一问题，由Rafaela Miranda Barbosa、Nayane dos Santos Brito Silva、Diogo Meyer、Sonia Bourguiba-Hachemi、Eduardo A. Donadi、Nicolas Vince和Erick C. Castelli组成的研究团队在《Human Immunology》期刊上发表了一项重要研究。他们利用现有的全基因组测序数据，构建了强大的推算模型，成功实现了从更易获取的外显子组和SNP芯片数据中，高精度预测HLA-G的详细遗传结构。

关键技术方法

研究团队首先构建了一个大规模、多族裔的参考面板，纳入了来自1000 Genomes计划、人类基因组多样性计划以及巴西SABE队列的共5，347个个体的全基因组测序数据。通过hla-mapper工作流程对测序reads进行重比对，使用GATK进行变异检测，并利用WhatsHap和Shapeit4进行单倍型定相，最终获得了每个个体HLA-G的四字段等位基因（包含内含子信息）、启动子序列和3'UTR单倍型的高质量“真实”数据。基于此参考面板，他们使用HIBAG软件，分别针对从全基因组数据中提取出的“外显子组SNP集”（模拟外显子组数据）和“Axiom SNP芯片集”（模拟芯片数据），训练了用于预测HLA-G四字段等位基因、启动子及3'UTR单倍型的三个独立的推算模型，并通过交叉验证和独立数据集对模型性能进行了严格评估。

研究结果

1. SNP array data allows the prediction of HLA-G high-resolution alleles and regulatory sequences（SNP芯片数据可预测HLA-G高分辨率等位基因和调控序列）

基于SNP芯片数据的模型在跨人群的交叉验证中表现出色。对于四字段等位基因，平均准确率在0.92（南亚）到0.98（美洲、东亚、欧洲、巴西SABE队列）之间。错误主要集中于频率低于1%的罕见等位基因。对于3'UTR单倍型，预测准确率极高，平均在0.99到1.00之间。启动子单倍型的平均准确率则在0.94（东亚）到0.98（欧洲）之间。模型为预测结果分配的后验概率平均值普遍很高（大多高于0.9），表明对单个基因型预测的信心充足。此外，推算出的等位基因和单倍型频率与参考数据的真实频率显示出近乎完美的相关性（Pearson相关系数r接近0.999），说明模型在群体水平上能准确捕获变异分布。

2. HLA-G alleles departing from exomes（基于外显子组数据的HLA-G等位基因推算）

对于外显子组数据，由于缺乏直接的真实数据集，研究主要依靠模型输出的后验概率来评估置信度。在415个巴西人外显子组样本中，四字段等位基因推算的后验概率均值普遍较高（>0.88）。尽管一些罕见等位基因的后验概率相对较低（如>0.65），但在群体水平上，推算出的等位基因频率与独立的巴西SABE队列（该队列已包含在参考面板中）的全基因组数据频率高度相关（r = 0.996）。

3'UTR单倍型的推算表现同样稳健，后验概率大多超过0.95，且推算频率与参考频率高度一致（r = 0.996）。

启动子单倍型的推算面临更大挑战，部分紧密相关的启动子变异（仅相差一个SNP）的后验概率较低（如0.51-0.64），表明仅依靠外显子区信息难以完全区分它们。尽管如此，在群体水平上，推算出的启动子单倍型频率仍与参考频率保持了很强的相关性（r = 0.993）。

3. Imputation as a powerful tool for disease-association studies regarding HLA-G and other HLA genes（推算作为HLA-G及其他HLA基因疾病关联研究的强大工具）

本研究创建并验证的HLA-G推算模型，实现了从SNP芯片和外显子组这类不完整数据中高精度地推断其高分辨率等位基因和关键调控序列。这为解决以往此类研究中因数据限制而无法全面考察HLA-G变异（尤其是调控区变异）的困境提供了方案。由于HLA-G的表达水平和功能多样性很大程度上受其启动子和3'UTR多态性影响，这些模型使得研究者能够重新审视现有的大量组学数据集（如疾病关联研究中的SNP芯片数据、肿瘤研究中的外显子组数据），系统探究特定的HLA-G等位基因或调控单倍型是否与妊娠并发症（如子痫前期）、移植结局、自身免疫病或癌症等性状相关联。例如，3'UTR中14 bp片段的插入/缺失多态性已被报道与子痫前期风险及HLA-G表达水平变化相关。因此，该研究不仅为HLA-G的精细作图提供了实用工具，也为在更广泛的疾病背景下发现新的基因型-表型关联铺平了道路。同时，文章也指出，推算依赖于参考面板的多样性，对于未包含在参考面板中的罕见或私有等位基因可能存在误判，因此它应被视为一种高置信度的预测工具，而非实验基因分型的完全替代。

综上所述，这项研究成功地开发了一套高性能的计算模型，能够有效地“解锁”蕴藏在海量但不完整的基因组数据中的HLA-G完整遗传信息。它巧妙地利用了HLA-G基因内部及其与邻近HLA基因（特别是HLA-A）之间存在的强连锁不平衡特性，将碎片化的外显子或芯片SNP信息，拼凑成完整的编码与调控单倍型图谱。这一方法论上的突破，极大地拓展了利用现有公共资源和临床队列数据进行HLA-G相关研究的广度和深度，为深入理解这一关键免疫调节分子在健康与疾病中的作用机制，以及探索其在移植免疫、肿瘤免疫治疗和生殖医学中的潜在应用价值，提供了前所未有的强大分析武器。

热点排行

新闻专题