基于家系单体型分析的变异优先排序：一种识别复杂性状风险等位基因的创新方法

《Genetic Epidemiology》：Variant Prioritization by Pedigree-Based Haplotyping

【字体：大中小】 时间：2026年03月08日 来源：Genetic Epidemiology 3.8

编辑推荐：

　　本文介绍了一种利用家系单体型分析（pedigree-based haplotyping）识别风险单体型（risk haplotype）和优先排序变异（variant prioritization）的新方法。该方法克服了全基因组测序（WGS）数据中非编码区大量变异的分析挑战，尤其适用于复杂性状遗传异质性的研究。通过结合身份同源（IBD）共享和创始人基因组标签（FGLs），该方法可显著减少潜在致病变异数量，为后续功能研究提供精准靶点，已在模拟和真实阿尔茨海默病（AD）家系数据中得到验证。

引言

在遗传学和基因组学研究中，单体型扮演着重要角色。相对于使用单核苷酸多态性（SNPs），在存在多个效应较小且位置接近的罕见变异时，使用单体型可提高关联检测的效力。单体型可用于在群体样本中验证基于家族的关联，并在缺乏完整测序数据时作为未分型变异的代理。在此背景下，单体型可用于定位可能与疾病相关的罕见变异。此外，单体型还可用于检测具有相同表型的个体间的基因组共享现象。个体间的单体型共享已被用作基因发现的一部分数十年。这些早期研究通常对每个标记位点进行人工分型以识别个体单体型。一个关键点是，通过比较患病和未患病个体的单体型，可以找到具有合理功能效应的遗传变异。所识别的罕见变异驱动了连锁分析信号，并且是风险单体型所独有的，该单体型在家系中分离并在患病个体间共享。与复杂性状的遗传研究不同，上述早期研究针对的是孟德尔病，目标是寻找既与疾病分离又在蛋白质序列上具有合理因果效应的变异。然而，与复杂、遗传异质性性状相关的变异通常位于基因组的非编码区域，这大大增加了必须考虑的变异数量以及解释的难度。当前的计算单体型分析方法可根据其设计主要分为适用于家系基因组数据的方法和适用于远亲或无关人群的方法。使用家系信息进行单体型分析的约束是，计算所需的算法要求标记间不存在连锁不平衡（LE）。这个条件在全基因组关联研究（GWAS）芯片或DNA测序数据中经常被违反。在后来的扩展中，允许有限数量的标记之间存在连锁不平衡（LD），但未达到对DNA序列基因型进行单体型分析所需的标记密度规模。在试图为密集的全基因组测序（WGS）数据实施基于家系单体型分析方法时，将遗传继承的通用规则应用于核心家庭的WGS数据，同时提出了针对创始人群体中远亲个体组的WGS数据单体型推断的长距离分型方法。存在基于群体的单体型分析方法，如SHAPEIT2和Beagle（版本5.0），但它们对亲缘关系信息的利用有限，最适用于常见变异的单体型分析。在家系中构建单体型以及识别这些单体型上的致病变异方面仍然存在挑战。在复杂、遗传异质性性状的背景下，扩展家系可能为理解潜在的遗传因素提供途径，包括罕见的非编码变异的作用，这些变异占人类全基因组测序（WGS）数据中大多数变异。然而，现有方法并不理想，不适合用于一般家系的WGS数据，因为存在标记的数量和密度、LD的存在以及大量极低频率的变异。用于核心家庭的程序无法扩展到扩展家系，特别是在存在数据缺失的情况下。用于创始人群体的长距离分型方法在其他环境中并不理想。基于群体的单体型分析和单体型共享方法需要大量参考样本。即便如此，大型参考样本通常不包含足够的罕见变异信息以进行高质量的单体型推断。最后，目前没有计算方法可以从扩展家系的WGS中检测和表征单体型，而这些家系在寻找罕见、致病的、相对高外显率的变异中继续发挥着有用作用，并且是一些专注于更复杂性状的联盟数据集的组成部分。

材料与方法

统计和计算程序

本方法假设存在一个或多个已知结构的家系，其中包含共享一个二元性状的感兴趣对象。并假设存在一个基因组区域，该区域在先前的连锁分析中有证据表明性状在该家系中存在连锁，即一个感兴趣区域（ROI）。总体策略基于一个假设，即此连锁分析信号不是假阳性，并且我们对病例的风险状态最有信心，尽管并非所有病例都具有相同的潜在疾病遗传原因。我们的展示假设有一个单一的家系、双等位基因标记以及在ROI中的分析，除非另有说明。然而，这并不妨碍使用多等位基因标记或多个家系。家系将拥有一组稀疏的标记（例如，SNPs），适用于连锁分析（全基因组5000-6000个SNPs）。一些家系成员还将拥有一组更密集的标记，例如来自WGS的数据。在ROI中的单体型、单体型的状态同源共享（IBS）以及这些单体型上的变异是关注的重点。为了设定术语，我们将连锁面板标记称为SNPs，将密集的WGS变异称为单核苷酸变异（SNVs）。染色体片段从家系创始人传递给他们的后代，并最终传递给一个或多个后代。在无错误的情况下，个体间为IBD的片段必然也是IBS。对所得传递的一个方便描述是通过使用创始人基因组标签（FGLs）来跟踪所有个体在所有所需位置通过FGL标签的减数分裂传递结果。FGLs具有家系中个体创始人染色体的任意、唯一标签，并有效地代表了染色体在传递通过家系时的继承情况。减数分裂指示器（或继承向量，IVs）是一种不同的、等效的表示形式，每种表示法在不同情况下更直观和/或更有用。这里我们在某些步骤中使用两种表示，但主要关注FGLs。我们在家系中采样可能的传递结果，每一组FGLs都是从后验分布中采样得到的，给定观察到的SNP数据、已知的家系结构以及减数分裂图谱模型。来自MORGAN软件包的程序gl_auto提供了FGLs的样本，条件是观察数据的后验分布，关于运行条件的建议在其他地方有提供。导致采样FGLs的多点计算需要假设连锁面板标记之间不存在连锁不平衡。连锁面板标记可以通过例如PBAP来选择以满足此要求。用于后续单体型分析的密集标记（可能具有LD）不在此初始的、由MCMC驱动的步骤中使用。下游对密集标记的计算没有对密集标记间无LD的相同要求，因为不进行多点计算。与我们早期关于基因型插补的工作类似，我们这里的单体型分析方法可以处理密集的WGS数据，即使存在LD，这与早期基于家系的单体型分析方法不同，那些方法嵌入在与连锁面板标记相同的计算中。这里，我们使用了1000个IVs配置来表示高概率结果。给定一组FGLs和一个减数分裂图谱模型，也可以在SNPs之间的位置预测FGLs。单个采样的一组FGLs包含家系中每个个体每个SNP和每个SNV的一对FGL标签（母源和父源）。计算从一个定义风险单体型支架的初步识别开始。首先，使用SNP位置的FGLs，选择一个定义病例核心集C_max的个体子集。这些病例是那些在ROI中以最大概率共享风险单体型的病例。C_max由共享由单个FGL标记的最长连续片段的最大数量的病例组成。详情如下。其次，从可用的病例FGL集中选择一个单一的FGL集用于后续分析。这个采样的FGL集包含所有家系成员的FGLs，并用于将SNV数据与FGLs整合的分型步骤，以用SNV等位基因填充单体型。完成对所有SNVs的分型过程，得到SNV位置的分型单体型。最后，为了提供对疾病遗传学的更多见解，可以比较C_max和家系中其他个体的单体型，重点关注推断位于风险单体型上的罕见SNVs。这里描述的分析可以使用我们的计算方法进行，该方法在程序Haplotyping-Given-Inheritance中实现，可从GitHub下载。

最可能带有标签风险单体型组的FGLs

这里的单体型分析过程依赖于在连锁面板标记位置存在可能的FGLs集合。一组采样的FGLs可能从先前的连锁分析中已获得，或者可以从给定家系、标记等位基因频率和重组模型的SNP基因型的后验分布中采样得到。这里使用的MORGAN软件包程序gl_auto，版本3.3，提供了此类FGLs样本，以IVs补充集中的FGL传递模式记录。gl_auto中的多点计算使用所有SNP位置和所有家系成员，无需简化家系。然而，在选择SNPs及其等位基因频率时需要谨慎，这在其他地方有讨论。我们假设有F个采样集的FGLs可用，每组FGLs包含不同数量的K个不同FGLs，其中K是家系中创始人数量的两倍。识别最可能的FGLs组对于准确确定风险单体型是必要的。这个高频组（F_max）用于采样用于SNV分型的FGLs，并包含所有家系成员的FGLs。我们假设在许多病例中，一个风险单体型由一个从单个祖先遗传下来的染色体区域定义，该区域对连锁分析结果有贡献。这个区域很可能包含一个风险位点，并且可以在家系成员中用一个具有高后验概率的单一FGL表示。因此，这个共享的FGL标记了驱动连锁信号的单体型。未被采样的创始人对提供了四组具有近似相等后验概率的FGLs，因为每对创始人基因组在继承信息方面是可互换的。具有更复杂结构的家系可能具有不同数量的等效、高概率组。从等效组中使用哪一个FGL作为代表性的高概率FGL实际上没有区别。然而，如果连锁区域中存在一个由FGL标记的风险单体型，它将在所有主要的等效FGL组中被识别，这些组共同构成F_max。然而，在同一等价类内的不同FGL组之间，对风险单体型推断边界可能有细微的差异。在这种情况下，如果需要，可以从该类中获得更多的FGL组。由于偶尔的分型不一致，也可能在分配给单体型的等位基因或对某些基因型分型的能力上存在微小差异——每个不一致大约影响风险单体型上约1%的变异。这些微小的差异不会对下述风险变异的选择产生有意义的影响，因为该选择依赖于未分型的基因型数据。确定F_max涉及识别C_max，即在所有F个采样的FGLs组中，所有病例最频繁地在最大数量的连续SNP位置共享相同FGL的病例集合。C_max的非近交成员在共享FGL的SNP位置对一个单体型是IBD。在近亲结婚或隐性性状的情况下，病例可能对父母双方的亲本单体型都是IBD。关于病例核心集，F_max代表了最可能的FGLs组。对于阳性连锁信号，将有许多采样迭代的FGLs产生相同的病例核心集，F_max是这些迭代之一。我们稍后使用C_max来确定由SNV等位基因组成的单体型序列的病例间的单体型共享。

家系为基础的分型和单体型分析

对SNV数据进行分型和单体型分析需要来自完整F_max组的FGLs。这涉及家系中ROI内的所有个体、所有FGLs和所有SNV数据。我们遵循先前描述的一般程序，通过利用从F_max组FGLs中采样的SNPs的FGLs信息，在SNVs位置生成FGLs。此步骤独立为家系中每个个体的两条亲本染色体执行。在ROI中单个染色体的许多SNP间区间内，基于界定这些区间的SNP位置的FGLs标签，将没有重组的证据。在这种情况下，我们假设区间内的SNV位置具有相同的FGL，这意味着在此染色体区间内没有发生重组。为了在存在重组的情况下产生观察到的结果，将需要在小区间内发生高度不可能的双重组。在单个染色体的其他SNP间区间，根据界定区间的SNPs之间FGLs的切换，表明在某些减数分裂中需要重组。为了产生这种情况所需的FGLs，我们在区间内的染色体上为SNV的FGL采样一个新的可能重组点。同样，与基因型插补的情况一样，重组点采样独立发生在同一区间内的每个SNV上。使用基于家系单体型分析的遗传规则，给定每个SNV位置的FGLs，将SNV等位基因分配给FGLs。对于每个SNV基因型，这将等位基因相对于该位置的FGLs进行分型。对具有纯合SNV基因型的个体，开始将SNV等位基因分配给FGLs。具有杂合SNV基因型的个体如果在此过程中任何时候，从其他个体的分型中已经有一个SNV等位基因分配给了他们的一个FGL，则会被分型到FGLs：然后杂合个体中没有等位基因分配的FGL被分配来自该个体SNV基因型的剩余等位基因。此过程继续进行，直到没有更多的单体型分配可以进行。一般来说，任何个体的杂合基因型都可以分型到他的FGLs，如果他的两个FGLs中的任何一个已经通过先前对共享相同FGL的另一个个体的分型有了等位基因分配。对于具有缺失基因型的个体，如果其FGLs从其他个体的基因型分型中获得了等位基因分配，则可以对其分型等位基因进行插补。这个过程遵循Cheung等人描述的一般等位基因插补程序。然而，对没有观察到的WGS数据的个体进行广泛的基因型插补并不是这里的目标。也可能存在所有个体对某个SNV都是杂合的情况，此时无法对基因型等位基因进行分型。在这些罕见情况下，与Cheung等人描述的情况不同，基因型保持未分型。也可能有些杂合个体最终对特定SNV的基因型未分型，如果从分型其他基因型中，这些个体的FGLs没有等位基因分配。在对ROI中所有SNVs的等位基因分型后，分配给不同个体（包括核心集）中相同FGL的相同SNV等位基因被推断为IBD。在不同个体中，在SNV位置对同一FGL的等位基因分配不一致的情况可能在真实数据中发生。这是由于突变、基因型检出错误或对染色体上连续连锁面板SNPs（具有不同FGLs）之间重组位置的不准确采样导致的。如果观察到至少一个FGL存在不一致，家系内所有个体中该SNV的所有数据都被标记为不可靠。在分型过程中，所有不一致、数据缺失以及无法对基因型分型的情况都会被记录，并在分离的单体型上被指定为未确定。

单体型共享

目标是识别在ROI中病例间共享的扩展单体型（风险单体型）。我们预期这个单体型将包含对家系中疾病负责的风险等位基因。通过使用先前定义的程序，获得ROI中所有具有WGS数据的受试者的单体型序列。这包括由分型到与共享创始人染色体相关的支架单体型上的SNV等位基因定义的风险单体型序列。因此，最后一步是通过比较C_max中病例的单体型序列来确定共享风险单体型的边界。评估C_max在ROI中的单体型共享始于比较该病例集内的单体型序列。仅当这些病例中的每一个都至少有他们的一条单体型与C_max中其他每个病例的一条单体型是IBS时，才推断单体型共享。在一个家系内，这种IBS相对于共享的创始人基因组也是IBD。并非所有变异最初都会在C_max中分型到单体型：对于包含未分型SNVs的单体型序列，尝试将等位基因分配给参考（REF）或替代（ALT）等位基因，同时以可用基因型为条件，以验证可能匹配的单体型为IBS。在没有基因分型错误的情况下，将不会存在冲突。对于缺失的基因型数据，考虑所有可能的组合，以尝试找到证实正在比较的单体型为IBS状态的组合。缺乏这样的组合意味着单体型不是IBS，因此也不是IBD。在此阶段评估所有可能组合的理由是，由于此时大多数等位基因已经分型到单体型，这提供了足够的约束以防止虚假的IBS匹配，因此不太可能出现大量错误的分型分配。出于实际计算原因，我们的实现将单体型共享的评估分解为更小的SNVs集合。ROI中的WGS基因型被细分为一系列非重叠且顺序的基因组窗口，每个窗口由家系内多态的SNVs组成。忽略家系内单态的SNVs，因为它们可以轻易地分型。使用基因组窗口也便于总结和可视化家系内的单体型共享，基因组窗口的大小任意设定为20。这个实用选择反映了计算效率、分辨率和易于详细评估之间的平衡。然而，软件用户可以根据自己的计算能力和分析目标选择替代的窗口大小。

潜在风险等位基因的优先排序

一旦风险单体型被识别和表征，对次等位基因为该单体型所独有的SNVs进行进一步研究可能提供信息。“独特”的定义可以是相对于家系内部，也可以相对于更大的样本，因为该单体型上的一个罕见变异很可能是高风险等位基因。风险单体型上的风险等位基因在特定SNV将具有以下属性：在没有近亲繁殖的情况下，所有携带此等位基因的病例都是杂合子；所有没有风险单体型的受试者都是高频等位基因的纯合子；因此，风险单体型上的低频等位基因是一个候选风险等位基因，特别是如果它对该风险单体型是独特的。某些受试者可能被排除在确定对风险单体型独特的SNV等位基因之外。这些受试者可能代表相对于风险单体型被错误分类的病例。这些病例似乎不共享风险单体型，但可能有一个不同的、较短的单体型与风险单体重叠，也可能与风险单体型共享一些序列相似性。我们施加了一个限制，即这个较短单体型的长度不得超过风险单体型长度的25%。这个长度限制是基于已知风险等位基因的模拟结果。相对长度可以根据家系中具有WGS数据的受试者数量进行调整。研究人员可以根据其家系结构和数据适当调整此阈值，因为可忽略区域的大小取决于家系大小和重组事件的预期分布。我们的实现允许用户在需要时选择不同的阈值，从而灵活适应不同的家庭规模或可用的WGS数据。其次，具有风险单体型的对照被排除在对独特SNV等位基因的搜索之外，因为可能存在不完全疾病外显率可能掩盖疾病状态的问题。可选的等位基因频率阈值可以进一步限制可能与疾病相关且对该单体型独特的低频率SNVs子集。这个选择背后的逻辑是，样本中罕见或低频等位基因通常是单系的，通过发生在独特单体型上的单一突变。对风险单体型独特的SNVs可以进行下游生物信息学和组学数据分析，以识别潜在的风险相关SNVs和基因。我们在这里使用了1.5%的过滤器用于此目的，但也可以使用其他过滤器。

受试者和数据

我们使用了来自阿尔茨海默病测序项目（ADSP）的非西班牙裔白人（NHW）家庭进行模拟和真实数据分析。为了创建具有现实WGS数据的家系数据集以评估我们的方法，我们模拟了一个模型家系中的WGS，从真实的WGS数据开始“填充”创始人基因组。忽略AD状态，我们使用了来自12个家庭中每个家庭随机选择的一个个体的第16号染色体WGS来启动模拟。使用的NHW家庭包括：来自UP提交站点的所有8个家系，来自NC站点的3个家系，以及来自LD站点的一个家系。其余观察到的WGS数据和NHW家庭的部分家系结构被用作这12个个体的统计分型的一部分。来自家庭UP0005F的第16号染色体WGS也作为风险单体型识别方法应用于真实数据的示例进行了单独分析。本研究在华盛顿大学人体受试者批准号STUDY00001230下进行，并符合美国人体受试者保护联邦政策的公认标准。所有在纳入前提供样本和/或表型数据的研究参与者都提供了知情同意。

模拟分析

模拟数据

为了在已知真实情况的环境中评估风险单体型识别方法，我们使用一个单一的、大型模型家系模拟了家系数据。在这个包含52名成员的五代家系中，20名个体具有表型和基因型数据。这种数据缺失模式是晚发性疾病（如阿尔茨海默病）的特征，所有观察到的个体仅在最近的三代中存活用于采样。我们使用MORGAN软件包的genedrop程序生成了200个独特的表型数据模拟副本，包含病例和对照，使用拒绝采样以确保每个没有更多后代的全同胞家系中至少存在一个病例，以模拟真实数据分析中使用家系的特征。通过设计，我们模拟的参数意味着模拟副本包括一些没有高风险性状等位基因的病例，以模拟复杂性状中通常存在的遗传异质性。我们模拟了给定性状数据的FGLs，使用为不同表型模式创建的模型家系副本。MORGAN软件包的markerdrop程序提供了212个“连锁面板”SNP标记和一个性状位点的模拟FGLs。模拟包括所有副本家系成员的FGLs，包括被指定为缺失数据的个体，并为模拟的性状位点单独生成FGL。模拟参数假设一个显性模型，次要性状等

热点排行