《Nature Genetics》:Empirically determined baseline masking strategies and other considerations for gene-level burden tests
编辑推荐:
罕见变异关联研究通常开展基因水平检验,其中编码变异依据功能注释和等位基因频率进行过滤(或称为“掩码”)与聚合。研究人员通过系统性文献综述,统计了234项研究中使用的664种掩码,发现掩码策略(即掩码的组合)在不同研究中极少重复,且极少得到合理性论证。为量化掩码
罕见变异关联研究通常开展基因水平检验,其中编码变异依据功能注释和等位基因频率进行过滤(或称为“掩码”)与聚合。研究人员通过系统性文献综述,统计了234项研究中使用的664种掩码,发现掩码策略(即掩码的组合)在不同研究中极少重复,且极少得到合理性论证。为量化掩码策略对关联结果的影响,研究人员将既往采用的所有策略应用于英国生物样本库(UK Biobank)189947个全外显子组数据的54种性状。研究发现,显著关联的数量高度依赖于掩码策略(关联数量范围为58至2523个),这是该数据集已发表独立分析结果重叠度低(<30%)的关键原因之一。研究人员在多个数据集和性状中,经验性地确定了针对低频和罕见变异基因水平关联、具有高发现能力的掩码策略,并利用这些策略探究了其他因素影响负荷检验结果的情况。这些发现为负荷检验提供了基线策略,可提高研究效能和可重复性,解决了既往研究不一致的一个来源。
该研究发表于《Nature Genetics》,针对基因水平负荷检验中掩码策略缺乏标准导致的可重复性差这一核心问题展开。基因水平检验是外显子组测序(WES)和基因组测序(WGS)关联研究的核心方法,其中负担检验因在药物发现和后续功能研究中具有简洁性和可解释性而被广泛应用,但其假设纳入的所有变异对基因功能具有相同影响,因此变异选择尤为关键。然而既往研究显示,掩码策略的定义差异极大且缺乏合理性依据,导致不同研究的关联结果一致性极低,严重阻碍了结果的解释与比较。为此,研究人员通过开展大规模系统性分析,旨在明确掩码策略对检验结果的影响,并构建跨数据集和性状的稳定基线策略,以提升研究的可复制性和透明度。
研究人员开展研究用到的主要关键技术方法包括:首先通过PubMed系统性文献检索,筛选2012年至2024年的相关研究,构建包含664种掩码的数据库并进行标准化映射;其次利用英国生物样本库(约19万和44万样本)、All of Us研究项目(约41.5万样本)及AMP T2D GENES联盟(约4万样本)的多队列数据,开展基因水平负担检验;随后采用掩码主成分分析(PCA)与聚类分析、贪心算法筛选最优掩码组合,并通过交叉验证评估策略稳健性;同时结合REGENIE和SAIGE-GENE+软件进行关联分析,校正多检验并开展基因集富集分析验证生物学合理性。
研究结果部分的主要内容如下:
既往基因水平关联研究中的掩码策略使用现状
研究人员通过对234项研究的分析发现,共使用664种掩码,经标准化后保留460种,这些掩码可分为6类生物信息学注释和4类次要等位基因频率(MAF)分组。其中78.2%的掩码和92.2%的掩码策略仅在单一研究中使用,且多数研究未论证掩码选择的合理性,仅引用既往文献。以英国生物样本库的三项大型研究为例,其各自采用的独特掩码策略仅共享28.2%的关联结果,即使在相同样本和检验流程下,重叠度也仅提升至35.6%,证实掩码不一致是结果异质性的重要来源。
既往掩码策略检测关联的变异性
研究人员将298种掩码应用于英国生物样本库19万样本的54种性状,发现掩码间显著关联数量差异极大(低频变异关联为3至440个,罕见变异关联为3至289个)。即使限定为低频(MAF<1%)或罕见(MAF<0.1%)变异关联,这种变异性依然存在,且不同掩码类别间的关联数量存在显著差异(F统计量=22.27,P=1.23×10?47)。146种掩码策略的Bonferroni校正显著关联数量范围为58至2523个,进一步证实掩码选择对结果的决定性影响。
潜在基线掩码策略
研究人员探索了多种基线策略构建路径:直接采用高影响力研究的策略,其低频和罕见变异关联检出量分别处于既往策略的50th至83rd和66th至88th百分位;采用包含所有271种既往掩码的“暴力”策略,虽经多重校正仍比平均策略多检出1.9倍低频和1.8倍罕见变异关联;通过掩码主成分分析和聚类得到的10掩码策略,性能优于暴力策略;采用贪心算法基于新增关联数筛选掩码,得到的26掩码策略比聚类策略多检出15.3%低频和19.1%罕见变异关联;进一步扩展掩码库(共424种掩码)后,贪心算法得到的22和35掩码策略检出能力最优。
提出的基线掩码策略
考虑到实际应用的可行性,研究人员发现8掩码贪心策略可捕获扩展贪心策略95%的关联量,其检出关联数是平均策略的2倍,且在各性状中表现稳定。该策略仅比典型既往研究增加2.9倍掩码数量,但在REGENIE软件中运行时,分析师设置时间几乎无差异,内存占用无显著增加,CPU时间仅增加1.2倍(罕见变异)和2.2倍(低频变异),计算成本可控。
基线掩码策略的应用示例
研究人员将该基线策略应用于英国生物样本库44万样本的54种性状分析,在与三项既往大型研究共享的46种性状中,新发现114个显著关联,其中95.6%的P值超过外显子组-wide显著性阈值至少一个数量级。基因集富集分析显示这些关联具有生物学连贯性,且部分关联可通过已知功能、GWAS信号或动物实验证据支持,例如嗜酸性粒细胞计数与PRG2罕见变异的关联、糖化血红蛋白(HbA1C)与PTPN11罕见变异的关联等。
基线掩码策略在不同场景下的稳健表现
在All of Us队列的45种连续性状中,基线策略比高影响力策略多检出1.5倍低频和1.31倍罕见变异关联;在AMP T2D GENES联盟的12种连续性状中,除免疫球蛋白基因与空腹血糖/胰岛素的少数关联外,整体表现一致;在11种二元性状分析中,基线策略在英国生物样本库和All of Us队列中均比高影响力策略多检出21%-50%的关联。此外,基线策略在不同遗传多基因性分组中均表现稳定,且掩码组成和基因内变异数量在不同祖先群体中高度相关,提示其具有良好的跨群体适用性。
基因水平负荷检验的其他考量因素
研究人员进一步评估了其他变量对结果的影响:REGENIE和SAIGE-GENE+的检验结果高度一致(z分数Pearson相关系数R=0.99),前者在连续性状中多检出50个关联,后者在二元性状中多检出22个关联;仅聚合保守蛋白结构域的变异会导致关联数量减少9%;转录本注释采用“最严重后果”策略检出关联最多,而测试所有转录本的计算成本高,仅测试经典转录本会遗漏非经典亚型的信号;优先考虑掩码可解释性的简化策略会损失13.3%-13.9%的关联;低频掩码比罕见掩码多检出83%-86%的关联,但同时使用两者可平衡发现能力和与常见变异的独立性。
讨论部分指出,既往罕见变异研究缺乏变异过滤和分组标准,导致基因水平关联的一致性和可重复性受限,而掩码选择常被忽视却显著影响结果。本研究提出的基线掩码策略为跨数据集和性状的研究提供了稳健的发现能力,可作为新掩码策略的基准或默认选择。研究局限性包括文献检索可能遗漏部分掩码、新关联的真实阳性率需独立复制验证、未深入分析同一基因-性状关联在不同掩码中的模式、依赖现有生物信息学预测工具的局限性,以及经验性策略对疾病遗传架构和解释性的洞察有限。基于此,研究人员建议:研究者应明确认知掩码对结果的影响并透明报告策略依据;根据性状类型选择REGENIE(连续性状)或SAIGE-GENE+(二元性状);优先采用实验支持的转录本进行注释和聚合;避免使用包含常见变异的掩码;将基线策略作为基准或默认选择以提升可重复性。这些建议将有助于推动基因水平关联研究的规范化和结果可比性。