基因特异性方差控制方法校正多基因性驱动的转录组范围关联研究假阳性膨胀

《The American Journal of Human Genetics(AJHG)》:A gene-specific variance-control approach corrects polygenicity-driven inflation observed in transcriptome-wide association studies

【字体: 时间:2026年01月27日 来源:The American Journal of Human Genetics(AJHG) 9.8

编辑推荐:

  本研究针对转录组范围关联研究(TWAS)及相关方法(xWAS)中因目标性状多基因性导致的假阳性率膨胀问题,提出了一种方差控制校正方法。通过理论推导和实证分析证明,该方法能有效校准TWAS/xWAS结果,显著提升复杂性状中介分子特征发现的可靠性。研究成果对精准医学和复杂疾病机制解析具有重要意义。

  
随着全基因组关联研究(GWAS)发现了数十万个与复杂性状相关的遗传位点,科学界迫切需要解析这些位点影响表型的分子机制。转录组范围关联研究(TWAS)及其相关方法(xWAS)应运而生,通过将遗传预测的分子特征(如基因表达)与目标性状关联,旨在识别介导遗传变异与表型关系的分子中介物。然而,这类方法在实际应用中一直存在结果可靠性的争议。
近年来,多位研究者报告TWAS结果存在膨胀现象,即观察到的显著关联数量远超预期。van Iterson等人认为这种膨胀源于分析方法偏差,并提出了BACON这一基于经验零分布的贝叶斯校正方法。de Leeuw等人则将问题归因于基因表达预测的不准确性。但是,这些解释未能充分考虑复杂性状普遍存在的多基因性(polygenicity)这一关键特征。
事实上,大多数复杂性状如身高、精神疾病等都具有高度多基因性,即成千上万的遗传变异各自对性状产生微小效应。当TWAS/xWAS分析的目标性状具有这种多基因背景时,即使分子中介物与性状间没有真实因果关系,也会由于多基因性的干扰而产生假阳性信号。这种干扰随着GWAS样本量和性状遗传力的增加而线性增长,导致假阳性率严重膨胀,威胁着TWAS/xWAS研究结论的可靠性。
为解决这一关键问题,研究人员在《The American Journal of Human Genetics》上发表了最新研究成果,系统分析了多基因性对TWAS/xWAS假阳性率的驱动机制,并开发了一种有效的校正方法。
为开展此项研究,团队运用了多项关键技术:利用英国生物银行(UK Biobank)的基因型数据和表达数量性状位点(eQTL)资源预测基因表达;采用HapMap3 SNP集合进行遗传分析;通过线性回归模拟多基因零性状(polygenic null traits);使用LD分数回归(LDSC)估计性状遗传力;并开发了方差控制校正算法。
No inflation for non-polygenic null traits
研究人员首先在理想条件下验证TWAS的校准情况。当目标性状不具有多基因成分时,TWAS关联统计量完全符合理论零分布,p值和Z分数均未出现膨胀,表明在非多基因背景下,TWAS方法本身是可靠的。
Polygenic null target trait causes inflated type I error
然而,当模拟具有多基因背景的零性状时,即使中介物与性状间确实无因果关系,TWAS的检验统计量也出现了显著膨胀。这种膨胀在简单的模拟设置和真实的UK Biobank数据中均得到验证,且与使用的预测软件(如PrediXcan、Fusion)无关,表明这是TWAS/xWAS方法固有的问题。
Inflation grows linearly with the trait heritability and the GWAS sample size
通过系统改变样本大小(N)和性状遗传力(h2δ),研究发现TWAS统计量的期望方差E[Z2twas]与N×h2δ呈线性关系:E[Z2twas] ≈ 1 + N×h2δ×Φ,其中Φ为膨胀斜率参数。这一规律在基因表达、代谢物水平和脑影像特征等不同类型的分子中介物中均得到验证。
Inflation in other xWASs has similar properties
研究进一步证实,膨胀问题不仅限于TWAS,而是所有基于遗传预测中介物与目标性状关联的xWAS方法的共性问题,包括蛋白质组范围关联研究(PWAS)、代谢组范围关联研究等。
Estimating the inflation factor
团队为每个基因或中介物估计了特定的膨胀斜率参数Φ。分析显示,不同中介物的Φ值存在差异:基因表达的Φ值范围最广(0-2×10-4),代谢物次之(0-1.5×10-4),而脑影像特征的Φ值范围最窄(3.9×10-5-6.5×10-4)。大多数中介物的Φ值在10-5量级。
Variance-control strategy to correct for inflation
基于膨胀机制的理解,研究提出了方差控制校正方法:将原始Z分数除以其期望标准差的平方根,即Zcorr= Ztwas/√(1 + N×h2δ×Φ)。这一校正有效地将Z分数的方差重新缩放至1,使统计量恢复至标准正态分布。
Variance control yields higher precision under the alternative hypothesis
在校正效能评估中,方差控制方法在维持较高统计功效的同时,显著提升了发现的精确度。与BACON方法相比,方差控制在多种模拟场景下均表现出更优的校准性能。
Inflation correction in real TWAS applications using GWAS summary statistics
将校正方法应用于110个真实GWAS性状的TWAS分析后,原先因多基因性导致的假阳性膨胀被有效消除。特别是对于高度多基因的精神疾病等性状,校正后显著基因数量大幅减少,而免疫相关性状(通常涉及较少基因的较大效应)的显著基因集合相对稳定。
研究还从理论角度推导了包含非零中介效应的广义公式,证实预测误差本身不会导致第一类错误膨胀,但只要预测误差与目标性状独立,它仅会影响统计功效而非假阳性率。
团队已将这一校正方法整合至PrediXcan软件平台,并公开了针对GTEx组织、METSIM代谢物和UK Biobank脑影像特征的Φ参数估计值,方便研究者直接应用。
这项研究的重要贡献在于明确了多基因性是驱动TWAS/xWAS结果膨胀的关键因素,而非此前认为的预测误差或局部多效性。研究者区分了多基因多效性(polygenic pleiotropy)与局部多效性(local pleiotropy)的概念,指出前者是复杂性状内在的、由大量微小效应累积而成的背景信号,而后者通常由特定遗传变异的较大效应引起。
研究的局限性包括基于加性无穷小模型的假设,以及对于不平衡病例-对照设计的线性近似可能不够精确。然而,作为针对多基因背景的一阶校正,方差控制方法为提升TWAS/xWAS结果可靠性提供了实用解决方案。
总之,这项研究系统揭示并有效解决了TWAS/xWAS中的多基因性驱动膨胀问题,为复杂性状分子机制研究提供了更加可靠的统计分析工具,对推进精准医学和疾病机制解析具有重要意义。随着大型生物库和多组学数据的不断积累,这种校正方法将有助于从遗传关联数据中提取更可靠的生物学洞见。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号