mFABIO:一种用于优先筛选二元性状潜在因果基因与组织的整合多组织转录组关联研究精细定位方法

《PLOS Genetics》:mFABIO: An integrative multi-tissue TWAS fine-mapping approach to prioritize potentially causal genes and tissues underlying binary traits

【字体: 时间:2026年05月28日 来源:PLOS Genetics 3.7

编辑推荐:

  近期转录组关联研究(Transcriptome-wide Association Study, TWAS)精细定位方法的进展实现了对多个基因的联合建模,提升了因果基因优先排序的能力。然而,现有方法主要针对数量性状开发,且大多依赖单一组织的基因表达数据。研究人员

近期转录组关联研究(Transcriptome-wide Association Study, TWAS)精细定位方法的进展实现了对多个基因的联合建模,提升了因果基因优先排序的能力。然而,现有方法主要针对数量性状开发,且大多依赖单一组织的基因表达数据。研究人员开发了mFABIO,这是一种专为二元性状设计的多组织TWAS精细定位方法。mFABIO采用概率单位模型(probit model)直接将同一位点内跨多个组织的基因遗传调控表达(Genetically Regulated Expression, GReX)与二元结局相关联,同时考虑基因和组织间GReX的相关性。结果显示,mFABIO在处理二元性状时统计功效显著提升,且能稳健控制错误发现率(False Discovery Rate, FDR)。研究人员通过大量模拟评估mFABIO,并将其应用于英国生物样本库(UK Biobank)中六种二元疾病性状(哮喘、乳腺癌、痛风、高血压、前列腺癌和类风湿关节炎)的深度分析,使用了涵盖38个基因型-组织表达(Genotype-Tissue Expression, GTEx)项目的组织表达数据。在FDR < 0.05的阈值下,mFABIO平均每种疾病识别出42个可能因果基因和65个组织-基因对。值得注意的是,60.9%的基因和77.2%的基因-组织对得到了现有TWAS或全基因组关联研究(Genome-Wide Association Study, GWAS)证据的支持,相比现有方法,受支持基因至少增加14.9%,受支持基因-组织对至少增加14.8%。此外,与单组织方法相比,mFABIO将潜在因果候选范围缩小了至少51.3%(基因)和50.8%(基因-组织对)。借助提升的统计功效,mFABIO成功优先筛选出多种与这些疾病相关的潜在因果基因-组织对,并获得生物学证据支持,典型例子包括肺组织中D2HGDH基因与哮喘、乳腺组织中CYBRD1基因与乳腺癌、脾脏组织中CCR6基因与类风湿关节炎。总体而言,mFABIO是多组织TWAS精细定位二元性状的有效工具。
研究背景与意义
转录组关联研究(TWAS)通过整合基因表达数据与全基因组关联研究(GWAS)识别潜在因果基因-性状关联,但传统边际TWAS方法易受邻近基因连锁不平衡(Linkage Disequilibrium, LD)导致的混杂影响,无法区分真正因果基因与仅因相关性被标记的“标签基因”。为应对这一局限,TWAS精细定位方法通过联合建模位点内所有基因提升因果基因识别准确性,但现有方法仍存在两大不足:一是多数依赖单一组织表达数据,难以捕捉复杂疾病涉及的多组织特异性遗传效应;二是多采用线性回归框架适配数量性状,直接用于二元疾病性状时会因未适配结局二元特性导致统计功效损失。针对上述问题,研究人员开发了mFABIO(multi-tissue Fine-mApping of causal genes for BIinary Outcomes),一种适配二元性状的多组织TWAS精细定位方法,相关研究发表于《PLOS Genetics》。
关键技术方法
研究采用两阶段设计:第一阶段利用GTEx数据库38个meta组织的欧洲人群eQTL数据,通过SuSiE(Sum of Single Effects)模型构建基因遗传调控表达(GReX)预测权重;第二阶段基于英国生物样本库(UK Biobank)337198名欧洲血统个体的基因型数据,结合GReX预测结果开展精细定位。模拟研究采用真实UK Biobank基因型数据,设置空模拟与替代模拟场景,对比mFABIO与FABIO、FOCUS、GIFT、cTWAS及多组织方法TGFM的性能差异。真实应用分析覆盖哮喘、乳腺癌、痛风、高血压、前列腺癌、类风湿关节炎六种二元疾病性状,通过文献挖掘验证组织特异性关联的生物学合理性。
研究结果
方法概述
mFABIO以概率单位模型(probit model)为核心,通过潜变量框架适配二元结局,采用SuSiE稀疏先验实现位点内多组织基因-组织对效应的联合建模,同时通过分层先验实现基因与组织层面的变量选择,结合变分推断算法保障大规模生物样本库数据的计算可扩展性。
mFABIO在空模拟中有效控制假信号
在八种空模拟场景下,所有方法在估计FDR阈值为0.05时均表现出良好的假阳性控制能力,其中mFABIO与TGFM尤为严格,多数场景下无假阳性结果,单组织方法假阳性率也维持在较低水平,验证了方法的可靠性。
mFABIO在替代模拟中产生校准良好的后验包含概率并提升精细定位功效
在替代模拟中,mFABIO的后验包含概率(Posterior Inclusion Probability, PIP)校准性显著优于单组织方法:在估计FDR为0.05时,mFABIO的实际FDR稳定在0.04,而单组织方法实际FDR膨胀至0.12~0.15。统计功效方面,在真实FDR阈值为0.05的基线场景下,mFABIO识别因果基因-组织对的功效达34.5%,显著高于TGFM的27.5%和单组织方法的15.0%~19.0%;识别因果基因的功效达36.3%,同样优于对比方法。功效随病例对照比失衡、因果组织数增加而下降,但mFABIO始终维持最优性能;GReX遗传力、基因效应对性状的解释度提升及样本量扩大均能进一步提升mFABIO功效,且其在独立eQTL参考面板替换分析中仍保持结果稳健性。
UK Biobank二元性状分析结果
在六种疾病的真实分析中,mFABIO平均每种疾病识别出42个因果基因,其中60.9%得到GWAS或TWAS证据支持,较其他方法至少多识别出14.9%的受支持基因,且候选基因集规模较单组织方法缩小51.3%以上。基因-组织对层面,mFABIO平均识别出65个因果对,77.2%得到已有证据支持,较其他方法至少多识别出14.8%的受支持对,候选集缩小50.8%以上。组织富集分析显示,mFABIO识别的关联对有最高的比例位于疾病相关组织(平均29.7%),优于对比方法。典型候选包括哮喘肺组织D2HGDH(PIP=1)、乳腺癌乳腺组织CYBRD1(PIP=1)、类风湿关节炎脾脏组织CCR6(PIP=0.98),均获得既往遗传学或机制研究支持。
运行时间与内存使用基准
mFABIO在25万样本模拟中单批次分析50个LD位点耗时约2.66小时,内存占用8GB;在UK Biobank真实数据中单染色体分析平均耗时9.77小时,峰值内存约10GB,计算效率与基于汇总统计的方法相当,且避免了汇总统计分析的LD不匹配偏差。
讨论与结论
mFABIO通过概率单位模型适配二元性状特性,联合多组织GReX建模,实现了校准良好的因果推断与更高的统计功效。其局限性在于需要个体水平GWAS数据,暂不支持汇总统计输入,且两阶段设计未纳入表达预测不确定性。研究证实mFABIO在独立eQTL面板下仍保持稳健,未来可通过联合似然框架整合表达预测不确定性、扩展混合效应模型适配更多协方差结构,并进一步适配多血统GWAS数据。总体而言,mFABIO为二元性状的多组织TWAS精细定位提供了可靠工具,可有效缩小候选基因范围、提升组织特异性因果关联的识别准确性,助力复杂疾病的机制解析。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号