《PLOS Computational Biology》:Approximate Bayesian inference of directed acyclic graphs in biology with flexible priors on edge states
编辑推荐:
本文介绍了一种名为BayCN的新型贝叶斯方法,用于在生物学中有向无环图(DAG)的推断。该方法的核心优势在于其将图表示为边状态(即两个方向或无连接),并允许研究者设定灵活的边状态先验以整合先验生物学知识(如稀疏性)和输入图。通过基于伪后验的Metropolis-Hastings式采样器,该方法在消除高维干扰参数的同时,显著提升了计算效率,并能准确反映马尔可夫等价性。Baycn成功应用于两个基因组学实例,展现了其在处理混合数据类型(离散/连续)和利用工具变量约束边方向方面的能力,在图形和边水平上均实现了比现有方法更高的准确性。
在生物学研究中,图形模型(Graphical models)被广泛用于表示生物系统内变量之间的依赖结构。其中,在适当的假设下,有向无环图(DAGs)或称贝叶斯网络(Bayesian networks)中的有向边可以编码潜在的因果或调控关系。然而,从数据中推断哪些连接是真实的、信息流向何方,尤其是在处理生物过程的复杂性和变量高维度时,仍然充满挑战。本文提出的BayCN(BAYesian Causal Network)方法,为这一领域带来了一个创新的解决方案。
BayCN的核心思想:基于边状态的图表示
现有许多贝叶斯DAG推断方法将先验置于整个图结构或节点排序/划分上,这难以直接转化为对单条边状态的先验信念。与此不同,BayCN对图的表征方式进行了根本性的改变。它将一个DAG表示为一个边状态向量,其中每条候选边可以有三种状态:从节点j指向k、从节点k指向j,或者无边连接。这种“边中心”(edge-centric)的视角,使得研究人员可以更直接、更灵活地为每种边状态设定先验概率。例如,基于对网络稀疏性的生物学知识(如已知每个基因平均仅受少数几个转录因子调控),可以设定一个高的“无边”先验概率。这种表示不仅更符合生物学直觉,也简化了先验的制定。通过一个定义在边状态上的贝叶斯图模型,BayCN的目标是推断出所有候选边各自三种状态的后验概率。
高效的推断算法:伪似然与Metropolis-Hastings式采样
为了实现高效的推断,BayCN采用了伪贝叶斯(pseudo-Bayesian)策略。该方法将焦点放在图结构学习上,而将节点条件分布中的参数(如回归系数)视为干扰参数(nuisance parameters)。通过使用基于极大似然估计(MLE)的剖面似然(profile likelihood)作为伪似然(pseudo-likelihood),并将其与边状态先验结合,定义了一个图结构上的伪后验分布。理论上,在满足正则条件下,这种伪似然方法与完整的积分似然具有相同的渐进行为(如一阶和二阶性质),从而在保证推断准确性的同时,避免了高维参数积分的巨大计算负担。
基于此伪后验,BayCN设计了一个类似Metropolis-Hastings的采样算法,在由输入候选图定义的图空间中游走。算法在每一步提议改变一个或多个边的状态,并计算接受概率。一个关键技术挑战是提议的图可能包含有向环,从而违反DAG的无环性。BayCN通过利用强连通分量(SCCs)的图论性质来高效检测和消除环:它识别出包含多个节点的SCC,并随机修改该分量内的一条边,重复此过程直至图中所有SCC都是单节点,从而得到一个无环的候选DAG。理论证明,在计算接受概率时,转移概率仅取决于当前图和提议图之间状态不同的边,而与消环的具体路径无关。该算法最终产出一系列图样本,通过统计每条边在样本中处于三种状态的频率,即可估计其伪后验概率。
处理混合数据与利用工具变量
BayCN的设计充分考虑了基因组学等领域的实际数据特点。它能够处理混合类型的数据,例如,将连续的基因表达数据建模为正态分布,将离散的基因型或二元组织类型数据建模为二项分布,形成了一个条件广义线性模型框架。
更重要的是,BayCN能够利用工具变量(Instrumental variables)来帮助约束边的方向,这显著增强了因果推断的能力。在基因组学中,遗传变异(如单核苷酸多态性,SNP)常可作为工具变量。基于孟德尔随机化原则(PMR),遗传变异影响下游表型(如基因表达)的路径方向是受限的——从DNA到RNA,而非反向。BayCN在采样过程中强制执行这种方向性约束(例如,禁止从基因表达指向遗传变异的边),从而缩小了可容许图结构的空间,帮助辨别原本在马尔可夫等价类中无法区分的边方向。值得注意的是,该方法不要求遗传变异满足经典孟德尔随机化中严格工具变量的所有假设,而是将PMR作为一种施加方向约束、减少图空间大小的实用工具。
性能评估:仿真研究与实际应用
通过广泛的仿真研究,作者评估了BayCN的性能。研究涵盖了从简单的中介模型(M1)、V型结构(M2)到更复杂的多节点网络(GN4, GN5, GN8, GN11等)共七种拓扑。评估指标包括基于三种边状态的均方误差(MSE1)、基于后验概率邻接矩阵的均方误差(MSE2)以及精确度和统计功效。结果表明,BayCN估计的边状态后验概率是校准良好的。使用稀疏先验能有效降低假阳性,同时保持对真实边的检测能力。与包括基于图结构的MC3、基于节点排序的order MCMC、基于节点划分的partition MCMC、BCDAG以及非采样的scanBMA在内的多种现有贝叶斯方法相比,BayCN在大多数仿真场景下都表现出具有竞争力的准确性,并且在计算时间上提供了良好的权衡。
案例研究A:利用遗传变异推断转录调控因果网络
研究者将BayCN应用于GEUVADIS项目的真实数据,旨在区分与同一表达数量性状位点(eQTL)相关的多个基因中,哪些是直接靶标,哪些是间接靶标。以eQTL作为工具变量,并纳入从全基因组表达数据中识别出的、与eQTL或基因显著相关的主成分(PCs)作为混杂变量节点。分析结果显示,BayCN能够推断出与数据相关性一致的后验概率。例如,在eQTL集合Q8的分析中,BayCN识别出了eQTL rs11305802与基因PNP、TMEM55B之间的边,其方向与相关性模式一致。更重要的是,当包含PCs时,BayCN推断出了基因RP11-203M5.8与PNP之间的边方向为RP11-203M5.8指向PNP,这得到了一个V型结构(RP11-203M5.8 → PNP ← PC2)的支持,而其他一些方法在未充分考虑PCs时则得出了相反的边方向。这凸显了BayCN对弱信号(如与混杂变量的条件依赖)的敏感性,以及正确处理混杂对于准确推断的重要性。
案例研究B:推断果蝇胚胎组织分化中转录因子的组合结合
第二个案例研究了果蝇中胚层发育过程中五个关键转录因子(Twist, Tinman, Mef2, Bagpipe, Biniou)在五个不同组织类型中的组合结合模式。数据包括二元的组织类型标签和连续的不同时间点的染色质免疫沉淀芯片(ChIP-chip)结合信号。研究者将组织类型视为工具变量,并首先使用快速图推断方法MRPC生成一个初始输入图。BayCN分析成功识别出与已知生物学知识一致的调控关系。例如,推断出的网络确认了Twist与中胚层(Meso)的关联,以及Twist与Tin、Mef2之间的边,这与Twist直接调控Tin和Mef2表达的实验证据相符。同样,特异性在 visceral muscle(VM)中表达的Bap和Bin,在推断的图中形成了一个独特的子图,并且只与VM或VM&SM组织类型相连,尽管它们在相关性热图中并未聚在一起,这显示了BayCN推断的生物学特异性。与其他方法相比,BayCN在完全连通图或信息性输入图下均能保持计算可行性并恢复关键的边,而其他一些方法在完全连通图下计算不可行,或无法恢复大部分关键边。
结论与展望
总而言之,BayCN通过其边状态的图表示、灵活的边水平先验、高效的伪似然采样算法以及对混合数据类型和工具变量的支持,为生物学中有向无环图的贝叶斯推断提供了一个强大而实用的新工具。它在多个仿真和真实基因组学应用中展现出了优于或相当于现有方法的准确性和灵活性。尽管目前处理的网络规模仍属中等,但其框架为扩展到更大规模的生物网络推断奠定了坚实基础。BayCN使研究人员能够更自然地整合先验知识,量化边方向和不存在的统计不确定性,从而在复杂的生物系统中推进因果关系的发现。