《Scientific Data》:A Dataset of Benchmark Boolean Models for Gene Regulatory Networks
编辑推荐:
基因调控网络(Gene Regulatory Networks, GRNs)捕获了基因调控所涉及的过程。布尔网络(Boolean Network, BN)建模为理解GRNs的动态行为提供了一种简单而有效的框架。尽管BN已被广泛研究和应用,但算法和理论分析通常是
基因调控网络(Gene Regulatory Networks, GRNs)捕获了基因调控所涉及的过程。布尔网络(Boolean Network, BN)建模为理解GRNs的动态行为提供了一种简单而有效的框架。尽管BN已被广泛研究和应用,但算法和理论分析通常是在特设选择的或人工构建的模型上进行测试,这可能会引入偏差,并且无法捕捉到它们最终所针对的真实GRNs的基本结构和动态特性。基准测试(Benchmarking)为计算方法和分析的验证与比较提供了标准化模型。研究人员构建了针对四个主要生物界(动物、细菌、真菌和植物)的GRNs的基准BN模型。所有模型均基于在GRNs中经验观察到的反复出现的性质和模体(Motifs)。所提出的基准BN为评估算法和理论分析提供了一个系统且无偏的基础。
**论文解读:基因调控网络基准布尔模型数据集**
**研究背景与问题**
现代系统生物学要求超越孤立基因相互作用的研究。基因调控网络(Gene Regulatory Networks, GRNs)捕获了基因调控发生的复杂机制,并能提供系统级性质的关键知识。对其恰当的研究需要借助数学网络模型。布尔网络(Boolean Networks, BNs)是一种定性数学模型,用于表示GRNs,由Kauffman提出后成为分析GRNs最流行和强大的工具之一。在BN中,每个节点代表一个生物实体,有向边表示激活(正号)或抑制(负号)影响,节点具有二进制状态(0或1),局部布尔函数根据邻居状态更新节点状态,迭代应用所有函数定义了系统的动态,其吸引子对应稳定构型,常与表型相关。
然而,当前存在两个主要问题:第一,对BN动态的理论和计算研究通常依赖于任意选择甚至特设(ad hoc)的模型,可能引入偏差,遗漏真实GRNs中常见的性质和模体;第二,大量可用BN模型使得选择具有代表性且能覆盖不同结构性质的子集变得困难,容易造成过度或不足表示。基准模型(Benchmark models)基于共同性质构建,为算法测试和理论分析提供标准框架,确保可重复性并实现跨研究结果的比较。尽管已有研究揭示了真实GRNs中常见的性质和模体(如出度分布的标度自由性、前馈环路(FFLs)和反馈环路(FBLs)的出现、布尔函数的通道化(canalization)等),但至今尚未提出基准BN模型,因此构建此类模型具有重要需求。
**研究内容与结论**
针对上述限制,研究人员在本工作中提出了针对GRNs的基准BN模型。这些网络考虑了在GRNs的BN模型中经验观察到的结构和动态性质及模体。具体而言,研究人员构建了四个有符号网络模型,分别对应四个主要生物界:动物、细菌、真菌和植物。该工作为算法测试和系统性比较提供了坚实基础,论文发表在《Scientific Data》。
**主要技术方法**
(1)底层未签名网络构建:生成随机有向图,通过迭代调整出度、入度、前馈环路(FFL)簇分布及平均连通性,使其逼近真实GRNs的经验度量。网络规模为20个节点(含1个外部参数),平均连通性μ?k?=2.5,出度服从幂律分布。
(2)有符号网络构建:基于底层网络,为每个生物界分配边符号(激活/抑制),通过拟合观察到的符号模体分布(包括一致与非一致FFLs的比例、按入度的负相互作用与正相互作用比率、按环路长度的反馈环路(FBL)符号分布)生成候选网络,并选择加权误差最小的网络。
(3)布尔函数分配:为每个有符号网络中的节点分配全通道化布尔函数(canalizing Boolean functions),使用三种模型(OR-NOT BN、AND-OR-NOT BN、一般通道化BN),使通道化深度与节点入度匹配。
数据来源基于先前元分析研究(参考文献3,21-28,30-35)中报告的经验观测值。
**研究结果**
**网络性质(Network properties)**
底层网络出度分布呈现标度自由(scale-free)模式,与真实GRNs一致;入度分布近似泊松分布(Poisson distribution)。平均连通性符合经验观测值。
**前馈环路簇(FFL clusters)分布**
底层网络中前馈环路(FFL)簇的频率分布逼近真实GRN模型中的观测分布,表明所构建的底层拓扑能够再现真实GRNs的局部连接模式。
**各王国有符号基准网络**
针对每个王国,有符号网络中FFL类型(一致与非一致)分布与真实GRN模型中的分布相匹配。按入度的激活与抑制相互作用比例,以及不同长度FBL中激活与抑制边比例,均与真实GRN观测一致。这些结果通过对比图6、图7、图8中的实证数据得到验证。
**各王国基准布尔网络模型**
对于每个有符号网络,三种不同布尔函数模型(OR-NOT BN、AND-OR-NOT BN、一般通道化BN)产生了不同的动态行为,吸引子类型和长度各异(见表1)。这显示了调整局部更新函数可以生成多样化行为并捕获不同现实场景,从而为算法测试提供丰富案例。
**总结讨论部分**
研究人员提出的基准BN模型捕捉了众多GRNs中常见的结构和动态性质,但并未再现任何特定GRN的机制细节。因此,这些模型并不能替代在真实GRNs上的测试,而是为计算评估和比较提供了有效且实用的补充模型。研究结论为:通过整合经验观察的结构和动态性质及模体,研究人员构建了面向四个主要生物界的基准BN模型(包括有符号网络和三种布尔函数设置),这些模型为系统评估算法和理论分析提供了标准化的无偏基础。所有模型数据和动态分析已公开提供(https://doi.org/10.5281/zenodo.17406797)。