《Neural Networks》:Inferring Gene Regulatory Networks via Adversarially Regularized Directed Graph Autoencoder
编辑推荐:
基因调控网络推断方法研究,提出基于对抗训练的图自动编码器ARDGA,通过结构矩阵捕捉一阶和二阶近邻关系,设计定向消息传递模块,结合源目标编码器与Wasserstein距离对抗训练策略,有效处理复杂拓扑和非独立同分布数据,在DREAM5和多个scRNA-seq数据集上验证优于现有基线方法。
龙凯夫|辛俊昌|曲 lu xu an|王明灿|李建妮|王志琼
东北大学计算机科学与工程学院,中国辽宁省沈阳市 110819
摘要
揭示完整的基因调控网络(GRNs)对于深入理解生物过程非常重要。尽管已经提出了许多 GRN 推理方法,但这些方法不仅难以处理 GRNs 的复杂拓扑结构,也没有考虑到基因表达数据的非同分布特性。为了解决上述问题,我们提出通过对抗性正则化有向图自动编码器(ARDGA)来推断 GRNs。首先,基于邻接矩阵计算两个结构矩阵,这些矩阵包含了第一阶和第二阶的邻近性信息,以捕捉 GRNs 的复杂拓扑结构。其次,利用这些结构矩阵开发了一个新颖的消息传递模块。基于该模块,部署源编码器和目标编码器来学习不同邻域中每个节点的源向量和目标向量,从而利用第一阶和第二阶的邻近性聚合丰富的邻域信息。第三,为了保持基因表达数据的生物统计特性,通过对抗性训练策略将目标向量规范化为原始数据的先验分布。最后,将源向量和目标向量输入解码器以推断 GRNs。在 DREAM5 数据集和七个单细胞 RNA 测序(scRNA-seq)数据集上的广泛实验表明,ARDGA 的性能优于最近的强基线方法,取得了有竞争力的结果。代码可公开获取于:
https://github.com/longkf/ARDGA。
引言
一个基因的表达水平受到其他基因表达的影响,而复杂的 GRNs 由众多基因的相互作用组成,这些基因在生命活动的每个周期中都起着重要作用(Badia-i Mompel 等人,2023;Qiao 等人,2020)。通过理解 GRNs 的整体情况,可以加速疾病诊断和药物开发的研究进展,为揭示生物现象和促进生命科学研究提供新的视角(Farrow 等人,2022)。由于基因数量众多且 GRNs 的拓扑结构复杂,直接通过高成本的生物实验获得其完整结构是不切实际的(Karlebach 和 Shamir,2008)。得益于微阵列技术的快速发展,逆向工程应运而生,旨在利用基因表达数据来推断 GRNs(Huang 等人,2009;Karlebach 和 Shamir,2008)。尽管与生物实验相比,逆向工程更加经济便捷,但在应用中仍面临两个主要挑战:(1)GRNs 作为有向图具有稀疏和无标度特性;(2)基因表达数据通常不满足独立同分布的假设。尽管一些回归模型(Huynh-Thu 等人,2010;Moerman 等人,2019)或贝叶斯网络模型(Xin 等人,2024;Xuan Vinh 等人,2012)试图缓解上述问题,但它们面临预测精度有限或计算复杂性过高的问题,这使得图神经网络(GNNs)逐渐成为推断 GRNs 的更合理选择。由于 GNNs 具有独特的归纳偏差,它们能够更有效地处理图结构数据(Han 和 Kang,2026)。正如卷积神经网络(CNNs)假设信息的空间定位一样,GNNs 的归纳偏差假设图中一个节点的表示不仅依赖于其自身特征,还依赖于与其连接的节点的特征。因此,通过递归聚合和更新相邻节点的信息,GNNs 能够捕捉节点之间的依赖关系。
推断 GRNs 可以被视为在有向图上进行链接预测,旨在从不完整的图结构和节点数据中推断潜在的链接。链接预测方法大致可以分为基于节点的方法(Chen 和 Liu,2022;Mao 等人,2023)和基于子图的方法(Wang 等人,2020;Zhang 和 Chen,2018)。基于节点的方法通过图自动编码器(GAEs)(Kipf 和 Welling,2016)学习每个节点的向量,并通过解码器重构网络(Kipf 和 Welling,2017)。然而,与仅依赖于单个节点表示的节点分类任务不同,链接预测涉及链接或节点集的表示。基于这一思想,SEAL(Zhang 和 Chen,2018)提取目标链接的封闭子图,确定应在该子图上使用的启发式规则,并将子图映射到边的存在概率。由于能够捕获更丰富的结构特征,基于子图的方法比基于节点的方法取得了更好的结果。然而,其主要缺点是从不同目标链接中提取的封闭子图不同,这导致需要为每个子图分别训练 GNN,从而带来了难以承受的计算复杂性,限制了基于子图的方法在大规模图中的应用,并使其在现实世界场景中更具挑战性。因此,一种更合理的方法是将更多结构信息纳入基于节点的方法中,以在预测精度和计算复杂性之间取得平衡。
尽管基于 GNN 的现有方法可以有效处理节点之间的相关性,但基因表达数据的非同分布特性尚未得到充分考虑。已有研究调查了癌症基因组图谱(Cancer Genome Atlas)中三种不同肿瘤类型中表达分布异常的基因(De Torrenté 等人,2020)。研究发现,所有基因中不到 50% 的表达数据遵循正态分布,而剩余数据符合柯西分布、伽马分布等多种形式(De Torrenté 等人,2020)。一些变分方法通常假设所有样本数据遵循正态分布,这与基因表达数据的特性相反,可能导致性能下降。因此,如何建模这种生物统计特性成为一个难题。生成对抗网络(GANs)(Goodfellow 等人,2014)在计算机视觉领域取得了显著成功,并被广泛用于解决数据分布匹配问题(Gui 等人,2021;Wang 等人,2025)。GAN 通过生成器以伪造方式生成样本,并通过批评者确定输入样本是来自先验分布还是生成器。然而,GAN 的训练过程容易不稳定。现有理论表明,不稳定的训练源于损失函数中使用了 f-散度家族。当两个度量具有不重叠的支持集时,f-散度表现出不连续性(Ali 和 Silvey,1966),这使得 GAN 训练容易遇到梯度消失或梯度爆炸等问题。相比之下,Wasserstein 距离在测量任意两个分布之间的距离时是连续的,并且几乎处处可微,为优化生成器提供了有效的梯度指导。因此,Wasserstein GAN(Arjovsky 等人,2017;Gulrajani 等人,2017)比 GANs 更稳定,为在非同分布的基因表达数据下规范化潜在表示提供了一种原则性的方法,解决了 GRN 推理中的分布不匹配问题。
为了解决上述问题,本文提出通过对抗性正则化有向图自动编码器来推断 GRNs。首先,GRNs 的拓扑结构非常复杂,捕获更多结构信息有利于链接预测。为此,ARDGA 基于邻接矩阵计算两个结构矩阵,每个矩阵包含有向图的一阶和第二阶邻近性。其次,设计了一个新的消息传递模块,通过结构矩阵对节点向量进行规范化,以便有效地将复杂的拓扑信息编码到节点向量中。基于该模块,部署源编码器和目标编码器分别学习不同邻域中每个节点的源向量和目标向量。当节点充当源节点或目标节点时,可以使用不同的向量来推断网络。这提高了模型的表达能力,同时有助于预测调控边的方向。第三,为了保持数据的生物统计特性,随机选择一部分原始基因表达数据作为先验分布,在每次前向传播时输入到批评者中。训练后,批评者输出目标向量与先验分布之间的 1-Wasserstein 距离,从而将目标向量规范化为正确的先验分布。最后,将源向量和目标向量一起输入解码器以推断 GRNs。在 DREAM5 挑战赛和七个 scRNA-seq 数据集上的广泛实验结果表明,ARDGA 的性能显著优于其他强基线方法,是一种强大的 GRNs 推理方法。
相关工作
随着生物检测技术的不断进步,基因表达数据的量呈指数级增长(Heller,2002)。为了更好地处理和分析这些海量数据,开发高效便捷的计算方法变得尤为重要。这些计算方法可以大大提高数据处理的速度和准确性,并为生物信息学等领域的研究提供有力支持。
符号说明
GRNs 可以表示为有向图。给定一个有向图 ,其中 V 是 n = |V| 个图节点的集合, 是 m = |E| 条有向边的集合。从线性代数的角度来看,(V, E) 被表示为一个 n?×?n 稀疏邻接矩阵 A,由 如果 e?∈?E,否则为 0。出度矩阵 是一个对角矩阵,由
数据集和基线
我们在 DREAM5 挑战赛和七个 scRNA-seq 数据集上测试了 ARDGA 的性能,这些数据集包含四种类型的真实网络。DREAM5 数据集中有四个网络,包括一个模拟网络和三个来自金黄色葡萄球菌(S. aureus)、大肠杆菌(E. coli)和酿酒酵母(S. cerevisiae)的真实网络。DREAM5 数据集的详细信息见表 2。此外,我们还使用了 BEELINE 提供的包含七种细胞类型的 scRNA-seq 数据集。
结论
我们提出了一种新的方法 ARDGA 来推断 GRNs,通过联合训练有向图自动编码器和 Wasserstein 对抗性正则化来提高预测精度。首先,基于邻接矩阵计算两个结构矩阵,以捕获第一阶和第二阶的邻近性。其次,使用这些结构矩阵设计了一个有向消息传递模块。基于该模块,部署源编码器和目标编码器来学习来自不同邻域的源向量和目标向量。
CRediT 作者贡献声明
龙凯夫:撰写 – 审稿与编辑,撰写 – 原稿,软件,方法论,概念化。辛俊昌:监督,资源,项目管理。曲 lu xu an:撰写 – 审稿与编辑,数据管理,概念化。王明灿:可视化,验证,数据管理。李建妮:可视化,数据管理。王志琼:监督,项目管理,资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了国家自然科学基金(62432003)和中央高校基本科研业务费(N25BJD013)的支持。