《Journal of Biomedical Informatics》:DMDGRN: A data augmentation-based multilayer directed graph convolutional network for gene regulatory network inference
编辑推荐:
基因调控网络(GRN)推断方法中存在方向性、稀疏性及高阶交互建模不足的问题,本文提出DMDGRN模型,通过相位矩阵构建有向拉普拉斯算子、数据增强缓解稀疏性、多层有向图卷积神经网络捕获高阶信息,显著提升GRN推断精度,并在乳腺癌治疗靶点预测中验证有效性。
Pi-Jing Wei | Mingzhu Sun | Zheng Ding | Rui-Fen Cao | Zhen Gao | Chun-Hou Zheng
教育部智能计算与信号处理重点实验室,安徽大学物理科学与信息技术研究院,中国安徽省合肥市九龙路111号,230601
摘要
目标
基因调控网络(GRNs)提供了转录因子(TFs)与其靶基因之间调控相互作用的图形表示,这些相互作用决定了细胞的身份和功能。解析GRNs对于理解疾病发病机制至关重要,仍是系统生物学中的一个核心挑战。近年来,基于图神经网络的方法在GRN推断方面取得了显著进展,因为它们能够出色地模拟图结构化的生物数据。然而,GRNs的固有特性通常被忽视了,包括方向性、稀疏性以及丰富的高阶调控相互作用。
方法
在这项研究中,我们提出了DMDGRN,这是一种基于数据增强的多层有向图卷积网络,用于GRN推断。为了捕捉GRNs的方向性,DMDGRN使用相位矩阵来构建拉普拉斯算子,从而追踪信息传播路径。考虑到已知GRNs的固有稀疏性,DMDGRN结合了数据增强技术来克服网络稀疏性问题。此外,DMDGRN采用具有残差连接的多层有向网络架构来提取更高阶的邻域信息。
结果
在基准数据集上的综合评估表明,DMDGRN显著提高了GRN推断的准确性。值得注意的是,在乳腺癌应用中,我们的框架成功识别出了相关的治疗候选分子。
结论
研究结果表明,我们采用的策略对于推断GRNs是有效的。其在乳腺癌数据上的成功应用进一步凸显了DMDGRN在揭示疾病相关调控机制和识别治疗靶点方面的潜力,使其成为推动计算生物学和转化医学发展的有力工具。
引言
基因调控网络(GRN)是转录因子(TF)与靶基因之间复杂的有向调控关联的集合[1]。GRNs阐明了复杂的生物现象,并作为维持生命过程、控制生化反应和调节化合物水平的基本机制。GRN推断在预测基因功能、识别癌症生物标志物和发现潜在药物靶点方面发挥着关键作用[2]。
高通量技术的进步促进了大规模的TF-靶基因调控关系挖掘,从而开发出了专门的数据库[3][4][5][6]来存储这些数据。然而,这些记录的相互作用仅代表了生物系统中实际存在的调控关联的一小部分。传统的实验方法进行GRN推断仍然成本高昂且耗时。因此,迫切需要开发准确高效的计算方法来解析基因调控机制。早期的计算工作往往依赖于信息论原理(例如皮尔逊相关系数、互信息、条件互信息)来基于相关分数估计基因-基因关联[7][8][9]。然而,这些方法通常无法辨别调控关系的方向性。为此,NSRGRN[9]首先对候选相互作用进行排序,然后应用方向性条件互信息来识别直接调控关系,最后通过结合局部-全局的方法优化网络结构。近年来,出现了许多基于基因表达数据的GRN推断的计算方法,这些方法大致可以分为无监督学习和有监督学习方法[10][11]。
无监督学习方法的GRN推断主要包括基于特征选择的方法[12][13][14][15]。对于包含N 个基因的GRN,这些方法将GRN推断转化为N 个独立的特征选择子问题[13][16][17]。对于每个基因,采用特征选择技术来预测候选调控因子。dynGENIE3[16]使用随机森林作为特征选择技术,并将常微分方程引入模型以从时间序列基因表达数据中预测GRN。BiXGBoost[13]利用XGBoost为每个基因选择候选调控因子。MMFGRN采用LightGBM和XGBoost作为特征选择技术,从稳定和时间序列基因表达数据中预测有向GRN[17]。然而,无监督方法存在几个局限性。首先,现有方法由于特征提取能力有限,无法准确预测TF-基因调控关系。此外,这些方法主要依赖于基因表达数据,而很大程度上忽略了GRNs中嵌入的拓扑信息。
有监督学习方法的GRN推断受到了广泛关注,并取得了优异的性能。CNCN[18]首先将每对基因的基因表达数据转换为标准化的经验概率密度函数,然后使用卷积神经网络(CNN)从数据中学习特征,通过分类来推断GRN。然而,CNCN仅适用于静态基因表达数据,无法处理时间序列数据。为了解决这个问题,提出了TDL[19]来从时间序列基因表达数据中提取特征。具体来说,TDL设计了基于LSTM和3D-CNN的两个模型来捕捉时间特征并推断GRN。这些方法的一个共同局限性是它们依赖于将基因表达谱转换为类似图像的表示,随着数据规模的增加,计算成本变得很高。CNNGRN是一种使用CNN从表达数据中提取基因调控特征以重建GRN的方法[20]。尽管它整合了基因表达模式和网络拓扑,但CNNGRN未能考虑调控关联的方向性。此外,它提取的网络结构特征是高维且稀疏的,这限制了重建的准确性。图神经网络(GNNs)在非欧几里得数据分析中表现出色,包括在社交网络[21][22]、个性化药物发现[23]和疾病预测[24]中的应用。因此,最近的研究探索了使用GNN进行GRN推断,将基因表达数据与邻域信息相结合。GRGNN[25]将GRN推断构建为图分类问题,将GRN分解为两个节点子图并对其进行分类。然而,GRGNN将基因预定义为TFs或靶基因,忽略了许多基因所扮演的双重调控角色。GENELink[26]将GRN推断视为链接预测任务,使用双层图注意力网络(GAT)和全连接层来学习TFs和靶基因的低维嵌入。尽管有其创新性,GENELink忽略了GRNs的方向性。GMFGRN[27]利用图卷积网络(GCN)从异构基因-细胞图中学习嵌入表示,有效缓解了dropout问题,并通过基因嵌入向量确定基因相互作用。GNNLink[28]使用基于GCN的编码器通过聚合相邻节点特征来学习基因表示。然而,这种方法未能有效处理网络中孤立基因节点的问题。GCLink[29]采用双通道图对比学习框架,其中两个通道都使用GAT进行邻居聚合。然而,由于只使用单层GAT,这种方法未能真正解决多层GNN相关的过度平滑问题。DGCGRN利用有向GCN捕获基因表达谱和有向网络拓扑,显著提高了推断性能[30]。GRNs表现出高度稀疏性,意味着许多基因节点几乎没有或根本没有邻居(即孤立节点)。忽略GRNs的稀疏性可能导致节点间的信息传播不足,从而产生不稳定的基因嵌入。此外,GRNs本质上是方向图。在学习过程中忽略边方向性会导致双向信息流,可能引入误预测。因此,在使用GNN学习低维GRN嵌入时,必须同时解决网络稀疏性和明确保留方向性问题。
为了解决这些问题,本研究提出了DMDGRN,这是一种基于数据增强的多层有向图卷积网络,用于GRN推断。DMDGRN模型使用有向GCN,利用相位差矩阵标记TF和靶基因之间的方向性,有效解决了传统GNN在处理有向图结构数据时的局限性。此外,为了同时提取基因间的长距离调控相互作用,DMDGRN设计了具有残差连接的多层有向网络架构。此外,该模型结合了数据增强技术来处理稀疏图,使基因节点能够在特征聚合过程中全面整合其内在特征和局部及更高阶的邻域信息。另外,为了充分利用先前GRN的拓扑属性,我们采用图表示学习来捕获GRN拓扑结构的低维嵌入。在基准数据集上的实验结果和人类乳腺癌的案例研究证明了DMDGRN的优越性能。
部分片段
重要性声明
问题或议题 从表达数据中推断准确且有向的GRNs是系统生物学中的一个核心挑战。当前的图神经网络方法常常忽略GRNs的关键固有属性,如方向性、稀疏性和高阶调控相互作用,从而限制了它们的准确性和生物学相关性。 已知内容 GNNs在模拟生物网络进行GRN推断方面表现出良好的性能,因为它们能够捕获图结构化数据。然而,大多数
DMDGRN概述
DMDGRN方法是一种基于数据增强的多层有向GCN的有监督GRN推断方法,如图1所示。该框架将GRN推断转化为有向图链接预测任务,输入是一个已标注有基因表达特征的GRN。DMDGRN首先使用图增强模块(模块A)通过分析邻域分布和基因表达谱来生成增强特征,从而解决
结果与讨论
在这项研究中,模型使用Adam优化器进行训练,初始学习率为1×10^-4,权重衰减为1×10^-5。应用梯度裁剪,阈值设为1.0以防止梯度爆炸。学习率遵循余弦退火计划(T_max=总训练周期)。训练周期的最大数量设置为500,如果损失连续50个周期没有下降,则通过提前停止机制(patience=50)终止训练。
结论
GRNs的重建对于阐明基因表达调控机制和开发新的治疗策略具有重要的理论和实践价值。在这项研究中,我们提出了DMDGRN,这是一种从批量RNA-seq数据重建GRN的新模型,创新性地整合了GRNs的网络结构特征。在方法上,我们的工作取得了三个关键贡献。首先,我们采用基于相位差分析的有向GCN方法(Magnet)来准确
伦理声明
本研究不涉及人类参与者、动物实验对象或可识别的个人数据。因此,不需要伦理批准。
CRediT作者贡献声明
Pi-Jing Wei: 写作——审阅与编辑,撰写——初稿,资金获取,形式分析,概念化。Mingzhu Sun: 写作——审阅与编辑,可视化,验证。Zheng Ding: 写作——审阅与编辑,撰写——初稿,软件,方法论,形式分析,概念化。Rui-Fen Cao: 写作——审阅与编辑。Zhen Gao: 写作——审阅与编辑,撰写——初稿,形式分析。Chun-Hou Zheng: 写作——审阅与编辑,监督。
资助
本工作得到了国家自然科学基金 (编号:62202004、62433001和62472005)和安徽省大学协同创新计划 (编号:GXXT-2021–039)的资助。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。