《Engineering Applications of Artificial Intelligence》:Inferring directed gene regulatory networks from single-cell ribonucleic acid sequencing data via multi-view contrastive learning
编辑推荐:
基因调控网络(GRN)推断在疾病机制和个性化治疗中具有重要意义。本研究提出多视图对比学习增强的图注意力网络(MCLGAT),通过局部高斯核GAT捕获直接调控关系,全局RA指数GAT挖掘高阶间接关联,结合对比学习动态调整特征权重,有效解决传统方法方向性缺失和特征提取不足的问题。实验表明,MCLGAT在7个单细胞RNA测序数据集上优于10种SOTA方法,并成功识别肺癌和乳腺癌的生物标志物及潜在治疗靶点。
杨洋 芒 | 姚明豪 | 韩彤 | 赵焕东 | 刘中华 | 马宝山
大连海事大学信息科学与技术学院,中国大连 116026
摘要
基因调控网络(GRNs)在理解细胞系统的结构和动态、揭示复杂的调控关系以及探索疾病机制方面发挥着至关重要的作用。最近,基于深度学习的方法被提出用于从单细胞转录组数据中推断GRNs,并取得了令人印象深刻的结果。然而,这些方法并未充分且动态地调整图模型中节点嵌入表示的相对重要性和高级特征。此外,真实物种的GRNs是具有方向性和高度稀疏性的大规模网络,这阻碍了GRN推断的进展。为了克服这些限制,我们提出了一种基于多视图对比学习(MCLGAT)的新模型来推断GRNs。MCLGAT主要是图注意力网络(GAT)、多视图框架和对比学习融合模型的集成。我们使用GRN的邻接矩阵生成一个方向向量,因此MCLGAT可以获得有向的基因调控关系。改进的GATs优化了注意力权重,多视图模型同时提取了GRN中节点的局部特征和高级特征。与10种最先进的方法相比,MCLGAT在四个细胞系的七个基准单细胞核糖核酸测序(scRNA-seq)数据集上表现出了竞争性性能。此外,利用MCLGAT推断出的候选调控基因,还识别出了肺癌和乳腺癌的潜在生物标志物和治疗药物,为阐明复杂疾病的基因调控机制以及制定个性化诊断和治疗计划提供了理论基础。
引言
基因调控网络(GRNs)的重建不仅揭示了基因表达调控的机制,还有助于理解细胞分化和发育过程(Aibar等人,2017年)。高通量测序技术的进步为调控网络的研究创造了新的机会。现在,许多研究直接从基因表达数据中推断GRNs,而不是进行耗时且成本高昂的生物实验(Huang等人,2009年)。这些预测方法比生物实验更快、更便宜,已被证明是一种高效的研究工具(Xu等人,2025年;Covert等人,2004年;Sasse等人,2024年)。
单细胞核糖核酸测序数据(scRNA-seq)的快速发展为GRN推断提供了前所未有的机会(Nguyen等人,2021年)。大量的scRNA-seq数据也极大地促进了GRN机器学习推断模型的建立和发展(Liu等人,2024年)。例如,SCODE(Matsumoto等人,2017年)是一种基于常微分方程的有效GRN推断方法,它利用scRNA-seq数据的伪时间作为高分辨率的时间信息。然而,不准确的时间信息可能会影响结果的准确性。SCENIC首先(Van de Sande等人,2020年)使用GENIE3(Van Anh Huynh-Thu等人,2010年)或GRNBoost2(Moerman等人,2019年),这些方法采用基于树的回归方法来识别与转录因子(TFs)共表达的基因集。然而,在数据噪声或不完整的情况下,其预测性能可能会受到影响。GRISLI(Aubin-Frankowski和Vert,2020年)首先从单个细胞的scRNA-seq表达谱中导出一个速度矢量场,然后使用线性常微分方程对细胞轨迹动态进行建模,最终通过稀疏回归推断网络。尽管如此,与某些深度学习方法相比,其特征提取能力相对较弱(Seitz等人,2024年;Zhang等人,2021年)。
过去十年中,基于深度学习的方法在GRN推断方面取得了显著进展。这些方法包括多种架构,如图自编码器、卷积神经网络(CNN)、基于VAE的框架、图神经网络(GNNs)和图注意力网络(GAT)。例如,DeepRIG(Wang等人,2023年)通过将基因表达数据转换为共表达模式来构建先验调控图。然后,使用图自编码器模型将图中的全局调控信息嵌入到潜在的基因嵌入图中以重建GRN。GMFGRN(Li等人,2024年)使用GNNs进行矩阵分解并学习基因的代表性嵌入,然后用来确定TF-基因对之间是否存在相互作用。CNNC(Yuan和Bar-Joseph,2019年)将基因对的共表达仔细设计为相似图像的直方图,并应用CNN来预测基因之间的相互作用。DeepDRIM(Chen等人,2021年)利用目标TF基因对和潜在相邻基因对的图像从scRNA-seq数据中重建GRNs。DeepSEM(Shu等人,2021年)将结构方程模型与β -VAE框架相结合,以预测GRN邻接矩阵中基因之间的调控关系。GENELink(Chen和Liu,2022年)应用GAT进行GRN推断,使用注意力机制学习节点之间的重要性权重,并有效地聚合来自相邻节点的信息。scMGATGRN(Yuan等人,2024b)结合基于局部信息的节点相似性度量来提取网络中更高阶邻居的结构信息。尽管取得了令人鼓舞的成果,但这些方法仍存在一些局限性。首先,跨多个感知域和高级邻居的图拓扑特征整合不足可能导致关键调控基因的遗漏。其次,基因调控的方向性缺失可能导致网络结构不完整,从而限制了它们的生物学可解释性和实际应用性。
为了解决这些限制,我们提出了一种基于GAT的新框架,该框架增强了多视图对比学习(MCLGAT),用于从scRNA-seq数据中推断有向基因调控网络。所提出的模型整合了局部图注意力网络、全局图注意力网络和对比学习增强模型,以有效捕获局部和高级基因相互作用的特征。我们提出的MCLGAT有效地提高了特征提取的质量和图结构建模的能力:首先,分别使用不同的改进GAT架构提取GRN的局部信息和更高阶信息,生成两个视图;其次,对比学习增强策略动态调整节点嵌入表示的相对重要性,从而有效地聚合了这两个视图的特征。MCLGAT的性能在七个基准scRNA-seq数据集上与另外十种最先进的方法进行了严格评估,在所有数据集中都表现出优越的有效性和鲁棒性。
同时,基于MCLGAT推断出的候选调控基因,还识别出了肺癌和乳腺癌的潜在生物标志物和治疗药物。这将为疾病机制研究提供新的工具。目前,机器学习和物联网在医疗保健领域的广泛应用(Ilikhan等人,2019年)、复杂性科学和信息系统解决生命和健康中复杂问题的能力(Perc等人,2019年),以及人工智能应用的社会和法律风险监管(Helbing等人,2015年),为GRN推断技术的转化和应用提供了重要支持。本研究的目的是为揭示复杂疾病的基因调控机制并提供个性化的诊断和治疗计划提供理论基础,从而有助于促进医疗和健康领域的智能化发展。
数据预处理
为了评估MCLGAT的性能,我们使用了BEELINE提供的七种细胞类型的scRNA-seq数据集(Pratapa等人,2020年;Feng等人,2023年;Veli?kovi?等人,2017年;Yuan等人,2022年):(i)人类胚胎干细胞(hESC);(ii)人类成熟肝细胞(hHEP);(iii)小鼠树突状细胞(mDC);(iv)小鼠胚胎干细胞(mESC);(v)小鼠红系造血干细胞(mHSC-E);(vi)具有粒细胞-单核细胞谱系的小鼠造血干细胞
MCLGAT在四个真实网络数据集上的性能
为了评估所提出的MCLGAT的性能,我们将其与七个细胞系的10种模型在四个真实网络(STRING、细胞类型特异性ChIP-seq、非特异性ChIP-seq和LOF/GOF)下进行了比较。这四种网络类型被分为两组(Group#1和Group#2),以解决网络密度的潜在混淆效应,并采用了分化策略进行评估。选择AUROC和AUPRC作为主要评估指标。
首先,
真实数据分析
人类GRNs非常复杂,在不同组织和条件下表现出不同的调控关系。特定功能模块和通路的失调常常导致复杂疾病,而基因网络的重组可以为疾病研究提供关键见解(Zhang等人,2015年)。重建癌症GRNs有助于研究癌症特定的调控机制并识别潜在的生物标志物。在本节中,我们应用MCLGAT来推断
讨论
本研究提出的MCLGAT在GRN推断方面表现出显著的优势。通过整合局部高斯核GAT和全局RA指数GAT,该模型通过多视图架构捕获了直接调控关系的局部特征和高级邻居之间的间接相关性,有效解决了传统方法仅限于局部特征提取的局限性。对比学习融合模块动态调整了两个视图的权重
结论
在这项研究中,我们提出了MCLGAT,这是一种基于GAT的方法,用于从scRNA-seq数据中推断有向GRNs。具体来说,该模型使用局部高斯核GAT捕获基因之间直接调控关系的局部特征,使用全局RA指数GAT探索来自高级邻居的间接调控信息,并使用对比学习融合模块动态调整两个视图的权重。这种设计有效地解决了传统GAT的局限性
CRediT作者贡献声明
杨洋 芒: 撰写——原始草案、方法论、调查、正式分析、数据管理、概念化。姚明豪: 调查、正式分析、数据管理。韩彤: 正式分析、数据管理。赵焕东: 调查、正式分析。刘中华: 撰写——审阅与编辑、监督、正式分析、概念化。马宝山: 撰写——审阅与编辑、监督、正式分析、数据管理、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了国家自然科学基金 (编号:61471078)的支持。