一种用于 CircRNA-MiRNA 相互作用的跨模态图结构学习预测模型

《Biomedical Signal Processing and Control》:A cross-modal graph structure learning prediction model for CircRNA-MiRNA interactions

【字体: 时间:2026年03月21日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  环形RNA-miRNA相互作用预测模型MAGPI通过整合Transformer多头注意力机制与多层图卷积网络,构建跨模态融合模块,采用可学习的全局节点嵌入与分层注意力机制优化特征表示,结合堆叠集成学习提升模型鲁棒性,在多个基准数据集上验证其AUC和AUPR分别提高0.0090和0.0052,18/20预测高置信度交互对获文献佐证。

  
姚思琪|王磊|于长青|游竹红|蒋晨|魏梦梦
西安电子科技大学电子信息学院,中国西安710123

摘要

环状RNA(circRNAs)通过竞争性内源性RNA(ceRNAs)机制吸收miRNAs,从而调节其活性并影响疾病进展。因此,准确识别潜在的circRNA-miRNA相互作用(CMI)对于理解非编码RNA调控网络及其潜在的疾病机制至关重要。然而,传统的实验方法既耗时又昂贵,而现有的计算方法常常存在特征冗余、结构建模不足以及多模态融合不够等问题。因此,本文提出了一种跨模态图结构学习模型(MAGPI)用于CMI预测。首先,对原始生物特征进行压缩以减少冗余,同时保留关键信息。接下来,采用基于Transformer的多头注意力机制来增强特征表示,这是捕捉序列数据中长距离依赖性的主要手段。然后根据特征相似性构建超图,再通过多层图卷积网络(GCN)提取高层次的语义结构。在跨模态融合过程中,该模型的核心创新在于将可学习的全局节点嵌入与分层注意力相结合,实现深度融合和跨模态的动态加权。这一组件通过有效解决多模态集成挑战,显著提升了性能。最后,利用堆叠集成学习来完成预测任务并进一步提高模型鲁棒性。实验结果表明,MAGPI在多个公开的circRNA-miRNA基准数据集上优于现有方法。具体来说,在CMI-9905数据集上,MAGPI的AUC和AUPR值分别比第二名模型高出0.0090和0.0052。案例研究显示,预测的前20个相互作用中有18个得到了最新文献的验证,证实了MAGPI在非编码RNA研究中的有效性和广泛应用潜力。

引言

环状RNA(circRNAs)最早于1976年在病原体中被发现[1],它们主要通过前体mRNA的非典型可变剪接产生[2]。环状RNA具有共价闭合的结构[3],缺乏5′帽和3′多聚(A)尾[4],这使得它们相对于线性RNA具有更高的稳定性,并能够在真核细胞中广泛分布,尤其是在细胞质中[4]。此外,一些circRNAs具有翻译蛋白质的能力,并能参与转录和转录后水平的调控[5]、[6]。由于其稳定性和特异性,circRNA近年来成为生物医学研究的热门课题,尤其是在癌症、神经系统疾病和心血管疾病领域显示出广泛的应用前景[7]。
研究表明,circRNA在许多疾病中起着重要的调控作用,尤其是在肿瘤中[8]。最典型的机制是它们作为microRNA(miRNA)的“海绵”分子,与miRNA竞争性结合,从而缓解其对下游目标mRNA的抑制[9]。miRNAs是长度为21–23个核苷酸的高度保守的单链非编码RNA,是细胞增殖、分化、凋亡、代谢和免疫功能的关键调节因子。它们的异常表达与多种疾病相关,包括癌症,在其中可以作为肿瘤抑制因子或癌基因,并在疾病机制研究、诊断、预后评估和靶向治疗(特别是在液体活检和基于RNA的药物开发中)显示出巨大潜力[10]。
CircRNAs和miRNAs之间存在广泛的密切调控相互作用,通过竞争性结合形成典型的竞争性内源性RNA(ceRNA)网络[11]。许多circRNAs包含多个miRNA结合位点,可以作为“miRNA海绵”来捕获特定的miRNAs,从而缓解它们对目标mRNA的抑制作用,并间接调节基因表达[12]、[13]。这种机制在多种生理和病理过程中起着关键作用,一些circRNAs(如ciRS-7(CDR1as))就是miRNA海绵的典型例子[14]。这些相互作用不仅揭示了非编码RNA调控网络的复杂性,还为探索新的分子机制和潜在的疾病生物标志物提供了基础[15]。先前的研究开发了各种计算模型,整合了多源分子信息和图结构数据,以提高CMI预测的准确性[16]、[17]。因此,构建更有效的计算模型以深入探索潜在的CMI对于阐明基因调控机制和推进疾病相关分子过程的理解具有重要意义[18]。
近年来,超图结构常与注意力机制和对比学习结合使用,以捕获生物分子中的高阶关系并提取复杂特征,从而提高预测准确性。它们固有的表示多节点、多级交互的能力为多视图特征融合提供了更大的灵活性和表达力,使得多样化生物信息的整合成为可能,提高了整体模型性能[19]、[20]。因此,超图在建模高阶结构信息、增强多源特征表示和提升预测能力方面具有独特优势,成为生物信息学中关联预测模型发展的关键方向[21]。
目前,预测CMI的方法主要可以分为三类:基于实验的方法、基于计算的方法和基于网络的计算方法[22]、[23]。基于实验的方法依赖于分子生物学技术直接检测环状RNA和miRNAs之间的物理结合关系[24]。然而,这些方法通常耗时且成本高昂,需要复杂的实验条件,难以在大规模上系统地筛选潜在的相互作用[25]。基于特征的计算方法提取circRNA和miRNAs的序列信息、结构特征和生物属性,以构建分类模型来预测CMI。然而,这些方法对特征质量敏感,可能无法完全捕捉分子之间的高阶关系。近年来,随着图学习技术[26]、[27]、[28]的发展,这些技术在CMI预测中表现出良好性能,基于网络的计算方法也被开发并应用于CMI预测。魏等人[29]提出了EGATCMI,这是一种结合Transformer和图注意力网络的多特征融合模型。它使用Word2vec和Transformer提取circRNA和miRNA的序列特征,通过自注意力机制从CMI网络中获取全局结构信息,并融合多种特征以提高预测准确性。蒋等人[30]提出了一个名为Hither-CMI的深度学习模型。通过多核学习融合多模态网络信息,并结合增强的图卷积网络提取高阶邻域嵌入。最后,使用XGBoost分类器准确预测潜在的CMI[31]。该模型充分利用了多源异构数据和高阶结构信息,展示了深度图学习方法在生物分子关联预测中的潜力。郭等人[32]提出了一种名为BGF-CMAP的算法,该算法结合了GBDT和图嵌入技术。该方法首先使用Word2Vec生成RNA的词向量表示,然后通过图分解(GF)和大规模信息网络嵌入(LINE)提取CMI网络的拓扑特征,最后融合多种特征并输入GBDT模型进行CMI预测。何等人[33]提出了一种基于GCN架构的潜在相互作用预测模型GCNCMI。该模型通过图卷积操作深入挖掘和传播节点之间的复杂关联特征,从而为CMI预测提供更丰富和准确的信息[34]。尽管现有的CMI预测模型在特征嵌入方法和神经网络结构上取得了一定的性能提升,但仍存在以下需要改进的问题:首先,普遍缺乏对circRNAs和miRNAs之间深度协同特征的深入建模;其次,这种协同信息无法有效指导底层特征提取网络的训练,导致获得的特征嵌入代表性不足,从而限制了整体预测效果的进一步改进。
我们提出了MAGPI,这是一个结合了神经协同过滤和基于图的表示学习的集成框架,用于CMI预测。MAGPI的核心创新在于其跨模态融合模块,它独特地将基于Transformer的全局语义建模与基于GCN的局部结构学习相结合,实现了统一的全局-局部表示融合。这种双路径设计使MAGPI能够同时通过自注意力机制捕获广泛的语义上下文,并通过邻域聚合捕获细粒度的结构模式,解决了现有方法仅依赖全局或局部特征的局限性。神经图协同过滤组件嵌入在图卷积网络(GCN)架构中,以整合协同信号并捕获高阶交互依赖性。联合训练范式进一步实现了多模态特征和图表示的端到端优化。多层GCN的输出与全局可学习的语义向量融合,通过内积运算推断潜在的CMI。整个框架如图1所示。MAGPI的主要贡献有四点:(1)通过结合基于Transformer的全局语义和基于GCN的局部结构学习,实现了统一的全局-局部表示融合;(2)使用基于Transformer的KNN策略构建嵌入信息超图,从多模态数据中提取替代拓扑结构;(3)全局可学习的语义嵌入补充了基于邻域的GCN特征;(4)使用统一的多层融合机制和层注意力将GCN输出与全局语义融合。总之,MAGPI强调了在统一框架内有效整合现有神经组件的能力,以及它们针对特定任务的适应性,以实现准确的CMI预测。

数据集片段

数据集

在本研究中,使用了三个广泛使用的基准数据集来评估所提出模型在CMI预测中的性能。所有数据集均来自公开可用的Circbank [35]数据库和CircR2Cancer [36]数据库。具体来说,CMI-9905数据集包含2346个circRNAs和962个miRNAs;CMI-9589数据集包含9589个经过实验验证的CMI,涉及2115个circRNAs和821个miRNAs;CMI-20208数据集包含3569个circRNAs和1152个miRNAs。

评估参数

为了全面评估本研究中提出的基于堆叠集成学习的预测框架的性能,我们在多种评估设置和指标下进行了系统的比较分析。
考虑到不同的应用场景需要不同水平的泛化能力,我们设计了归纳和演绎两种评估方案。演绎设置采用标准的五折交叉验证(5-CV),其中circRNA-miRNA对

案例研究

为了评估MAGPI模型的实际可靠性,我们使用CMI-9905数据集进行了系统的案例研究。MAGPI预测的前20个高置信度circRNA-miRNA对被筛选和验证,如表14所示。其中18对得到了现有实验证据的支持,证实了模型的预测鲁棒性和生物学相关性。

讨论与结论

本文提出了一种名为MAGPI的CMI预测模型,该模型整合了多模态特征和图神经网络。MAGPI利用circRNAs和miRNAs在序列、结构和表达上的相似性来压缩高维特征,同时保留主要成分,并采用多头注意力机制来增强特征区分能力。在嵌入空间中构建KNN图以捕获局部的高阶邻接关系,特征被

CRediT作者贡献声明

姚思琪:撰写——原始草案。王磊:指导。于长青:概念化。游竹红:调查。蒋晨:方法论。魏梦梦:软件。

资助

广西科技计划(2024–102-3);广西自然科学基金(2024GXNSFAA010283, 2023GXNSFDA026031);山东省自然科学基金(ZR2024MF042);国家自然科学基金(62573419, 62172355, 61702444和62273284);国家杰出青年科学基金(62325308);陕西省教育厅一般专项科研计划(24JK0693);江西省自然科学基金

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号