编辑推荐:
circRNAs在疾病发生机制中起关键作用,但现有计算方法存在三方面局限:高阶/邻域相似性利用不足、关联网络信息不完整、多源数据整合效率低。本文提出基于图推断网络的MMGINCDA模型,通过动态融合多种相似性度量(SMF)、增强边缘鲁棒性的矩阵完成方法(TARM)以及结合局部/全局相似性的图推断网络,显著提升circRNA-disease关联预测性能。在四组基准数据集的5折交叉验证中,模型在AUC、F1等指标上均优于现有方法。
李贤斌|班定成|周玉凯|文晨子|王斌斌|刘涛|曾明|张顺利|葛宇苏|周宇
九江大学计算机与大数据科学学院,中国九江332000
摘要
环状RNA(circRNAs)在疾病发病机制中起着关键调节作用,这突显了计算方法在circRNA-疾病关联(CDA)预测中的重要性。尽管现有的计算方法已经取得了显著进展,但它们仍面临三个根本性限制:(1)未能充分利用全局/局部相似性网络中的高阶和邻域关系;(2)circRNA-疾病关联网络中的信息不完整;(3)多源数据整合效率低下。为了解决这些问题,我们提出了一种基于图推理网络的多相似性和多核融合模型(MMGINCDA)用于CDA预测。首先,我们开发了一种相似性矩阵融合(SMF)技术,该技术动态整合了多种相似性度量:circRNA的功能相似性以及高斯核和拉普拉斯核相似性,以及疾病的语义相似性结合高斯核和拉普拉斯核相似性。与传统融合方法不同,SMF在结合已知CDA数据的同时,能够自适应地权衡邻居节点的贡献,从而增强拓扑关系和潜在节点特征。其次,我们应用了截断反正切秩最小化(TARM)矩阵补全方法,处理circRNA-疾病异构网络的邻接矩阵,以增强边的鲁棒性和网络的形成。最后,我们的图推理网络在过滤远端节点噪声的同时,策略性地结合了局部和全局相似性。广泛的验证表明MMGINCDA具有出色的性能。在四个基准数据集上的5折交叉验证中,我们的模型始终优于五种最先进的方法。额外的消融研究和案例分析证实了该模型的预测准确性及其在识别潜在circRNA-疾病关系方面的实际效用。这项工作提供了一个强大的计算框架,加深了我们对circRNA介导的疾病机制的理解。
引言
环状RNA(circRNAs)是一类独特的单链RNA分子,其特点是具有共价闭合环结构,消除了传统的5′帽和3′多聚A尾[1]。越来越多的研究表明,它们在生物调控中扮演着多重角色,既作为miRNA海绵调节转录后基因表达,也通过蛋白质相互作用作为转录调控的核介质[2]。值得注意的是,它们的环状构象使其具有出色的抗外切酶降解能力,使其成为疾病生物标志物和治疗剂的有希望的候选者[3]。这种诊断和治疗潜力在癌症相关的circRNAs中得到了体现:circSLC8A1通过竞争性结合致癌miR-21在前列腺癌中表现出肿瘤抑制活性[4],而circSLC25A16通过增强非小细胞肺癌(NSCLC)中的糖酵解来驱动代谢重编程[5]。这些机制上的见解强调了circRNAs在多种疾病状态下的病理进展中的关键作用[6]。对circRNA生物学的不断理解为靶向药物发现和精准医疗策略开辟了新的途径,特别是在肿瘤学和慢性病管理领域。
虽然实验室实验已经成功识别出某些circRNA-疾病关联[7],但高昂的成本和时间要求限制了对潜在关系的大规模探索。为了解决这一挑战,研究人员开发了三种主要的计算方法[8]:矩阵分解(MF)、传统机器学习(ML)模型和深度学习(DL)模型。基于MF的方法通过矩阵分解捕捉生物数据中的潜在结构,成为预测未知关联的强大工具。然而,现有的矩阵分解模型面临两个关键限制:它们无法促进circRNA特征矩阵和相似性矩阵之间的实时交互,也无法在分解过程中有效保持这些矩阵的几何结构。基于ML的方法通过训练带有手动提取特征的分类器来预测circRNA-疾病关联[9]。尽管这些机器学习模型提高了预测效率,但其性能仍受特征依赖性的限制。基于DL的方法通过多层次非线性变换从复杂生物数据中提取潜在特征,表现出更强的能力。然而,这些现有方法存在三个关键限制:(1)未能充分整合局部和全局相似性信息,包括邻居和更高阶的关联;(2)仅依赖于线性或非线性特征提取机制,未能捕捉生物网络的多源特性;(3)在特征融合过程中未能充分利用已知的CDA信息,同时忽略了相似性网络中邻居节点的差异贡献。
为了克服这些挑战,我们提出了一种基于图推理网络的多相似性和多核融合方法(MMGINCDA),该方法同时整合了CDA信息,并考虑了不同邻居的接近度贡献,从而实现了更全面的特征表示和生物网络中关系的准确建模。首先,我们计算了多种相似性度量:circRNA的功能相似性、高斯核相似性和拉普拉斯核相似性,以及疾病的语义相似性、高斯核相似性和拉普拉斯核相似性,所有这些度量都来自已知的CDA。然后使用我们新颖的相似性矩阵融合(SMF)方法整合这些不同的相似性度量。SMF不仅自适应地权衡了不同邻居的贡献,还结合了CDA信息,以增强网络环境中每个circRNA/疾病节点的拓扑关系和潜在特征。其次,我们应用了截断反正切秩最小化(TARM)矩阵补全技术。TARM以circRNA-疾病异构网络的邻接矩阵为目标矩阵,增强了CDA网络的鲁棒性和可形成性。最后,我们采用图推理策略结合局部和全局相似性,同时过滤远端节点的噪声,以产生准确的CDA预测。全面的评估表明MMGINCDA具有出色的性能。在四个数据集上的5折交叉验证中,我们的模型始终优于五种最先进的方法。消融研究和案例分析进一步验证了其预测准确性和在识别潜在circRNA-疾病关系方面的实际效用。
总结来说,本文的主要贡献如下:
我们开发了一种相似性矩阵融合(SMF)技术,动态整合多种相似性度量以预测circRNA-疾病关联。我们应用了截断反正切秩最小化(TARM)矩阵补全方法,处理circRNA-疾病异构网络的邻接矩阵,以增强边的鲁棒性和网络的形成。我们的图推理网络策略性地结合了局部和全局相似性,同时过滤远端节点的噪声。广泛的消融研究证实,MMGINCDA是一个高度可靠的计算框架,用于识别circRNA-疾病关联(CDAs)。与其他最先进的方法相比,我们的方法表现出更优越的性能。部分摘录
基于MF的方法
这些方法通常将原始关联矩阵投影到低维潜在空间中,从而有效预测潜在关系。已经开发了几种专门的基于MF的方法用于circRNA-疾病关联预测。Lu等人[10]提出了一个深度矩阵分解框架(DMFCDA)来推断潜在的circRNA-疾病相互作用。Xie等人[11]引入了一种多源融合方法(DMFMSF),整合了多个circRNA和
数据集
为了评估MMGINCDA,我们在四个基准数据集上进行了全面的性能评估:CircR2Disease、CircR2Diseasev2.0、CircRNADisease和Circ2Disease。三个数据集(CircR2Disease、CircRNADisease、Circ2Disease)来自之前的研究[14],分别包含650个(585个circRNAs,88种疾病)、310个(298个circRNAs,33种疾病)和270个(249个circRNAs,59种疾病)经过验证的关联。更新的CircR2Diseasev2.0数据集[25]经过了严格的
评估指标
本研究采用了多种评估指标——准确性(Acc)、召回率(Rec)、精确度(Pre)、ROC曲线下面积(AUC)、精确度-召回率曲线下面积(AUPR)和F1分数——来全面评估模型性能。这些指标的定义如下: