《Scientific Reports》:Self-supervised learning on graphs predicts non-coding RNA and disease associations
编辑推荐:
本研究针对非编码RNA与疾病关联预测中图卷积网络存在标签依赖性强、泛化能力不足的问题,提出了一种结合图自监督学习和机器学习的SSLGRDA预测框架。通过对比学习和生成式学习策略提取稳健的节点嵌入,在9个ncRNA-疾病数据集上的实验表明该方法在AUC、AUPR等指标上显著优于现有先进方法,案例研究进一步验证了其发现潜在生物医学关联的能力,为疾病机制研究和药物靶点发现提供了新工具。
在基因组学研究领域,非编码RNA(ncRNA)曾长期被视为转录过程的"垃圾"产物。然而近十年的研究彻底改变了这一认知,科学家发现ncRNA在染色质重塑、转录调控、转录后修饰等细胞过程中发挥着关键调控作用,特别是microRNA(miRNA)、长链非编码RNA(lncRNA)和环状RNA(circRNA)等已被证实是多种恶性肿瘤的重要驱动因子或抑制因子。尽管ncRNA与疾病关联(RDA)的鉴定对理解疾病机制和开发治疗策略具有重要意义,但传统的实验方法成本高昂且耗时漫长,这促使计算生物学方法成为重要的补充手段。
现有计算方法主要分为矩阵转换、机器学习和图神经网络三大类,但各自存在明显局限性。矩阵分解方法如MFLDA、MRLDC等属于浅层学习,难以捕捉ncRNA与疾病间的深层复杂关联;机器学习方法如MDA-CNN、RFLDA等将关联视为独立样本,忽略了网络拓扑信息;而图卷积网络(GCN)方法虽然能建模图结构数据,但严重依赖大量标注数据,且多源数据融合可能引入噪声,导致模型泛化能力不足、过参数化等问题。这些瓶颈促使研究人员寻求新的技术突破。
针对这些挑战,济宁医科大学附属医院的研究团队在《Scientific Reports》上发表了题为"Self-supervised learning on graphs predicts non-coding RNA and disease associations"的研究论文,提出了名为SSLGRDA的创新预测框架。该框架的核心思想是将图自监督学习(SSL)与机器学习相结合,通过从无标签的图数据中学习可迁移的稳健表征,降低对有限标注数据的依赖。
研究团队首先构建了两种类型的ncRNA-疾病图:基于已知关联的异质图和整合了ncRNA相似性、疾病相似性的同质图。针对同质图,他们采用top-5相似度阈值构建邻接矩阵,既利用了相似性信息扩展图结构,又避免了引入弱相关节点带来的噪声。在此基础上,团队设计了三种自监督学习策略:SSLG_GM通过对比图结构特征与属性特征学习节点表示;SSLG_GH通过对比局部结构与超图全局特征获取嵌入;SSLG_MA则采用掩码特征重建的生成式方法学习稳健表征。这些策略分别应用于同质图和异质图,形成了六种子模型。最后,提取的节点嵌入被输入Extra-Trees分类器进行关联预测。
关键技术方法包括:基于LightGCN的图卷积网络、多层感知机(MLP)、超图卷积网络(HGCN)、图自编码器以及五折交叉验证评估框架。研究使用了来自CircR2Disease、LncRNADisease、HMDD等数据库的9个公开数据集,涵盖585-788个ncRNA和88-386种疾病,包含650-8968个已知关联。
研究结果表明,SSLGRDA在多个评估指标上均表现出色。在circRNA-疾病数据集上,SSLG_GM_homo在CDA1和CDA2上取得最佳性能(AUC分别为0.95895和0.83201),SSLG_GH_homo在CDA3上表现最优。在lncRNA-疾病数据集上,SSLG_GH_homo在LDA1和LDA3上显著优于其他模型(AUC达0.98653),而在LDA2上SSLG_MA_hete表现最佳。在miRNA-疾病数据集上,SSLG_GM_homo在MDA2和MDA3上获得最高分类准确率,在MDA1上具有最佳排名指标。统计检验证实这些改进具有显著性(p<0.05)。
可视化分析进一步验证了SSLGRDA学习表征的质量。t-SNE图显示,经过模型训练后,正负样本在特征空间中的分布更加分离,类别间重叠显著减少,证明该方法成功捕获了判别性拓扑和语义模式。
案例研究展示了该方法的实际应用价值。针对乳腺癌和结肠癌,模型预测的前15个候选ncRNA中,分别有13个和12个通过dbDEMC、Lnc2Cancer等数据库或最新文献获得验证。例如,乳腺癌中的hsa-mir-142(PMID:33785332)和hsa-mir-449a(PMID:30488443),结肠癌中的MIR17HG(PMID:35116852)等预测结果均得到实验证实。在circRNA-疾病关联预测中,10对顶级预测关联有9对找到文献支持,如circPVT1与甲状腺乳头状癌(PMID:35520785)、circHIPK3与食管鳞状细胞癌(PMID:35443871)等。
此外,模型在微生物-疾病关联(MeDiA)和微生物-药物关联(MeDrA)预测任务上也表现出优秀泛化能力,在HMDAD、Disbiome等数据集上超越GATMDA、GCNMDA等基线方法,证明了该框架在生物医学关联预测领域的广泛适用性。
该研究的创新之处在于首次将图自监督学习系统应用于ncRNA-疾病关联预测领域,通过对比学习和生成式学习策略克服了传统GCN模型的标签依赖问题。SSLGRDA框架的灵活性使其既能处理异质图也能处理同质图,节点特征既可以是相似性矩阵也可以是独热编码,具有较强的适用性。
然而,研究也存在一定局限性。相似性数据利用不够充分,仅使用top-k相似度可能丢失有用信息;缺乏有效的多视图嵌入融合策略,目前仅采用简单拼接方式。作者指出未来将探索图注意力机制为相似性邻居分配可学习权重,并开发自适应融合模块动态权衡不同视图的重要性。
总体而言,这项研究为生物医学关联预测提供了新的方法论视角,通过自监督学习降低对昂贵标注数据的依赖,提高了模型泛化能力。不仅对理解ncRNA在疾病中的作用机制具有重要意义,也为后续药物靶点发现和精准医疗策略开发提供了有力工具。随着图神经网络和自监督学习技术的不断发展,这类方法有望在更广泛的生物医学数据挖掘中发挥重要作用。