基于图自监督学习的非编码RNA与疾病关联预测新方法SSLGRDA

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Self-supervised learning on graphs predicts non-coding RNA and disease associations

【字体：大中小】 时间：2026年01月15日 来源：Scientific Reports 3.9

编辑推荐：

　　本研究针对非编码RNA与疾病关联预测中图卷积网络存在标签依赖性强、泛化能力不足的问题，提出了一种结合图自监督学习和机器学习的SSLGRDA预测框架。通过对比学习和生成式学习策略提取稳健的节点嵌入，在9个ncRNA-疾病数据集上的实验表明该方法在AUC、AUPR等指标上显著优于现有先进方法，案例研究进一步验证了其发现潜在生物医学关联的能力，为疾病机制研究和药物靶点发现提供了新工具。

在基因组学研究领域，非编码RNA（ncRNA）曾长期被视为转录过程的"垃圾"产物。然而近十年的研究彻底改变了这一认知，科学家发现ncRNA在染色质重塑、转录调控、转录后修饰等细胞过程中发挥着关键调控作用，特别是microRNA（miRNA）、长链非编码RNA（lncRNA）和环状RNA（circRNA）等已被证实是多种恶性肿瘤的重要驱动因子或抑制因子。尽管ncRNA与疾病关联（RDA）的鉴定对理解疾病机制和开发治疗策略具有重要意义，但传统的实验方法成本高昂且耗时漫长，这促使计算生物学方法成为重要的补充手段。

现有计算方法主要分为矩阵转换、机器学习和图神经网络三大类，但各自存在明显局限性。矩阵分解方法如MFLDA、MRLDC等属于浅层学习，难以捕捉ncRNA与疾病间的深层复杂关联；机器学习方法如MDA-CNN、RFLDA等将关联视为独立样本，忽略了网络拓扑信息；而图卷积网络（GCN）方法虽然能建模图结构数据，但严重依赖大量标注数据，且多源数据融合可能引入噪声，导致模型泛化能力不足、过参数化等问题。这些瓶颈促使研究人员寻求新的技术突破。

针对这些挑战，济宁医科大学附属医院的研究团队在《Scientific Reports》上发表了题为"Self-supervised learning on graphs predicts non-coding RNA and disease associations"的研究论文，提出了名为SSLGRDA的创新预测框架。该框架的核心思想是将图自监督学习（SSL）与机器学习相结合，通过从无标签的图数据中学习可迁移的稳健表征，降低对有限标注数据的依赖。

研究团队首先构建了两种类型的ncRNA-疾病图：基于已知关联的异质图和整合了ncRNA相似性、疾病相似性的同质图。针对同质图，他们采用top-5相似度阈值构建邻接矩阵，既利用了相似性信息扩展图结构，又避免了引入弱相关节点带来的噪声。在此基础上，团队设计了三种自监督学习策略：SSLG_GM通过对比图结构特征与属性特征学习节点表示；SSLG_GH通过对比局部结构与超图全局特征获取嵌入；SSLG_MA则采用掩码特征重建的生成式方法学习稳健表征。这些策略分别应用于同质图和异质图，形成了六种子模型。最后，提取的节点嵌入被输入Extra-Trees分类器进行关联预测。

关键技术方法包括：基于LightGCN的图卷积网络、多层感知机（MLP）、超图卷积网络（HGCN）、图自编码器以及五折交叉验证评估框架。研究使用了来自CircR2Disease、LncRNADisease、HMDD等数据库的9个公开数据集，涵盖585-788个ncRNA和88-386种疾病，包含650-8968个已知关联。

研究结果表明，SSLGRDA在多个评估指标上均表现出色。在circRNA-疾病数据集上，SSLG_GM_homo在CDA1和CDA2上取得最佳性能（AUC分别为0.95895和0.83201），SSLG_GH_homo在CDA3上表现最优。在lncRNA-疾病数据集上，SSLG_GH_homo在LDA1和LDA3上显著优于其他模型（AUC达0.98653），而在LDA2上SSLG_MA_hete表现最佳。在miRNA-疾病数据集上，SSLG_GM_homo在MDA2和MDA3上获得最高分类准确率，在MDA1上具有最佳排名指标。统计检验证实这些改进具有显著性（p<0.05）。

可视化分析进一步验证了SSLGRDA学习表征的质量。t-SNE图显示，经过模型训练后，正负样本在特征空间中的分布更加分离，类别间重叠显著减少，证明该方法成功捕获了判别性拓扑和语义模式。

案例研究展示了该方法的实际应用价值。针对乳腺癌和结肠癌，模型预测的前15个候选ncRNA中，分别有13个和12个通过dbDEMC、Lnc2Cancer等数据库或最新文献获得验证。例如，乳腺癌中的hsa-mir-142（PMID:33785332）和hsa-mir-449a（PMID:30488443），结肠癌中的MIR17HG（PMID:35116852）等预测结果均得到实验证实。在circRNA-疾病关联预测中，10对顶级预测关联有9对找到文献支持，如circPVT1与甲状腺乳头状癌（PMID:35520785）、circHIPK3与食管鳞状细胞癌（PMID:35443871）等。

此外，模型在微生物-疾病关联（MeDiA）和微生物-药物关联（MeDrA）预测任务上也表现出优秀泛化能力，在HMDAD、Disbiome等数据集上超越GATMDA、GCNMDA等基线方法，证明了该框架在生物医学关联预测领域的广泛适用性。

该研究的创新之处在于首次将图自监督学习系统应用于ncRNA-疾病关联预测领域，通过对比学习和生成式学习策略克服了传统GCN模型的标签依赖问题。SSLGRDA框架的灵活性使其既能处理异质图也能处理同质图，节点特征既可以是相似性矩阵也可以是独热编码，具有较强的适用性。

然而，研究也存在一定局限性。相似性数据利用不够充分，仅使用top-k相似度可能丢失有用信息；缺乏有效的多视图嵌入融合策略，目前仅采用简单拼接方式。作者指出未来将探索图注意力机制为相似性邻居分配可学习权重，并开发自适应融合模块动态权衡不同视图的重要性。

总体而言，这项研究为生物医学关联预测提供了新的方法论视角，通过自监督学习降低对昂贵标注数据的依赖，提高了模型泛化能力。不仅对理解ncRNA在疾病中的作用机制具有重要意义，也为后续药物靶点发现和精准医疗策略开发提供了有力工具。随着图神经网络和自监督学习技术的不断发展，这类方法有望在更广泛的生物医学数据挖掘中发挥重要作用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号