
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于领域知识的方法促进了机器学习的发展,并实现了对癌症相关RNA甲基化位点的功能特征分析
《BMC Bioinformatics》:Domain-derived knowledge enabled machine learning and functional characterization of cancer-associated RNA methylation sites
【字体: 大 中 小 】 时间:2026年02月24日 来源:BMC Bioinformatics 3.3
编辑推荐:
m6A-CAPred模型通过整合序列和基因组特征,有效预测癌症相关N6-甲基腺苷修饰位点,验证显示其平均AUROC达0.885,且预测位点显著富集于关键生物过程和癌症通路。
N6-甲基腺苷(m6A)是真核生物mRNA中最丰富的转录后修饰类型,在多种生物过程中发挥着关键作用。m6A水平的失调与多种人类疾病有关,尤其是癌症。尽管已有几种计算工具可用于预测潜在的m6A位点,但尚无工具能够以单碱基分辨率专门识别与癌症相关(或促进癌症发生的)m6A残基。
为了解决这一不足,我们开发了m6A-CAPred,这是一个能够以碱基分辨率准确预测与癌症相关m6A位点的计算框架。我们的模型基于一个包含25种癌细胞系和23种正常组织样本中经过实验验证的m6A位点的综合数据集进行训练,该模型采用了结合序列特征和精心整理的基因组特征的混合特征提取方法。
初步分析表明,仅使用序列信息时预测性能有限。然而,通过加入基因组上下文特征,m6A-CAPred的预测性能显著提升(在独立数据集上的平均AUROC值为0.885),成功区分了与癌症相关的m6A位点和正常m6A位点的独特特征。随后,我们应用m6A-CAPred进行了全转录组范围的预测,以筛选潜在的与癌症相关的m6A位点。从33种TCGA癌症项目中提取的体细胞变异数据进行独立验证,结果表明,癌症相关的体细胞SNP密度清晰地区分了预测出的促进癌症发生的m6A位点和正常m6A位点,进一步证实了该模型的生物学相关性。此外,与癌症相关的m6A位点在功能重要的生物过程和癌症相关通路中表现出显著富集。
总体而言,我们希望m6A-CAPred能够成为癌症表观转录组研究的宝贵资源,并在癌症生物标志物发现方面具有潜在应用价值。实现我们模型的网络服务器可免费访问:www.rnamd.org/m6A-CAPred。
N6-甲基腺苷(m6A)是真核生物mRNA中最丰富的转录后修饰类型,在多种生物过程中发挥着关键作用。m6A水平的失调与多种人类疾病有关,尤其是癌症。尽管已有几种计算工具可用于预测潜在的m6A位点,但尚无工具能够以单碱基分辨率专门识别与癌症相关(或促进癌症发生的)m6A残基。
为了解决这一不足,我们开发了m6A-CAPred,这是一个能够以碱基分辨率准确预测与癌症相关m6A位点的计算框架。我们的模型基于一个包含25种癌细胞系和23种正常组织样本中经过实验验证的m6A位点的综合数据集进行训练,该模型采用了结合序列特征和精心整理的基因组特征的混合特征提取方法。
初步分析表明,仅使用序列信息时预测性能有限。然而,通过加入基因组上下文特征,m6A-CAPred的预测性能显著提升(在独立数据集上的平均AUROC值为0.885),成功区分了与癌症相关的m6A位点和正常m6A位点的独特特征。随后,我们应用m6A-CAPred进行了全转录组范围的预测,以筛选潜在的与癌症相关的m6A位点。从33种TCGA癌症项目中提取的体细胞变异数据进行独立验证,结果表明,癌症相关的体细胞SNP密度清晰地区分了预测出的促进癌症发生的m6A位点和正常m6A位点,进一步证实了该模型的生物学相关性。此外,与癌症相关的m6A位点在功能重要的生物过程和癌症相关通路中表现出显著富集。
总体而言,我们希望m6A-CAPred能够成为癌症表观转录组研究的宝贵资源,并在癌症生物标志物发现方面具有潜在应用价值。实现我们模型的网络服务器可免费访问:www.rnamd.org/m6A-CAPred。