
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基准测试显示,基于核酸的模型在预测长链非编码RNA(lncRNA)的编码潜力方面具有优越性
《Genome Biology》:Benchmarking reveals the superiority of nucleic acid foundation models in predicting lncRNA coding potential
【字体: 大 中 小 】 时间:2026年06月06日 来源:Genome Biology 9.4
编辑推荐:
摘要背景一部分长非编码RNA(lncRNAs)包含短的开放阅读框,能够编码功能性微肽。然而,由于编码信号较弱、肽产物较短以及不同数据库中的证据存在差异,识别这些具有编码能力的lncRNAs(codlncRNAs)仍然具有挑战性。现有的计算工具缺乏统一的评估标准,而核酸基础模型在这
一部分长非编码RNA(lncRNAs)包含短的开放阅读框,能够编码功能性微肽。然而,由于编码信号较弱、肽产物较短以及不同数据库中的证据存在差异,识别这些具有编码能力的lncRNAs(codlncRNAs)仍然具有挑战性。现有的计算工具缺乏统一的评估标准,而核酸基础模型在这项任务中的实用性也尚不明确。
我们构建了首个多物种、基于证据分层的codlncRNA预测基准,并系统地从分子层面对这些RNA进行了表征。codlncRNAs在序列、结构和理化性质上表现出介于mRNAs和未翻译lncRNAs之间的过渡特征。利用这一基准,我们评估了12种经典方法和4种基础模型。经典方法的零样本预测性能有限,而RNA-FM、RINALMo和DNABERT-2在经过微调后取得了显著提升。值得注意的是,仅基于DNA训练的DNABERT-2的表现与RNA特异性模型相当甚至更优。一个整合了基础模型和经典模型的集成框架进一步提高了模型的鲁棒性,并已作为可访问的Web服务器投入使用。
我们的研究建立了首个codlncRNA预测基准,明确了它们独特的过渡性分子特征,并证明了核酸基础模型在当前基准范围内的实用性。此外,所提出的框架为微肽发现和RNA功能表征提供了实用且可扩展的计算基础。
一部分长非编码RNA(lncRNAs)包含短的开放阅读框,能够编码功能性微肽。然而,由于编码信号较弱、肽产物较短以及不同数据库中的证据存在差异,识别这些具有编码能力的lncRNAs(codlncRNAs)仍然具有挑战性。现有的计算工具缺乏统一的评估标准,而核酸基础模型在这项任务中的实用性也尚不明确。
我们构建了首个多物种、基于证据分层的codlncRNA预测基准,并系统地从分子层面对这些RNA进行了表征。codlncRNAs在序列、结构和理化性质上表现出介于mRNAs和未翻译lncRNAs之间的过渡特征。利用这一基准,我们评估了12种经典方法和4种基础模型。经典方法的零样本预测性能有限,而RNA-FM、RINALMo和DNABERT-2在经过微调后取得了显著提升。值得注意的是,仅基于DNA训练的DNABERT-2的表现与RNA特异性模型相当甚至更优。一个整合了基础模型和经典模型的集成框架进一步提高了模型的鲁棒性,并已作为可访问的Web服务器投入使用。
我们的研究建立了首个codlncRNA预测基准,明确了它们独特的过渡性分子特征,并证明了核酸基础模型在当前基准范围内的实用性。此外,所提出的框架为微肽发现和RNA功能表征提供了实用且可扩展的计算基础。