
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Spliceread:利用残差块和合成数据增强技术提升规范和非规范剪接位点预测的准确性
《BMC Bioinformatics》:Spliceread: improving canonical and non-canonical splice site prediction with residual blocks and synthetic data augmentation
【字体: 大 中 小 】 时间:2026年05月23日 来源:BMC Bioinformatics 3.3
编辑推荐:
摘要准确的剪接位点预测对于理解基因表达及其相关疾病至关重要。然而,大多数现有模型都偏向于常见的规范剪接位点,这限制了它们检测罕见但生物学上重要的非规范变异的能力。这些模型通常依赖于大型且不平衡的数据集,无法捕捉非规范剪接位点的序列多样性,从而导致较高的假阴性率。在这里,我们提出了
准确的剪接位点预测对于理解基因表达及其相关疾病至关重要。然而,大多数现有模型都偏向于常见的规范剪接位点,这限制了它们检测罕见但生物学上重要的非规范变异的能力。这些模型通常依赖于大型且不平衡的数据集,无法捕捉非规范剪接位点的序列多样性,从而导致较高的假阴性率。在这里,我们提出了SpliceRead,这是一种新颖的深度学习模型,它通过结合残差卷积块和合成数据增强技术来改进规范和非规范剪接位点的分类。SpliceRead使用数据增强方法生成多样化的非规范序列,并利用残差连接来增强梯度流动并捕捉细微的基因组特征。在包含400个和600个核苷酸序列的多物种数据集上进行训练和测试后,SpliceRead在所有关键指标(包括F1分数、准确率、精确度和召回率)上均优于现有最先进模型。值得注意的是,它的非规范剪接位点误分类率显著低于基线方法。广泛的评估,包括交叉验证、跨物种测试和输入长度泛化,证实了其鲁棒性和适应性。我们进一步通过将该增强技术应用于其他最先进模型来评估其适应性,证明了其持续的改进和有效的泛化能力。SpliceRead为剪接位点预测提供了一个强大且可泛化的框架,特别是在具有挑战性的、低频序列场景中,并为模型生物和非模型生物中的更准确基因注释铺平了道路。SpliceRead的开源代码和详细文档可在https://github.com/OluwadareLab/SpliceRead获取。
准确的剪接位点预测对于理解基因表达及其相关疾病至关重要。然而,大多数现有模型都偏向于常见的规范剪接位点,这限制了它们检测罕见但生物学上重要的非规范变异的能力。这些模型通常依赖于大型且不平衡的数据集,无法捕捉非规范剪接位点的序列多样性,从而导致较高的假阴性率。在这里,我们提出了SpliceRead,这是一种新颖的深度学习模型,它通过结合残差卷积块和合成数据增强技术来改进规范和非规范剪接位点的分类。SpliceRead使用数据增强方法生成多样化的非规范序列,并利用残差连接来增强梯度流动并捕捉细微的基因组特征。在包含400个和600个核苷酸序列的多物种数据集上进行训练和测试后,SpliceRead在所有关键指标(包括F1分数、准确率、精确度和召回率)上均优于现有最先进模型。值得注意的是,它的非规范剪接位点误分类率显著低于基线方法。广泛的评估,包括交叉验证、跨物种测试和输入长度泛化,证实了其鲁棒性和适应性。我们进一步通过将该增强技术应用于其他最先进模型来评估其适应性,证明了其持续的改进和有效的泛化能力。SpliceRead为剪接位点预测提供了一个强大且可泛化的框架,特别是在具有挑战性的、低频序列场景中,并为模型生物和非模型生物中的更准确基因注释铺平了道路。SpliceRead的开源代码和详细文档可在https://github.com/OluwadareLab/SpliceRead获取。