
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DeepCas12a:一种混合深度学习框架,能够基于序列信息和表观遗传信息准确预测AsCas12a的效率
《BMC Genomics》:DeepCas12a: a hybrid deep learning framework for accurate AsCas12a efficiency prediction from sequence and epigenetic information
【字体: 大 中 小 】 时间:2026年05月31日 来源:BMC Genomics 3.7
编辑推荐:
摘要CRISPR-Cas12a(Cpf1)由于其灵活的、富含T碱基的PAM(短序列识别基序)识别机制,在基因组编辑方面具有显著优势。然而,其切割效率的不确定性——受序列背景和表观遗传特征的影响——仍然是一个挑战,现有工具在模拟多模态特征之间的高阶相互作用方面存在困难。在这里,我们
CRISPR-Cas12a(Cpf1)由于其灵活的、富含T碱基的PAM(短序列识别基序)识别机制,在基因组编辑方面具有显著优势。然而,其切割效率的不确定性——受序列背景和表观遗传特征的影响——仍然是一个挑战,现有工具在模拟多模态特征之间的高阶相互作用方面存在困难。在这里,我们提出了DeepCas12a,这是一个结合了卷积神经网络(CNN)和视觉变换器(ViT)编码器的混合深度学习框架,能够同时捕捉局部序列模式和长距离依赖关系。该模型以端到端的方式将DNA序列数据与表观遗传信息(如DNA甲基化和染色质可及性)融合在一起。在独立测试集上的评估表明,DeepCas12a的表现优于现有的最先进预测模型,平均精确度达到0.783,AUC为0.868,Spearman相关性为0.630。此外,通过显著性图进行的可解释性分析证实,该模型能够捕捉到生物学上相关的特征,包括PAM特异性和种子区域的敏感性,从而有助于合理设计引导RNA。
CRISPR-Cas12a(Cpf1)由于其灵活的、富含T碱基的PAM(短序列识别基序)识别机制,在基因组编辑方面具有显著优势。然而,其切割效率的不确定性——受序列背景和表观遗传特征的影响——仍然是一个挑战,现有工具在模拟多模态特征之间的高阶相互作用方面存在困难。在这里,我们提出了DeepCas12a,这是一个结合了卷积神经网络(CNN)和视觉变换器(ViT)编码器的混合深度学习框架,能够同时捕捉局部序列模式和长距离依赖关系。该模型以端到端的方式将DNA序列数据与表观遗传信息(如DNA甲基化和染色质可及性)融合在一起。在独立测试集上的评估表明,DeepCas12a的表现优于现有的最先进预测模型,平均精确度达到0.783,AUC为0.868,Spearman相关性为0.630。此外,通过显著性图进行的可解释性分析证实,该模型能够捕捉到生物学上相关的特征,包括PAM特异性和种子区域的敏感性,从而有助于合理设计引导RNA。