基于宏基因组挖掘与机器学习的Cas9 PAM多样性发现及其在基因组编辑中的应用

《Nature Communications》:Uncovering Cas9 PAM diversity through metagenomic mining and machine learning

【字体: 时间:2026年02月09日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对CRISPR-Cas9系统中原间隔序列毗邻基序(PAM)的限制性问题,通过构建CRISPR-PAMdb数据库和开发机器学习模型CICERO,系统预测了8003个Cas9蛋白簇的PAM偏好性,并将预测范围扩展至5万余个Cas9蛋白。该研究突破了传统比对方法的局限,为开发新一代基因组编辑工具提供了重要资源。成果发表于《Nature Communications》。

在基因组编辑领域,CRISPR-Cas9系统如同一把精准的“基因剪刀”,但其切割活性受到原间隔序列毗邻基序(Protospacer Adjacent Motif, PAM)的严格限制。Cas9蛋白需要识别靶点附近特定的PAM序列才能发挥作用,这如同锁与钥匙的关系——若PAM不匹配,再精准的剪刀也无法切入基因序列。目前广泛使用的化脓链球菌Cas9(SpCas9)仅识别NGG型PAM,这严重限制了可编辑的基因组位点范围。尽管科学家已从微生物中发掘出部分新型Cas9变体(如xCas9、SpCas9-NG),但传统实验方法筛选PAM耗时费力,且难以系统揭示自然界中PAM的多样性图谱。
为突破这一瓶颈,研究人员在《自然·通讯》发表论文,通过宏基因组挖掘与机器学习相结合的策略,构建了迄今为止最全面的Cas9-PAM数据库CRISPR-PAMdb。研究团队从378万个细菌和古菌基因组中提取Cas9蛋白序列,同时整合740万条噬菌体和质粒序列,通过间隔序列-原间隔序列比对技术,首次系统推断出8003个独特Cas9蛋白簇的PAM偏好特征。更引人注目的是,他们开发了基于ESM2蛋白质语言模型的机器学习工具CICERO,能够直接根据Cas9蛋白序列预测其PAM特异性,在测试集上达到0.69的平均余弦相似度,对实验验证的Cas9同源蛋白预测相似度更高达0.75。
关键技术方法包括:1)从公共数据库收集378万微生物基因组和740万噬菌体/质粒序列构建CRISPR-PAMdb;2)通过间隔序列-原间隔序列比对推断Cas9的PAM偏好;3)基于ESM2蛋白质语言模型开发CICERO机器学习算法;4)使用余弦相似度评估预测准确性。
CRISPR-PAMdb数据库的构建与特征
研究团队通过大规模生物信息学分析,从基因组数据库(包括NCBI RefSeq、GTDB等)系统收集微生物基因组数据,鉴定出包含Cas9结构域的蛋白序列。通过聚类分析将相似度高于40%的序列归并为8003个蛋白簇,每个簇代表一类潜在的新型Cas9变体。利用CRISPR阵列中间隔序列与靶向原型间隔序列的对应关系,通过多序列比对和位置权重矩阵分析,精确计算出每个Cas9簇的PAM保守序列。结果显示除经典NGG PAM外,还存在识别NAG、NGA、NGT等变体PAM的Cas9蛋白,甚至发现可识别长达8bp PAM序列的特殊变体。
CICERO机器学习模型的开发与验证
为解决无法通过比对推断PAM的Cas9蛋白预测难题,研究人员开发了CICERO模型。该模型以ESM2生成的蛋白质嵌入向量作为输入,通过注意力机制捕捉Cas9蛋白PAM识别域的关键氨基酸残基,输出长度为4L的PAM概率分布向量(L代表PAM长度)。在五折交叉验证中,模型对测试集Cas9蛋白的PAM预测与实验数据平均余弦相似度为0.69。对已知PAM特异性的Cas9同源蛋白(如SpCas9、SaCas9等)进行盲法测试,预测相似度提升至0.75,证明模型具有良好的泛化能力。
新型Cas9蛋白的大规模PAM预测
应用CICERO模型,研究团队对50,308个缺乏比对数据的Cas9蛋白进行PAM偏好性预测,其中17,453个预测结果获得高置信度评分(CICERO置信度分数>0.8)。这些新型Cas9覆盖了α、β、γ等多个蛋白质簇,展现出比已知Cas9更广泛的PAM识别谱系。例如某些来自极端环境微生物的Cas9蛋白可识别富含嘌呤的PAM,而另一些则偏好嘧啶富集区域,这为靶向特定基因组区域提供了新选择。
本研究通过构建CRISPR-PAMdb数据库和开发CICERO预测模型,系统揭示了Cas9蛋白的PAM多样性,将可预测PAM的Cas9蛋白数量提升了一个数量级。该工作不仅为基因组编辑工具开发提供了宝贵资源,更开创了基于蛋白质序列直接预测功能特性的新范式。值得注意的是,CICERO模型仅需蛋白质序列即可实现PAM预测,这对探索其他CRISPR系统(如Cas12、Cas13)的功能具有重要启示意义。随着更多微生物基因组数据的释放,这种“序列-功能”预测框架有望加速发现自然界中隐藏的基因组编辑宝藏,推动精准医学和合成生物学领域的发展。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号