《Nucleic Acids Research》:Machine learning reveals sequence and methylation determinants of SaCas9–PAM interactions in bacteria
编辑推荐:
本研究针对细菌中Cas9核酸酶应用受限于对其靶向相互作用认知不足的问题,通过构建大规模金黄色葡萄球菌Cas9 (SaCas9)/sgRNA活性数据集并训练机器学习模型crisprHAL,成功预测了SaCas9活性。研究发现,将经典NNGRRN原间隔序列邻近基序(PAM)侧翼下游[+1]和[+2]位点序列纳入考量可提升预测性能,并首次揭示PAM序列中5'-NNGGAT[C]-3'处的腺嘌呤甲基化会显著抑制SaCas9活性约10倍。该发现不仅深化了对Cas9家族蛋白多样性的理解,也为优化细菌中CRISPR-Cas9应用提供了关键指导。
在微生物的军备竞赛中,细菌演化出了一套精巧的适应性免疫系统——成簇规律间隔短回文重复序列及相关系统(CRISPR-Cas)。其中,CRISPR相关蛋白9(Cas9)核酸酶作为该系统的重要效应器,能够像一把“分子剪刀”一样,在单链引导RNA(sgRNA)的指引下,精准切割入侵的病毒或质粒DNA。这一机制不仅守护着细菌的安危,更被科学家们改造成为强大的基因组编辑工具和新型抗菌手段。然而,将Cas9应用于细菌世界时,却面临着一个关键瓶颈:我们对Cas9与其DNA靶点之间的相互作用机制,尤其是在复杂的天然基因组环境中的活动规律,了解得还不够透彻。这直接限制了CRISPR-Cas技术在抗菌治疗和细菌基因组工程中的高效、精准应用。
金黄色葡萄球菌Cas9 (SaCas9)因其体积较小(1053个氨基酸),在递送方面具有优势,但其识别靶点需要一种称为原间隔序列邻近基序(PAM)的特殊短序列,具体为5'-NNGRRN-3'(其中R代表嘌呤A或G),并且对第六位为T有偏好。尽管SaCas9潜力巨大,但现有的活性预测模型大多基于哺乳动物细胞的数据开发,在预测细菌环境中的活性时往往表现不佳。一个核心问题在于,缺乏大规模、高质量的细菌体内SaCas9活性数据用于模型训练。此外,初步证据表明,PAM侧翼的序列以及DNA表观遗传修饰(如甲基化)可能影响Cas9的效率,但这些因素在细菌CRISPR应用中都尚未被系统探索。为了突破这些局限,并扩展细菌CRISPR工具箱,研究人员开展了一项综合性研究。
为了回答上述问题,研究人员主要运用了几项关键技术:首先,他们利用大规模并行sgRNA筛选技术,分别在大肠杆菌(Escherichia coli) 和啮齿类柠檬酸杆菌(Citrobacter rodentium) 中构建了大规模的SaCas9/sgRNA活性数据集,包括基于质粒的富集筛选和基于染色体靶向的耗竭筛选。其次,他们采用了机器学习建模(crisprHAL模型),基于上述活性数据训练预测模型,并优化输入序列长度以评估PAM及侧翼序列的贡献。第三,他们利用牛津纳米孔测序(Oxford Nanopore sequencing) 技术在Citrobacter rodentium DBS100菌株基因组和大肠杆菌的质粒上绘制了腺嘌呤甲基化(m6A)图谱,并将其与sgRNA活性关联。最后,他们通过体外DNA切割实验,使用纯化的SaCas9蛋白和体外转录的sgRNA,验证了在DNA腺嘌呤甲基转移酶(DAM) 阳性(dam+)和阴性(dam-)的大肠杆菌中提取的质粒上,PAM序列内GATC位点的甲基化对SaCas9切割活性的直接影响。
机器学习揭示SaCas9活性决定因素
研究人员利用先前为SpCas9开发的crisprHAL机器学习架构,成功将其应用于SaCas9活性预测。该模型采用双分支结构,结合了卷积神经网络(CNN)和循环神经网络(RNN)。通过系统性地扩展模型输入序列的长度,他们发现将PAM序列(NNGRRN)及其下游紧邻的[+1]位核苷酸纳入考量,能显著提升模型预测SaCas9活性的准确性。最终模型在C. rodentium染色体靶向数据集上取得了预测值与观测值之间高达0.895的斯皮尔曼等级相关系数,并且该模型能很好地迁移至大肠杆菌的质粒靶向数据集,表明其具有良好的泛化能力。
PAM下游嘧啶富集二核苷酸与高活性相关
对大规模活性数据的深入分析揭示了SaCas9的序列偏好。除了已知的对PAM第六位碱基为T(NNGRRT)的偏好外,研究人员发现PAM下游[+1]和[+2]位点的二核苷酸组成强烈影响活性。具体而言,这些位置富含胸腺嘧啶(T)的二核苷酸(如TT, CT)与较高的体内活性显著相关。这表明SaCas9的有效PAM识别范围可能需要修订为NNGRRTH(其中H为A、C或T),下游序列可能通过协同作用稳定SaCas9与DNA的初始结合。
腺嘌呤甲基化特异性抑制SaCas9切割
本研究最引人注目的发现是DNA甲基化对SaCas9活性的调控。机器学习模型和实验数据均一致显示,含有5'-NNGGAT[C]-3'序列(即PAM序列本身包含GATC motif)的靶点,其SaCas9活性异常低下。通过纳米孔测序直接检测,证实了C. rodentium基因组中所有这些GATC位点均发生了腺嘌呤N6位甲基化(m6A)。体内实验表明,靶向这些甲基化PAM位点的sgRNA活性比平均水平低约10倍。为了确证甲基化的因果作用,研究人员进行了体外切割实验。他们比较了SaCas9/sgRNA对从DAM阳性(甲基化)和DAM阴性(非甲基化)大肠杆菌中提取的同一质粒的切割效率。结果明确显示,当靶点PAM序列包含GATC时,甲基化质粒的切割速率(kobs)比非甲基化质粒慢约3-6倍。反之,通过点突变消除PAM中的GATC位点,可以恢复高切割活性;而通过点突变引入GATC位点,则会导致切割活性因甲基化而降低。这些实验直接将PAM序列内的腺嘌呤甲基化与SaCas9活性的抑制联系起来。进一步的实验排除了胞嘧啶甲基化在[+1]位点(GATC中的C)的直接影响。
本研究通过整合高通量功能筛选、机器学习、表观基因组学和生化验证,深刻揭示了影响SaCas9在细菌中活性的关键因素。研究不仅成功开发了高精度的细菌SaCas9活性预测模型crisprHAL,还首次明确证实了PAM序列内的腺嘌呤甲基化(GATC motif)是SaCas9活性的一个关键负调控因子,可导致活性降低约10倍。此外,研究还明确了PAM下游序列(特别是[+1]和[+2]位点的嘧啶富集二核苷酸)对活性的重要贡献。
这些发现具有多重重要意义。在应用层面,它提示在设计和选择细菌CRISPR-Cas9(尤其是SaCas9)应用的靶点时,应主动避开含有GATC的PAM序列(NNGGAT[C]),以避免细菌自身DNA甲基化系统的干扰,从而提高编辑或抗菌效率。在机制层面,它揭示了DNA甲基化这一重要的表观遗传标记可以显著影响CRISPR-Cas系统的功能,拓宽了我们对Cas9与DNA相互作用复杂性的认知。从进化角度而言,SaCas9对甲基化PAM的“回避”行为可能是一种精巧的适应性策略。这既可能有助于区分“自我”(甲基化的宿主基因组)与“非我”(通常未甲基化的外源DNA),也可能是为了对抗某些噬菌体或质粒利用甲基化作为抗限制策略而演化出的特性。这项研究凸显了在天然生物学背景下(特别是考虑表观遗传修饰)理解CRISPR系统功能的重要性,并为优化CRISPR技术在原核生物中的应用提供了关键见解。论文发表于《Nucleic Acids Research》。