《The Plant Journal》:Features affecting Cas9-induced editing efficiency and patterns in tomato: evidence from a large CRISPR dataset
编辑推荐:
本研究针对植物CRISPR/Cas9编辑效率预测模型跨物种适用性差、修复机制不清的问题,构建了包含420个sgRNA靶向137个番茄基因的protoplast数据集,结合ATAC-seq和MARS-seq分析发现:染色质可及性显著正向调控编辑效率,启动子和内含子编辑效率略高于外显子,转录活性无显著影响;高效编辑子集中富集长缺失(>20 bp)和微同源介导的末端连接(MMEJ)特征,且A/T富集序列驱动跨物种保守的修复偏好。结果为植物sgRNA设计提供了表观遗传和序列层面的新依据。
在植物基因编辑领域,CRISPR/Cas9技术就像一把精准的分子剪刀,理论上能轻松修饰目标基因,但现实中却常遇到“剪刀钝了”“剪错地方”的尴尬——不同单引导RNA(sgRNA)的编辑效率差异悬殊,从近乎0到近100%不等,而背后的决定因素长期成谜。尤其在植物中,传统研究依赖再生植株,每个编辑事件都要经历漫长的组织培养和筛选,导致数据量小、偏差大,难以系统解析染色质环境、转录状态等如何影响编辑效率。更棘手的是,哺乳动物细胞中开发的预测模型搬到植物里就“水土不服”,准确率骤降,这暗示着植物特有的DNA修复机制和表观调控可能才是关键。为了破解这些难题,以色列研究团队在《The Plant Journal》发表重磅成果,通过构建大规模番茄原生质体CRISPR数据集,首次揭示了植物编辑效率的多层调控规律。
为开展研究,团队以番茄(Solanum lycopersicum cv. M82)为材料,分离幼苗叶肉原生质体,通过聚乙二醇(PEG)介导转化预组装的Cas9核糖核蛋白(RNP)复合物,48小时后提取基因组DNA。利用定制扩增子测序流程量化420个sgRNA(靶向137个基因的启动子、外显子、内含子)的编辑效率和修复足迹(indel突变谱),同步通过ATAC-seq定义染色质可及性,MARS-seq测定转录活性,并通过批次效应归一化处理数据,最终结合人类细胞数据集进行跨物种比较。
生成包含420个CRISPR/Cas9 sgRNA的数据集
研究人员构建了涵盖番茄12条染色体、137个基因(含育种关键基因和表观调控因子)的420个sgRNA数据集,均匀分布于亚端粒区域,每个基因平均3个sgRNA。通过MARS-seq将基因转录状态分为低、中、高,ATAC-seq区分染色质可及(重叠ATAC峰)与不可及区域。编辑效率呈三模态分布(中位数34.5%),通过无监督混合建模分为低(<5%)、中(5-95%)、高(>95%)编辑组,其中高效编辑组48小时内接近完全编辑。
转录、染色质可及性和基因组特征对编辑效率的影响
染色质可及性显著提升编辑效率(P=0.0005),启动子编辑效率略高于外显子(P=0.048),而转录状态无显著影响。GC含量与编辑效率相关性极低(r2=0.013),排除序列组成单独解释效应,表明表观环境而非转录活性是主要调控因素。
基因内变异低于基因间,提示局部效应
同一基因内不同sgRNA的编辑效率标准差(24.05)显著低于全局标准差(27.22,P=0.001),说明局部基因组环境约束编辑结果;高表达基因内变异更低(P<0.001),提示活跃转录可能稳定编辑结果,但邻近sgRNA仍可能存在显著差异。
修复足迹分布因编辑效率和染色质环境而异
高效编辑组以长缺失(>20 bp)为主,插入几乎消失(尤其是+1插入),平均缺失长度显著长于低/中效组(P<0.01);不可及染色质区域的缺失更长(P=0.029),但编辑效率分组仍是修复足迹的主要预测因子,转录和基因组特征无影响。
微同源相关缺失在高效编辑组中富集
高效编辑组的微同源(MH)相关缺失频率(P=0.015)和微同源 tract长度(P=4.69×10??)显著高于其他组,而染色质、转录、特征均无差异。序列logo分析显示,高MH缺失sgRNA在切割位点附近富集A/T碱基,提示A/T富集序列驱动微同源介导的末端连接(MMEJ)。
高效编辑子的序列特征在人类和番茄中保守
对比人类T细胞数据集发现,低效编辑均以-1缺失为主,高效编辑均以长缺失、少插入为特征,与番茄模式一致。但广泛用于人类的Azimuth算法在番茄中无显著相关性(r=0.05,P>0.05),而人类数据中能区分效率分组(P<0.001),表明序列驱动的修复偏好保守,但预测模型需物种特异性校准。
研究结论与讨论部分指出,该研究首次构建了植物中大规模、高分辨率的CRISPR编辑效率与修复足迹数据集,揭示三层核心规律:一是染色质可及性是编辑效率的关键正向调控因子,启动子/内含子略优于外显子,转录活性无影响,挑战了哺乳动物中“转录促进编辑”的结论;二是高效编辑子集(~100% indels)通过MMEJ途径产生特征性长缺失(>20 bp)和长微同源tract,且由A/T富集序列驱动,这一序列偏好和修复机制在番茄与人类中保守;三是尽管修复足迹的序列驱动偏差跨物种保守,但现有人类训练模型(如Azimuth)无法准确预测植物编辑效率,凸显物种特异性校准的必要性。
这项研究的重要意义在于:为植物sgRNA设计提供了表观遗传(染色质可及性)和序列(A/T富集)双重维度的优化策略,解释了为何哺乳动物模型在植物中失效,推动开发植物特异性的编辑效率预测工具;发现的MMEJ主导的高效编辑模式,为定向诱导长缺失突变提供了新靶点;构建的番茄原生质体ATAC-seq、MARS-seq及编辑效率数据库(NCBI PRJNA1399676),成为作物基因编辑改良的关键公共资源,尤其助力番茄等重要农艺性状基因的精准修饰。