《Current Opinion in Microbiology》:From edits to insights: precision microbial engineering for systems biology
编辑推荐:
这篇综述系统梳理了精准微生物工程在系统生物学中的前沿进展。作者指出,传统基因敲除和CRISPRi/a文库主要关注基因存在与否,而新兴的精准扰动策略(如深度突变扫描DMS和基因组规模精准编辑)能够解析从蛋白质序列功能图谱到通路自然变异的精细效应。文章重点介绍了将DMS从孤立结构域扩展到完整基因组整合序列功能图谱的技术革新,以及碱基编辑器(BE)、引物编辑器(PE)和逆转录子(retron)等工具在绘制全基因组序列功能图谱中的应用。这些进展正推动我们对生物功能的理解,并加速生物技术和合成生物学的发展。
引言
微生物凭借其紧凑的基因组、快速的世代时间和实验易操作性,成为系统生物学的强大模型。过去二十年,系统性遗传扰动通过全基因组敲除筛选和基于CRISPR的基因抑制或激活,改变了我们大规模关联基因与表型的能力。然而,大多数研究在基因存在或缺失的粗略水平上进行探究,忽略了细微序列变异如何塑造生物功能。深度突变扫描(DMS)通过系统性地探究特定蛋白质内的个体变异,解决了这一差距,揭示了突变如何影响蛋白质特性和功能的详细图谱。但DMS的实施传统上局限于从质粒表达的孤立基因或蛋白质结构域。虽然这种方法提供了强大的机制见解,但当目标是理解变异在其天然调控背景下的效应时,它可能缺乏生理相关性。将DMS扩展到整个微生物基因组面临着额外的挑战。微生物基因组规模工程的进展已开始将变异水平分析扩展到整个微生物基因组。尽管早期实施受到效率低、适应性偏差和可靶向序列空间的限制,但持续的方法学进步正在解决这些局限性。
将深度突变扫描从孤立结构域扩展到完整的、基因组整合的序列功能图谱
DMS通过为数千到数百万个蛋白质变体并行创建定量序列功能图谱,改变了我们关联基因型与表型的能力。在典型工作流程中,一个设计的文库在目标区域引入替换;变体被表达并经受选择或分选;测序量化变体丰度的变化,作为适应性或活性评分。
为了在规模和生理相关性上扩展DMS,库构建、表达和表型分析方面的创新正在推动发展。短读长测序是DMS的一个关键限制,需要对长目标进行铺叠覆盖。两项最近的预印本通过将编码突变的汇集寡核苷酸片段组装到目标基因中,并将每个变体与一个独特的条形码连接来解决这个问题。由于变体丰度可以仅从条形码测序中推断,这些策略大大降低了与全长扩增子覆盖相比的测序成本。另一个重要的进展是从基于质粒的表达转向在其天然背景下评估变体。虽然实验上方便,但质粒通过拷贝数的异质性引入变异性,并通过绕过天然调控控制而限制生理相关性。CRISPR辅助方法现在能够直接在内源位点进行诱变,保留天然控制和化学计量。
这些发展正在将DMS从以蛋白质为中心的筛选工具转变为系统水平的框架,使得能够在天然调控和细胞背景下测量突变效应,以揭示网络约束、权衡和进化潜力。例如,对两个冗余酵母肌球蛋白SH3结构域的系统扫描表明,基因内上位性和差异表达塑造了相同替换对两种蛋白质中伴侣结合的差异效应。另一项研究在必需RNA聚合酶β亚基中识别出不同的突变“模块”,这些模块要么增强转录速度和生长,要么在大肠杆菌中促进严谨、耐胁迫的状态。某些组合同时赋予更快生长和严谨调控,挑战了生长-维持权衡仅源于资源限制的传统观点。在更具转化意义的背景下,DMS正在为不同病原体的抗生素靶点发现和耐药机制提供信息。
除了绘制蛋白质编码区的序列功能空间,DMS还改善了我们对调控DNA语法的理解。在大肠杆菌中,对启动子活性的大规模序列挖掘随后进行系统诱变,揭示了先前未识别的调控元件,并使得能够建立分类调控元件和预测表达强度的模型。在酵母中,随机化的上游开放阅读框(uORF)文库显示uORF密码子身份和位置强烈影响调控影响。最后,结合编码和调控区的DMS,并配对适应性功能测量,使得有可能询问哪些突变在不同环境中被青睐,将分子效应与适应性结果联系起来。
尽管有这些进展,DMS仍然对设计和分析选择敏感。转化效率、选择/取样方案和文库组成等因素可能在读数中引入扭曲,变异评分流程的选择同样可能改变定量估计。当前的优先事项是通过标准化 spike-in、共享基准和透明报告来量化和控制这些偏差,以实现跨研究的准确、可比较的测量。
迈向全基因组序列功能图谱
与单一位点研究相比,突变的全基因组 interrogation 一直受到有效跟踪突变并大规模测量其效应的挑战的限制。CRISPR/Cas技术通过将可扩展性与使用gRNA作为安装突变的条形码相结合,彻底改变了这一领域。然而,将突变与全基因组表型联系起来仍然非平凡:如果编辑效率低,野生型细胞在文库中占主导地位。由此产生的噪声增加了测序成本,并限制了检测或准确量化细微或有害变异效应的能力,使发现偏向于在选择下迅速增加频率的强有益突变。
解决这一效率瓶颈推动了对新策略的探索。早期方法依赖于Cas诱导的双链断裂(DSB)的同源指导修复(HDR),主要在像酿酒酵母这样主要通过HDR修复DSB的生物中有效。碱基和引物编辑器已成为微生物精准编辑的核心替代方案,因为它们不依赖于HDR。虽然引物编辑(PE)更通用,但其效力在不同位点、编辑类型和宿主间变化更大。在细菌中,效率可能受到编辑中间体降解的限制,这可以通过删除关键外切核酸酶来缓解,而tRNA融合策略解决了由于不当pegRNA处理引起的效率瓶颈。并行地,在哺乳动物系统中具有增强活性的进化编辑器变体可能类似地改善微生物编辑。更广泛地说,在非同源末端连接(NHEJ)缺陷的宿主中将编辑与Cas9反选择耦合,有效地富集了跨平台的编辑细胞。逆转录子——编码逆转录酶的细菌逆转录元件,从RNA模板产生多拷贝单链DNA——已成为另一个有前途的替代方案。在真核生物中,逆转录子通过维持高供体与DSB比率来辅助HDR,尽管效力仍然受到细胞内在HDR能力的限制。在细菌中,逆转录子通过类似于λ-Red重组的过程插入突变,绕过了HDR。
即使在HDR能力强的生物中,汇集编辑效率可能仍然太低而无法进行有效的筛选,因为逃避DSB诱导的细胞获得生长优势并在群体中占主导地位。逃避不仅源于编辑机制中的突变,还源于可变的gRNA活性或产生非功能性gRNA的合成错误。具有功能和非功能性gRNA的细胞之间的适应性差异可以通过将质粒供体招募到DSB来缓解。将招募与逆转录子衍生的供体和体内质粒组装相结合,在不同目标间产生非常高的效率,并大大减少了适应性偏差。类似地,将DSB诱导与生存优势联系起来,可以富集成功编辑的细胞,即使在由非功能性gRNA主导的文库中也是如此。在不同方面,越来越多地使用PAM柔性核酸酶,如ScCas9、SpG和SpRY,正在稳步扩展基因组覆盖。从基于质粒的条形码转向基因组整合的条形码,通过消除可变质粒拷贝数带来的噪声,提高了定量准确性,否则可能导致假阳性。每个突变使用多个条形码进一步提供了内部重复,增强了结果的稳健性。这对于减轻编辑过程中产生的意外突变(无论是由于自发突变、脱靶活性还是替代的靶向结果)造成的混淆尤其关键。意外突变可能导致假阳性,或通过竞争超过真实编辑而扭曲其表型估计。当背景突变率升高时,无论是内在原因还是由于编辑组件,以及在强或长期选择下,这种风险会增加。Cas依赖性脱靶在小的微生物基因组中通常是稀疏的,可以通过仔细的gRNA设计减少。在NHEJ缺陷的微生物中,意外的DSB通常是致死的,与碱基或引物编辑器相比,限制了脱靶编辑。通过瞬时或减少表达来限制Cas暴露,进一步减少了脱靶切割和更一般的Cas依赖性毒性。在碱基编辑(BE)中,脱氨酶选择影响等位基因纯度,碱基编辑器和引物编辑器都可能引入旁观者编辑。一些替代结果可以通过计算标记有风险的目标或优先考虑产生单一编辑的gRNA来减少。总之,这些因素强调了需要仔细的表征和文库设计,以及使用重复条形码或gRNA来限制大规模筛选中不可行详尽验证的混淆。
与DMS一样,适当的分析对于获得可靠的表型评分至关重要。像DESeq2这样的包在处理测序相关偏差的同时识别富集或耗尽的变异,为CRISPR敲除筛选开发的工具通常可以适应精准编辑数据集。人类细胞中的最近工作进一步说明了将gRNA效力和编辑纯度纳入分析如何能 substantially 改善推断。当文库违反常见建模假设时,需要格外小心,例如,当少数强有益变异占主导或许多变异有害时。当有多个时间点可用时,适应性推断方法如Fit-Seq可以产生更无偏、可解释的表型评分,改善实验间的可比性。
这些进展正在推动基础和应用背景下的发现。例如,对赖氨酸代谢基因中超过16,000个变体的筛选揭示了酶活性与赖氨酸过量生产之间反直觉的反向联系,而温度敏感等位基因的系统发现为探索必需基因和动态控制细胞过程提供了新工具。除了生物技术,精准编辑为系统功能化天然和合成变体提供了强大的框架,将突变与基本生物过程以及医学或工业相关性状联系起来。突出的例子说明了精准编辑如何帮助回答复杂性状和群体遗传学中长期存在的问题。在酵母中,对甾醇途径基因中超过1400个变体的 interrogation 揭示了普遍存在的基因型与环境相互作用,强调了在不同背景下探测突变以捕捉其完整功能谱的重要性。定量性状位点(QTLs)的碱基对分辨率精细作图揭示了单个位点内可能存在多个因果变异,为QTL结构增加了复杂性。并且大规模编辑保守增殖途径中超过9000个酵母天然变体发现,许多常见变体可以施加强适应性效应,与近乎中性理论下的预期相反。这些变体倾向于在驯化和工业酵母菌株中富集,与人类相关环境中的局部正选择一致。总之,这些研究突出了精准编辑如何桥接功能基因组学、生物技术和进化,提供关于序列变异如何塑造表型的系统水平见解。展望未来,与先进计算方法的整合可能进一步增强这些数据集中模式的检测。与DMS一样,更好的标准化——从适当的对照和背景突变的最小化到处理汇集方法中常见偏差的管理——以及使用一致的分析框架,将增强跨数据集的准确性和可比性。
与高通量精准扰动耦合的新数据模态
单一位点和全基因组方法提供了互补的见解,反映了它们在分辨不同水平表型的能力。DMS特别强大,因为易于将变体文库与捕获亚细胞表型的报告基因分析相结合,包括蛋白质丰度、折叠或结合。例如,二氢叶酸还原酶互补系统揭示了序列变异如何通过简单的能量原理影响功能。然而,由于在微生物中 beyond 单基因扩展分子读数历来具有挑战性,大多数全基因组研究使用细胞适应性作为主要表型,限制了机制见解。将高分辨率扰动与同样详细的表型读数相结合,将是连接分子机制与系统水平行为的关键。细菌和酵母单细胞协议的最新进展开始克服微生物特异性挑战,用于如Perturb-seq等方法——包括小尺寸、复杂细胞壁和低mRNA丰度——并且可能很快实现对工程变体的全面分子表型分析。并行地,像细胞形态学、蛋白质组学或时间杀伤曲线这样的读数已被确定为推进微生物功能基因组学的关键优先事项。
基于这些发展,分子表型越来越多地在基因水平扰动研究中实施。例如,一个RNA条形码化的酵母缺失集合已经产生了对遗传和化学扰动响应中转录状态的详细信息,揭示了转录异质性的关键调节因子。类似地,酵母缺失集合的蛋白质组学分析揭示了蛋白质丰度与适应性之间的相关性,并确定了蛋白质复合物内协调调节的机制。然而,基因缺失不能完全重现细微序列变异的效应。因此,对更精确遗传扰动产生低维数据的研究代表了扩展表型读数空间的重要第一步。为实现这一目标,一项CRISPRi研究将独特条形码与感兴趣的酵母启动子联系起来,使得能够系统监测基因失活如何影响这些启动子的表达。这种方法对于优化代谢过程特别有价值,其中一小组精心选择的启动子可以为途径活性提供敏感读数。另一项研究通过蛋白质条形码和质谱将CRISPRi扰动与代谢物谱联系起来,有效地将大规模扰动与多维表型数据耦合。除了这些发展,大规模并行报告分析通过将核苷酸分辨率与定量的、基于表达的读数相结合,扩展了表型范围。在酿酒酵母中,它们使得能够解读翻译效率和蛋白质丰度的调节因子,揭示了非翻译区和uORF密码子身份的关键作用。虽然这产生了有价值的机制见解,但下一个前沿在于将此类分析扩展到天然基因组背景,其中调控相互作用和染色质环境得以保留。
将表型读数扩展到包括单细胞分辨率的分子表型,将对微生物系统生物学产生显著益处。类似于对癌症中细胞状态异质性的研究,将汇集的遗传扰动与多组学读数相结合,可以阐明异质过程,如持久性或应激适应。实现这将需要与转录组、蛋白质组或代谢组平台兼容的可追踪条形码,以及用于数据整合的强大计算框架。此类方法的广泛社区采用有望弥合微生物和哺乳动物功能基因组学之间的差距,实现对序列变异如何塑造表型的机制见解。
遗传变异不孤立作用:组合基因组规模精准编辑的案例
尽管精准编辑正在对散布在整个基因组中的数千个突变效应产生重要见解,但背景和上位相互作用可能以复杂的方式调节变体效应,这些方式仍然难以系统测量。通过探测不同遗传背景中的突变或分析局部序列空间中的依赖性,已经取得了进展。例如,在酿酒酵母中,自然遗传变体表现出显著的背景依赖性,有益变体更可能显示上位性。在酵母的CRISPRi扰动和细菌中的组合基因扰动研究中也观察到了背景依赖性。这些研究揭示了复杂遗传相互作用的模式,但缺乏变体水平的分辨率来精确定位特定的上位对。这种分辨率对于理解潜在机制以及这些相互作用如何塑造生物功能和进化结果至关重要。
基因内相互作用的互补研究提供了理解定义突变如何结合影响功能、适应性和进化性所需的分辨率。在酵母中,基于质粒的文库已被用于识别物理上接近残基之间的强非加性相互作用,这些相互作用与单突变体一起可以准确预测蛋白质稳定性。在细菌酶中,正上位遍布活性催化位点,并通过远处残基的底物相互作用介导。将此类分析扩展到成对扰动之外仍然具有挑战性,因为可能基因型的数量在组合空间中迅速爆炸。然而,通过采样相对较小部分的该空间可以推断出一般原则。通过随机化进化多样化蛋白质的疏水核心,推动了这些限制,揭示了许多变体保留甚至改善了稳定性——挑战了“脆弱核心”教条——但稳定性本身并不确保功能,因为变构效应可能破坏结合。值得注意的是,稳定性和结合都可以通过很大程度上加性的能量模型得到很好解释——突变在折叠自由能水平上加性结合——具有成对相互作用的适度贡献,反映了许多具有适度变构效应的突变。这些模型准确预测了进化多样化蛋白质中的功能性疏水核心,表明关注单残基和低阶组合有时可能足以得出导航基因型-表型空间的原理。
基于这些进展,关键下一步是将组合扰动从基因扩展到基因组。基于逆转录子的系统开始为此在分子记录和代谢工程中实现,尽管当前实施在通量和效率上仍然有限。实现基因组规模的组合编辑不仅需要改进这些现有方法,还需要开发新策略来有效引入和跟踪多个编辑而不引起细胞毒性。实现相互作用的充分覆盖将需要在文库生成和筛选过程中仔细控制代表性和偏斜,建立在单一位点编辑和早期汇集方法的经验教训上。随着复杂性增加,寡核苷酸扩增、克隆、递送、生长和选择以及gRNA/条形码丰度量化过程中的瓶颈可能随机丢失变体并扭曲频率,降低效力,特别是对于适度效应。缓解涉及确保每个步骤的足够覆盖,处理PCR偏差,增加培养体积或子池化,以及常规质量控制以监测代表性和偏斜。
结论
大规模、变体水平扰动技术的快速进展正在改变我们探究生物学的方式,揭示了对基因水平方法无法获得的分子见解,并揭示了单个变体作为生物功能的驱动因素。DMS结合丰富的分子读数,揭示了突变如何相互作用以塑造蛋白质适应性和进化轨迹的一般原则。DNA合成、编辑化学和多重测量方面的持续进展有望带来更广泛的覆盖和更清晰的推断,使得从序列到系统的预测性、机制性联系触手可及。同时,全基因组方法已经系统地绘制了重要性状的因果等位基因,将分辨率从基因细化到变体,并为解决广泛的生物学问题提供了强大的框架。展望未来,组合变体水平扰动和更多样化的表型读数将通过精准工程推进微生物系统生物学。将这些实验进展与计算模型整合,并将其扩展到更广泛的生物体范围,对于提取意义并建立可解释的、连接生物系统中序列与功能的通用模型至关重要。