编辑推荐:
本综述系统阐述了深度学习(DL)技术如何革新蛋白质结合剂(Protein Binders)的设计流程,并探讨其在作物改良中的巨大潜力。文章概述了从靶点选择(如抗病、胁迫耐受相关通路蛋白)、结合剂生成(使用AlphaFold、RFdiffusion、ProteinMPNN等工具)到计算筛选与实验验证(如SPR、BLI)的端到端(End-to-End)管线,同时指出了植物应用领域面临的数据稀缺、结构预测准确性以及体内(in planta)递送等挑战,为农业生物技术提供了前沿的研发路线图。
深度学习驱动的蛋白质结合剂设计:作物改良的新前沿
摘要
深度学习(DL)技术正在彻底改变蛋白质结合剂——能够特异性结合靶标蛋白的蛋白质分子——的设计范式。这类结合剂可以精确调控蛋白质-蛋白质相互作用(PPI),从而为作物改良,如增强抗病性、提高非生物胁迫耐受性以及优化发育过程(如开花和养分吸收),提供了前所未有的精准工具。尽管在人类疾病治疗领域取得了显著进展,但DL驱动的蛋白质结合剂在植物生物学中的应用尚处于早期阶段。本综述旨在梳理该领域的最新进展,并展望其在农业中的应用前景。
1. 引言
传统蛋白质结合剂设计方法(如基于物理能量的Rosetta对接优化或模板嫁接)通常效率低下、成功率低(<0.1%),且难以靶向具有新颖折叠或作物特有通路中的蛋白质。近年来,深度学习模型(如AlphaFold2、RoseTTAFold用于结构预测,RFdiffusion用于生成设计,ProteinMPNN用于序列设计)的出现,实现了从靶点结构到高亲和力结合剂序列的端到端设计,将成功率提高了数个数量级。然而,这些进展主要集中在 therapeutics 领域,植物方面的应用亟待拓展。
2. 蛋白质结合剂设计的基础
2.1. 分子识别原理
PPI主要由结合界面处的几何和化学互补性驱动,包括范德华力、疏水效应和静电相互作用。DL模型通过在海量结构和序列数据集上进行训练,能够隐式学习这些复杂模式,从而进行de novo(从头)设计。
2.2. 工程化蛋白质结合剂的类型
除了传统抗体,工程化蛋白质结合剂还包括纳米抗体、设计的锚蛋白重复蛋白(DARPins)、单域抗体、亲和体、抗钙蛋白、小蛋白(Miniproteins)和肽段等。DL工具可以设计各种骨架拓扑结构的结合剂。例如,异手性D-蛋白质(由D-氨基酸构成)对天然L-靶点(如TrkA, IL-6)显示出高特异性结合。此外,线性或环状肽(通常8-30个残基)也是重要的设计目标,其中环状肽具有更低的立体位阻和更好的膜通透性等优势。
3. 蛋白质结合剂设计的新时代
3.1. 现代DL驱动的蛋白质结合剂设计流程
现代设计流程高度集成化,主要步骤包括:
- •
靶点选择与结构获取:选择与目标性状(如抗病)相关的关键蛋白靶点,利用AF2或RF2预测其三维结构。
- •
结合位点与结合剂设计:确定靶点上的结合位点(热点区域),使用RFdiffusion等生成模型创建能够与该位点互补的结合剂骨架,再利用ProteinMPNN为骨架设计稳定的氨基酸序列。
- •
in silico(计算机)与实验室验证:使用AF2等工具的计算指标(如pLDDT, i_pTM, pAE)对设计的结合剂进行筛选。通过酵母表面展示(YSD)、表面等离子共振(SPR)或生物层干涉(BLI)等技术实验验证结合亲和力(Kd)和动力学参数(kon, koff)。
- •
植物递送与性状实现:将验证有效的结合剂序列进行反向翻译并克隆到植物表达载体中,通过农杆菌(Agrobacterium tumefaciens)介导的转化获得转基因植物,最终在植株水平评估其功能。
4. In silico评估与in vitro验证**
4.1. 计算筛选
AF2和RoseTTAFold等工具是评估设计结合剂是否可能形成稳定结构并与靶点有效结合的关键。结合物理能量函数(如Rosetta)和DL衍生指标(如pLDDT, i_pTM)的综合方法,能有效优先选择高质量的候选物进行实验。
4.2. 实验验证
实验验证至关重要,包括:
- •
结合亲和力与动力学:使用SPR、BLI等技术定量测量。
- •
结构验证:使用X射线晶体学、冷冻电镜(cryo-EM)确认复合物结构,圆二色谱(CD)评估结合剂折叠状态。
- •
功能测定:在植物中,需验证结合剂是否能产生预期的表型,如抑制病原体效应蛋白功能或调节发育通路。
- •
特异性与积累:通过竞争实验、定点突变等手段验证结合特异性,并通过Western blot等方法检测其在植物体内的积累情况。
5. 针对真菌效应蛋白设计蛋白质结合剂的实例
以设计靶向谷物病害相关真菌分泌效应蛋白的小蛋白结合剂(50-120 aa)为例,流程可简化为:1) 使用RFdiffusion生成结合剂骨架;2) 使用ProteinMPNN设计序列;3) 用AF2-Multimer评估复合物质量并筛选;4) 应用序列水平过滤器(如去除低复杂度区域);5) 对顶部候选进行体外结合实验验证。
6. 端到端管线与工具
6.1. BindCraft
该平台利用通过AF2的反向传播来“幻想”(hallucinate)出与靶点结合的新蛋白序列和界面,实现了高度自动化的设计。
6.2. RFdiffusion + ProteinMPNN + AlphaProteo 模块化方法
这是一种常用策略:RFdiffusion负责生成骨架,ProteinMPNN负责序列设计,AlphaProteo等工具则提供端到端的生成和基于AF的评分。这些工具各有优势,适用于不同场景。
7. 实际工作流程与案例研究
案例1(BindCraft靶向CLDN1)展示了通过DL反向传播成功设计出能抑制细菌肠毒素(CpE)细胞毒性的蛋白质结合剂。案例2(异手性D-蛋白质设计)则展示了通过镜像世界策略设计出对天然靶点(如IL-6)具有高亲和力且高度稳定的D-蛋白质结合剂。
8. 常见失败模式及其解决方案
- •
I型失败(错误折叠):解决方案包括使用AF2/RF2评估单体折叠状态,并利用溶解度预测工具优化序列。
- •
II型失败(不正确结合模式):利用AF2计算的界面pAE(pAE_interaction)等指标进行严格筛选,成功率与低pAE值显著相关。
- •
物理/化学失败:在计算优化中引入对埋藏未饱和极性原子的惩罚。
- •
低多样性/冗余:计算生成肽段之间的pTM分数以评估和促进结构多样性。
9. DL驱动蛋白质结合剂在作物改良中的潜力
DL设计的蛋白质结合剂在作物改良中具有广阔前景:
- •
精准抗病与胁迫适应:例如,中和真菌效应蛋白以阻断其毒性功能,或调控SnRK2激酶、MAPK等胁迫信号通路节点。
- •
调控发育阶段:通过调控开花位点T(FT)、衰老相关转录因子(如ORE1)或单倍体诱导相关蛋白(如MTL/PLA1),可优化开花时间、延缓衰老、加速育种进程。
- •
改造根系、养分利用与昼夜节律:通过调控PIN家族生长素转运蛋白或NRT1.1硝酸盐转运受体等,可优化根系构型、提高氮磷利用效率;调节ZEITLUPE(ZTL)等昼夜节律核心组分可帮助作物适应不同光周期。
10. 挑战
主要挑战包括:植物特异性PPI和结构数据稀缺;现有模型对植物系统的泛化能力有待提高;大分子结合剂在植物细胞内的递送效率问题。
11. 植物特异性考量
- •
植物特异性数据集的构建与整理:迫切需要建立主要作物-病原体系统的高质量PPI和结构数据库。
- •
跨物种迁移学习与DL管线:通过对作物-病原体相互作用数据进行微调,并考虑植物蛋白特有的内在无序区域(IDRs)等特性,来优化DL模型。
- •
in vivo(体内)递送与部署:需考虑稳定的遗传转化、组织/胁迫诱导型启动子的使用、蛋白靶向信号(如分泌信号、核定位信号NLS)的添加,以及可诱导系统(如降解子degron)以控制表达时空特异性,减少对植物生长的负面影响。
12. 结论
深度学习驱动的蛋白质结合剂设计为植物生物技术开辟了新的道路。通过克服数据、模型和递送方面的挑战,并与机器学习(ML)引导的基因组编辑等技术相结合,这一工具有望为实现高产、气候智能型和可持续的作物生产系统做出重要贡献。