《Crop Design》:Translational potential of AI-driven
de novo protein binders for crop protection and improvement
编辑推荐:
本综述系统阐述了人工智能(AI)技术在从头设计(de novo)蛋白质结合剂领域的突破性进展及其在作物保护与改良中的转化潜力。文章重点介绍了扩散模型、蛋白质语言模型(PLMs)等核心AI方法如何实现针对病原体效应因子和植物免疫元件的精准分子干预,并探讨了细胞穿膜肽(CPPs)等新型递送系统在克服植物细胞屏障方面的应用前景。该文为应对全球粮食安全挑战提供了一种融合计算蛋白质设计与植物生物技术的创新策略。
核心技术与方法在AI驱动蛋白质结合剂设计中的应用
人工智能与蛋白质工程的融合为从头设计蛋白质结合剂带来了范式转变。与传统依赖筛选大型库或修饰天然蛋白的方法不同,AI驱动的方法现在允许以原子精度和显著效率程序化设计定制结合剂,这些结合剂可以靶向一系列分子,包括病原体效应因子、激素受体和代谢酶。这一革命的核心是三个互补的技术范式:扩散生成模型、基于结构预测网络的逆向优化方法以及蛋白质语言模型(PLMs)。
扩散模型如RFdiffusion利用迭代去噪技术,从随机噪声开始,逐步细化以生成精确的三维蛋白质骨架。这个过程可以基于用户定义的约束条件进行,例如特定的对称性要求或结合靶标,从而允许研究人员“雕刻”出几何形状上适合与靶标相互作用的骨架。第二种方法则利用AlphaFold3等结构预测网络作为设计引擎,通过反向传播从随机种子开始系统优化氨基酸序列,评估结合剂与靶标是否能共折叠形成稳定复合物。第三种方法,蛋白质语言模型如ESM、EvoDiff和PepMLM,主要在序列水平上操作。通过在海量天然序列上训练,它们学会了功能性蛋白质的统计模式和进化“语法”,即使在缺乏结构数据时也能生成可行的序列。
这些技术的真正力量在于战略性整合。现代设计流程通常将基于扩散的骨架生成与语言模型指导的序列优化相结合,并借助Rosetta等工具进行多层质量控制,从而显著提高实验成功率。AlphaFold3预测涉及DNA、RNA、小分子和翻译后修饰的蛋白质复合物的能力,进一步增强了生物分子建模的协同效应。因此,我们现在能够设计针对生物体的系统级解决方案,包括用于早期病原体检测的生物传感器、合成激素信号受体以及具有定制底物特异性的酶。
当前应用与转化机遇
AI驱动的蛋白质设计在生物医学应用中取得了显著进展,包括开发超稳定支架、条件触发的分子开关和高亲和力小蛋白,这些都有可能彻底改变治疗方式。尽管这些技术在应对粮食安全挑战方面潜力巨大,但它们在农业中的应用仍处于早期阶段。然而,数十年来对植物-病原体相互作用的分子和结构表征,已经积累了关于效应蛋白、宿主免疫受体和信号网络的原子分辨率数据宝库,为在关键作物中进行靶向AI干预提供了蓝图。
一个关键的应用方向是靶向病原体毒力机制和宿主防御网络。以稻瘟病菌(Magnaporthe oryzae)为例,其效应蛋白与水稻免疫受体相互作用的原子级结构信息(如Pwl2/OsHIPP43复合物、Avr-PikD与Pikp-1p HMA二聚体复合物)为计算设计和AI基结合剂抑制剂提供了精确模板。AI框架如RFdiffusion和BindCraft能够生成特异性占据效应蛋白结合界面的小蛋白抑制剂,从而中和毒力功能并恢复植物免疫反应。这些计算设计的结合剂可以通过多种递送系统策略性部署,包括组成型转基因表达、定位于效应蛋白活跃的质外体的区室化定位,或仅在感染期间激活表达的病原体诱导型启动子。
除了直接抑制效应蛋白,AI设计的结合剂还提供了利用病原体营养依赖性的创新机会。许多真菌病原体产生效应蛋白以从宿主组织获取铁和锌等必需金属。整合ESM-2蛋白质语言模型与ESM-IF逆向折叠的AI引导工作流可以识别新的分泌金属蛋白并预测其特定的金属配位几何结构。基于此,AI可以设计模拟宿主金属转运蛋白的合成蛋白诱饵,与病原体螯合剂竞争,或在植物质外体中结合并隔离必需微量元素。这种策略类似于哺乳动物的“营养免疫”,与靶向单一分子的传统杀菌剂或疗法相比,可能降低耐药性选择压力。
AI设计的蛋白质结合剂在重编程宿主免疫信号网络方面也大有可为。许多植物病原体通过改变茉莉酸(JA)、水杨酸(SA)、乙烯(ET)和脱落酸(ABA)等激素信号通路来抑制免疫力并促进感染。AI生成的结合剂可以被设计来调节这些通路中的特定信号节点,例如,通过稳定增强防御基因表达的转录激活因子,或抑制水杨酸生物合成的负调控因子。BindCraft程序发现的麦芽糖感应分子开关等条件性、配体响应性结合剂的发展,展示了AI产生具有可编程输入输出特性蛋白质的能力。通过设计类似的系统来检测宿主损伤信号或病原体相关分子模式(PAMPs)并触发适当的免疫反应,有可能创建一种更灵活、动态的植物免疫形式。
转化路径:利用生物医学进展促进农业创新
合成生物学和计算蛋白质设计的进步正在开辟一条从人类医学到农业的新转化路径。蛋白质结构域的深层进化保守架构,以及支配真核生物间蛋白质-蛋白质识别的通用生物物理规则,为将针对人类治疗开发的结合剂重新用于作物系统提供了令人信服的理由。通过利用这种跨物种保守性,原本为人类靶标优化的结合剂可以以最少的重新设计快速适应植物同源物,从而缩短传统农业生物技术通常所需的开发时间。
AI驱动蛋白质设计的最新成就说明了这种方法的可行性。例如,RFdiffusion针对人类肿瘤抗原(如PD-L1和EGFR)生成的结合剂表现出皮摩尔级亲和力、在95°C下的卓越热稳定性以及对蛋白水解降解的强大抗性。这些生物物理属性与农业应用直接相关,因为工程化蛋白质必须在严酷、富含蛋白酶且酸性的植物质外体环境中保持活性。癌症免疫治疗中建立的概念框架——设计蛋白质以识别和中和精确的分子靶标——可以为作物保护方法提供信息。例如,针对流感血凝素(HA)的人类靶向结合剂,可以作为设计靶向主要植物病毒(如水稻东格鲁球状病毒(RTSV)或玉米致死性坏死病(MLN)病毒复合物)衣壳蛋白的结合剂的宝贵模板。同样,中和蛇毒毒素的结合剂可以被重新设计以靶向细菌或真菌病原体产生的植物毒素,如丁香假单胞菌(Pseudomonas syringae)的冠菌素(coronatine)或炭疽菌(Cochliobolus carbonum)的HC-毒素。
在病原体防御之外,该策略还能实现对作物中基因组编辑和基因表达的精确控制。在生物医学领域,AI设计的化脓链球菌(Streptococcus pyogenes) Cas9核酸酶抑制剂作为分子杀死开关,以纳摩尔级亲和力结合,响应特定触发器而阻断编辑活性。转化到农业生物技术,类似的合成抗CRISPR(Anti-CRISPR)蛋白可以被设计来响应农用化学诱导剂而抑制植物Cas9变体。这种条件性调控将允许对除草剂抗性或耐旱性等性状进行时间和空间控制,相较于组成型表达系统是一个显著进步。例如,基于结构信息的AI设计可以靶向ABA受体PYL1-PP2C复合物,以实现耐旱途径的条件性激活。类似地,基于NRT1.1硝酸盐转运蛋白结构的工程化调节剂可以为养分吸收效率提供可调控制。这些结合剂将响应特定的环境线索,如升高的ABA浓度或低硝酸盐可用性,从而创建仅在需要时激活保护性状的环境响应型分子开关。
应对技术瓶颈与未来方向
将AI基蛋白质结合剂设计扩展到作物系统的一个主要挑战在于植物与非植物生物之间显著的结构生物学差距。现有的结构数据库严重偏向人类和模式生物蛋白质,而来自农学上重要作物(如小麦、高粱和木薯)的蛋白质在蛋白质数据库(PDB)中的代表性仍然严重不足。这种不平衡限制了主要基于非植物数据集训练的AI模型的准确性和普适性,限制了它们预测或设计针对作物特异性靶标的结合剂的能力。
解决这一不足需要协调全球努力来增强作物蛋白质组的结构覆盖度。仿照RIKEN结构基因组学/蛋白质组学计划的大规模结构基因组学项目提供了一条有前景的前进道路。此类计划整合X射线晶体学、NMR光谱和冷冻电子显微镜,以系统确定关键农业物种中代表性蛋白质家族的结构。同时,整合对整个植物蛋白质组的高置信度AlphaFold3预测可以进一步扩展结构数据集,从而改善AI训练数据的多样性和相关性。下一步逻辑步骤是开发明确针对植物系统特有结构、功能和进化特征训练的植物特异性蛋白质设计模型。这些模型将捕获与植物亚细胞环境、翻译后修饰和独特进化压力相关的约束,为设计稳定且功能性的结合剂提供更现实的基础。
最直接的瓶颈或许是开发AI设计蛋白质结合剂的高效递送系统。这些系统必须跨植物细胞壁和质膜转运蛋白质,同时在酸性、富含蛋白酶的质外体中保持稳定性。细胞穿膜肽(CPPs)为传统转基因方法提供了一种变革性的非病毒替代方案。这些短的、膜活性肽可以跨生物膜转运,同时递送多种货物,包括蛋白质、核酸和纳米颗粒。HIV-1 Tat蛋白是这类递送载体的范例。为了提高抗蛋白水解能力,CPPs可以通过环状结构或D-型氨基酸进行合理修饰。它们通过非共价复合包装协同蛋白质混合物或通过共价键合实现精确化学计量分布来发挥作用。这使得能够实现无基因组整合的瞬时蛋白质表达,为符合监管要求提供了关键优势。亚细胞靶向对于治疗功效至关重要。CPPs可以被设计用于抗CRISPR蛋白的核递送,或者靶向质体和线粒体以利用细胞器翻译能力。谷胱甘肽响应型CPPs通过利用感染相关的氧化还原变化来实现细胞质或质外体释放,从而逃离内体捕获。这种逃逸机制克服了传统内吞途径将少于5%的货物困在溶解区室的限制。
重要的是,AI驱动的设计可以加速CPP本身的开发。在CPP数据库上训练的蛋白质语言模型可以预测具有增强植物穿透效率和降低细胞毒性的变体。这创建了一个协同工作流,其中治疗性蛋白质和递送载体作为统一的分子系统,使用RFdiffusion和BindCraft等平台进行共同优化。将这些递送进展整合到情境感知设计框架中,将实现可编程的、与田间相关的作物保护。具有灵活条件性的新兴基础模型,如Chroma,可以根据用自然语言表达的用户定义目标生成蛋白质设计;例如,可以指定:“生成一种针对水稻激酶的热稳定结合剂,其在pH 5.5下起作用并能抵抗质外体蛋白酶。”将此类情境约束直接纳入设计循环,将产生针对植物复杂生理和环境条件优化的结合剂。随着植物-病原体系统的结构和相互作用数据集的扩展,AI驱动的设计将产生越来越特异和适应性的解决方案。将这些模型与多组学优先级排序相结合——整合来自感染组织的转录组学、蛋白质组学和代谢组学数据——将改进靶标选择,而基于CPP和纳米载体的递送平台则为将计算设计转化为功能性作物保护工具提供了机制桥梁。
结论与展望
AI引导的蛋白质结合剂设计代表了一种变革性方法,有潜力彻底改变作物保护策略。通过将重点从经验育种和广谱化学控制转向分子精确干预,该技术为疾病管理和胁迫恢复力提供了一种可持续且可编程的替代方案。结构生物学、先进生成建模和植物系统生物学的融合为靶向农业创新创造了前所未有的机遇。
为了实现这一潜力,该领域的当务之急包括三个相互依存的目标:通过国际结构基因组学努力扩大农业重要蛋白质组的结构覆盖度;在植物相关条件下建立严格的AI设计结合剂实验验证流程;以及开发确保结合剂在田间多变环境中稳定性和功能性的高效递送和表达系统。这些领域的成功将为将AI生成的蛋白质设计从概念转化为实用的农业工具奠定基础。
递送系统开发与结合剂设计之间的协同作用 exemplify 了农业蛋白质工程如何演变成一个统一的学科。与医学应用(全身注射提供相对均匀的分布)不同,作物系统需要复杂的解决方案来应对细胞壁屏障、质外体蛋白酶和亚细胞区室化。使用共同的AI平台共同设计CPP递送载体和治疗性蛋白质将是一个革命性的变化。这种递送与功能的整合反映了精准医学的趋势,即药物递送系统越来越多地与治疗分子协同设计。
随着结构和计算基础设施的进步,医学和农业蛋白质工程之间的区别将变得越来越模糊。共享AI平台、统一数据库和跨领域合作的使用将加速发现用于人类和植物健康的新型蛋白质解决方案。面对气候变化和日益增加的病原体压力,AI驱动的蛋白质设计注定将成为发展有恢复力和可持续的全球粮食系统的基石技术。递送创新、结构基因组学和植物感知AI模型的融合将最终决定这种变革潜力从实验室推测到田间部署现实的速度,提供可编程的分子工具,这些工具能够适应新出现的威胁,同时保持环境可持续性和监管兼容性。