利用iESC准确预测酶的特异性常数

《Bioresource Technology》:Accurate enzyme specificity constant prediction with iESC

【字体: 时间:2026年01月27日 来源:Bioresource Technology 9

编辑推荐:

  深度学习模型iESC通过酶序列和底物结构预测动力学参数,在41,907组数据上表现优异,R2达0.6-0.63,显著优于现有方法,并成功应用于酶工程中的HTS和DMS技术。

  
张宇|刘丽华|王书琪|姜敖
香港科技大学生物科学中央研究设施,中国广州510000

摘要

酶特异性常数(ESC)是衡量酶性质的关键定量指标,尤其是米氏常数(Km)和转化数(kcat)。然而,传统的测量Kmkcat的方法既费力又耗时。在这里,我们介绍了一种名为iESC的深度学习模型,它仅基于酶序列和底物结构就能准确预测这些参数。iESC是使用从现有数据库和报告中编译的41,907个酶-底物动力学参数的全面数据集开发的。严格的数据预处理确保了其独立性和准确性。通过整合多种先进的特征提取和深度学习技术,iESC在Kmkcat以及kcat/Km方面的决定系数(R2)分别为0.63、0.60和0.62。基准测试表明,iESC在各种数据集上的表现显著优于现有的最先进模型,具有更高的R2值以及更低的均方根误差(RMSE)和平均绝对误差(MAE)。我们进一步验证了iESC在酶的高通量筛选(HTS)和深度突变扫描(DMS)技术中的出色适用性。

引言

酶是生物催化剂,能够显著加速生物体内的化学反应速率(Arcus和Mulholland, 2020; Knowles, 1991)。它们具有高度的特异性和效率,并且在温和的条件下发挥作用(Arcus & Mulholland, 2020)。酶降低了反应发生的活化能,从而使反应能够更快地进行(Arcus和Mulholland, 2020, Knowles, 1991)。这是通过稳定反应的过渡态实现的,过渡态是底物和产物之间的高能中间体(Arcus和Mulholland, 2020, Knowles, 1991, Sahin等人, 2023)。酶的应用不仅限于生物系统,还包括药物合成、食品加工、环境修复和碳封存(Yu等人, 2023b)。
酶的结构包括一个活性位点,即底物结合并发生转化的区域,这被称为“锁钥”模型(Abramson等人, 2024; Dauparas等人, 2022; Knowles, 1991; Yu等人, 2023b)。酶动力学研究酶如何与底物相互作用并将其转化为产物,为理解酶的功能及其活性调节提供了框架(Li等人, 2022; Sahin等人, 2023)。两个基本的动力学参数描述了酶在催化化学反应中的行为(Kroll等人, 2021; Kroll等人, 2023; Li等人, 2022; Qiu等人, 2023; Sahin等人, 2023; Wilkinson等人, 1984; Yu等人, 2023a)。第一个是米氏常数(Km)——反应速率达到最大速率(Vmax)一半时的底物浓度,用于衡量酶对底物的亲和力(Kroll等人, 2021; Wilkinson等人, 1984)。第二个参数是酶转化数(kcat)——当酶被底物饱和时,每个酶分子每单位时间转化的底物分子数,用于衡量酶的催化效率(Kroll等人, 2023; Li等人, 2022; Qiu等人, 2023; Wilkinson等人, 1984; Yu等人, 2023a)。比率kcat/Km是二级速率常数,既衡量了酶的催化能力,也衡量了其对底物的亲和力(Kroll等人, 2021; Wilkinson等人, 1984)。这些常数通常被称为ESC,因为它们反映了酶在区分潜在底物方面的催化效率。当酶有多种底物可供选择时,其对不同底物的催化效率可能会有很大差异,kcat/Km的值可能相差数百万倍。当酶通过蛋白质工程进行修饰时,不同突变体的kcat/Km值是性能比较的重要参数(Li等人, 2022; Sahin等人, 2023; Wilkinson等人, 1984; Yu等人, 2023a)。
实验上,测量这两个常数需要制备活性高纯度的酶,这既昂贵又受到一系列复杂因素的限制,如酶表达和纯化的难度、酶活性的维持、辅因子的选择,以及体外体内催化环境的差异(Davidi等人, 2016; Doerr, 2006; Ou等人, 2018)。这使得在许多酶功能领域(如药物筛选(Abramson等人, 2024)、蛋白质工程(Dauparas等人, 2022)和代谢途径设计)应用HTS和DMS技术变得极具挑战性。特别是酶限制的基因组规模代谢模型(ecGEMs),它们通过酶的催化能力来约束整个细胞的代谢网络,从而准确模拟最大生长能力、代谢变化和蛋白质组分配,这些模型在很大程度上依赖于基因组规模的kcat/Km值(Chen等人, 2024; Li等人, 2022; Li等人, 2021)。尽管这些模型已经为包括大肠杆菌酿酒酵母智人在内的几种研究充分的生物体开发出来,但对于这些生物体而言,kcat/Km的覆盖率仍然远未完整。在酿酒酵母的ecGEM中,只有5%的酶促反应在BRENDA中的kcat值完全匹配(Chang等人, 2021; Kroll等人, 2023; Li等人, 2022)。在大肠杆菌这种生化特性最为清楚的生物体中,大约2000个酶促反应中只有不到30%的底物的Km和kcat测量值是已知的。显然需要大规模的kcat/Km值来提高模型精度并产生更可靠的表型模拟。目前大规模动力学建模的标准方法是在优化过程中估计动力学参数(Saa & Nielsen, 2017)。这些优化通常试图估计的未知参数远多于已有的测量值,因此得到的kcat和Km值的置信范围很广,与实验观察值之间的关联也很小。
最近,基于机器学习和深度学习的人工智能(AI)技术在生物研究中提供了重要帮助,包括生物分子结构预测(Abramson等人, 2024)、新酶的发现以及酶性能的注释(Yu等人, 2023b)。基于酶数据库(如BRENDA(Chang等人, 2021)、Uniprot(The UniProt, 2017)和SABIO生化反应动力学数据库(SABIO-RK)(Wittig等人, 2018),已经开发出一些高效的模型用于大规模预测kcat和Km(Kroll等人, 2021; Kroll等人, 2023; Li等人, 2022; Qiu等人, 2023; Yu等人, 2023a)。然而,这些方法在特征不太明显的酶上的泛化能力较差。在这项研究中,我们建立了一个名为iESC的深度学习模型(图1),它仅基于酶序列和底物结构就能准确高效地预测kcat和Km值,远超现有最先进的方法。

数据收集和预处理

我们收集了几个代表性数据集,并构建了几个数据集来验证模型的准确性。
DLKcat(Li等人, 2022)数据集是按照原始出版物中描述的方法准备的。具体来说,我们使用了DLKcat数据集,该数据集代表了来自BRENDA(Chang等人, 2021)和SABIO-RK(Wittig等人, 2018)数据库的最全面和多样的酶序列和底物结构集合。最初,该数据集

ESC数据收集和处理

所使用数据集的准确性和完整性对于模型构建和验证的精度至关重要。为了确保收集数据的准确性和独立性,我们高效地从BRENDA和SABIO-RK数据库中整理了关于酶、底物、ESC值、温度和pH的信息。总共,我们从这两个数据库中收集了64,086个ESC数据,包括29,546个kcat数据、34,540个Km数据和14,206个kcat/Km数据,涉及的酶数量分别为10,800个、10,515个和6,960个。

结论

本研究开发了一种基于AI的ESC预测模型iESC,它整合了多种先进的特征提取和深度学习技术,仅使用酶序列和底物结构就提高了三个基本ESC参数(Kmkcatkcat/Km)的预测精度。iESC模型在我们的测试集上分别获得了0.63、0.60和0.62的最高R2值,显著优于当前最先进的模型。

CRediT作者贡献声明

张宇:撰写——审稿与编辑、可视化、验证、软件开发、方法论、研究、正式分析。刘丽华:撰写——初稿撰写、可视化、验证、软件开发、方法论、研究、正式分析、数据管理。王书琪:撰写——审稿与编辑、监督、资源协调、项目管理、方法论、研究、资金获取、概念构思。姜敖:撰写——审稿与编辑、监督、资源协调、项目管理

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号