酶是生物催化剂,能够显著加速生物体内的化学反应速率(Arcus和Mulholland, 2020; Knowles, 1991)。它们具有高度的特异性和效率,并且在温和的条件下发挥作用(Arcus & Mulholland, 2020)。酶降低了反应发生的活化能,从而使反应能够更快地进行(Arcus和Mulholland, 2020, Knowles, 1991)。这是通过稳定反应的过渡态实现的,过渡态是底物和产物之间的高能中间体(Arcus和Mulholland, 2020, Knowles, 1991, Sahin等人, 2023)。酶的应用不仅限于生物系统,还包括药物合成、食品加工、环境修复和碳封存(Yu等人, 2023b)。
酶的结构包括一个活性位点,即底物结合并发生转化的区域,这被称为“锁钥”模型(Abramson等人, 2024; Dauparas等人, 2022; Knowles, 1991; Yu等人, 2023b)。酶动力学研究酶如何与底物相互作用并将其转化为产物,为理解酶的功能及其活性调节提供了框架(Li等人, 2022; Sahin等人, 2023)。两个基本的动力学参数描述了酶在催化化学反应中的行为(Kroll等人, 2021; Kroll等人, 2023; Li等人, 2022; Qiu等人, 2023; Sahin等人, 2023; Wilkinson等人, 1984; Yu等人, 2023a)。第一个是米氏常数(Km)——反应速率达到最大速率(Vmax)一半时的底物浓度,用于衡量酶对底物的亲和力(Kroll等人, 2021; Wilkinson等人, 1984)。第二个参数是酶转化数(kcat)——当酶被底物饱和时,每个酶分子每单位时间转化的底物分子数,用于衡量酶的催化效率(Kroll等人, 2023; Li等人, 2022; Qiu等人, 2023; Wilkinson等人, 1984; Yu等人, 2023a)。比率kcat/Km是二级速率常数,既衡量了酶的催化能力,也衡量了其对底物的亲和力(Kroll等人, 2021; Wilkinson等人, 1984)。这些常数通常被称为ESC,因为它们反映了酶在区分潜在底物方面的催化效率。当酶有多种底物可供选择时,其对不同底物的催化效率可能会有很大差异,kcat/Km的值可能相差数百万倍。当酶通过蛋白质工程进行修饰时,不同突变体的kcat/Km值是性能比较的重要参数(Li等人, 2022; Sahin等人, 2023; Wilkinson等人, 1984; Yu等人, 2023a)。
实验上,测量这两个常数需要制备活性高纯度的酶,这既昂贵又受到一系列复杂因素的限制,如酶表达和纯化的难度、酶活性的维持、辅因子的选择,以及体外和体内催化环境的差异(Davidi等人, 2016; Doerr, 2006; Ou等人, 2018)。这使得在许多酶功能领域(如药物筛选(Abramson等人, 2024)、蛋白质工程(Dauparas等人, 2022)和代谢途径设计)应用HTS和DMS技术变得极具挑战性。特别是酶限制的基因组规模代谢模型(ecGEMs),它们通过酶的催化能力来约束整个细胞的代谢网络,从而准确模拟最大生长能力、代谢变化和蛋白质组分配,这些模型在很大程度上依赖于基因组规模的kcat/Km值(Chen等人, 2024; Li等人, 2022; Li等人, 2021)。尽管这些模型已经为包括大肠杆菌、酿酒酵母和智人在内的几种研究充分的生物体开发出来,但对于这些生物体而言,kcat/Km的覆盖率仍然远未完整。在酿酒酵母的ecGEM中,只有5%的酶促反应在BRENDA中的kcat值完全匹配(Chang等人, 2021; Kroll等人, 2023; Li等人, 2022)。在大肠杆菌这种生化特性最为清楚的生物体中,大约2000个酶促反应中只有不到30%的底物的Km和kcat测量值是已知的。显然需要大规模的kcat/Km值来提高模型精度并产生更可靠的表型模拟。目前大规模动力学建模的标准方法是在优化过程中估计动力学参数(Saa & Nielsen, 2017)。这些优化通常试图估计的未知参数远多于已有的测量值,因此得到的kcat和Km值的置信范围很广,与实验观察值之间的关联也很小。
最近,基于机器学习和深度学习的人工智能(AI)技术在生物研究中提供了重要帮助,包括生物分子结构预测(Abramson等人, 2024)、新酶的发现以及酶性能的注释(Yu等人, 2023b)。基于酶数据库(如BRENDA(Chang等人, 2021)、Uniprot(The UniProt, 2017)和SABIO生化反应动力学数据库(SABIO-RK)(Wittig等人, 2018),已经开发出一些高效的模型用于大规模预测kcat和Km(Kroll等人, 2021; Kroll等人, 2023; Li等人, 2022; Qiu等人, 2023; Yu等人, 2023a)。然而,这些方法在特征不太明显的酶上的泛化能力较差。在这项研究中,我们建立了一个名为iESC的深度学习模型(图1),它仅基于酶序列和底物结构就能准确高效地预测kcat和Km值,远超现有最先进的方法。