综述:近期在人工智能驱动的蛋白质和小分子预测方面的进展
《Current Opinion in Structural Biology》:Recent advances in AI-driven p
K
a prediction for proteins and small molecules
【字体:
大
中
小
】
时间:2026年02月17日
来源:Current Opinion in Structural Biology 7
编辑推荐:
AI驱动蛋白质和小分子pKa预测方法差异显著,蛋白质预测多基于3D结构(如DeepKa CNN模型),小分子则依赖SMILES字符串(如QSPR模型)。挑战包括数据稀缺(仅1024个实验值)、环境因素复杂性及模型泛化能力不足。
黄延东
厦门集美大学计算机工程学院,中国厦门361021
机器学习技术的进步以及高质量pKa数据库的可用性,促进了基于AI的pKa预测器的发展。本文综述了在蛋白质和小分子领域基于AI的pKa预测的最新进展,发现这两种分子类别的方法论沿着不同的路径演变,形成了相对独立的研发方向。最后,文章指出了pKa预测中存在的挑战,包括数据稀缺性、热力学一致性以及通用模型的缺失,这些都需要未来的研究来解决。
引言
酸解离常数(pKa)反映了可电离基团捐赠(脱质子)或接受(质子)质子的倾向,是蛋白质或小分子的基本物理化学性质。例如,蛋白质中的pKa在许多生物过程中起着核心作用,包括酶促碱/酸催化[1]、跨膜质子耦合的阳离子运输[2]、肽聚集[3]以及蛋白质折叠[4]。大约30%的蛋白质残基具有可电离性[5]。大多数可电离残基分布在分子表面,对蛋白质的稳定性和溶解性至关重要[6]。而那些埋藏在催化口袋中的残基通常与功能相关,因此被确定为药物设计的目标[7]。最近的研究表明,近一半的蛋白质配体结合口袋包含直接接触小分子抑制剂的可电离基团[1];超过三分之二的药物含有可电离基团[8],这突显了将pKa信息整合到药物发现中的重要性[9]。
实验技术,通常是核磁共振(NMR),可以用于测量蛋白质的pKa值。然而,NMR实验通常耗时且成本较高。因此,相对便宜的“计算机模拟”(in silico)pKa预测已成为实验室实验不可或缺的补充。为了避免昂贵的量子计算,溶液中质子耦合的键能被近似为蛋白质中的键能。因此,只需考虑非键合的分子相互作用,其中静电作用力尤为重要。基于连续介质假设,可以使用泊松-玻尔兹曼(Possion-Boltzmann, PB)方程来计算蛋白质中可电离侧链的pKa值[10]。基于知识的经验公式PropKa的发展显著加速了pKa的计算[11]。最近,提出了一种基于量子计算机的方案,可以在1秒内采样统计上占主导地位的质子化状态,从而无需传统的穷举搜索即可得到pKa估计值,尽管目前还缺乏严格的准确性基准[12]。为了考虑构象与质子化状态之间的耦合,提出了基于分子动力学(MD)的方案,包括自由能计算[13,14]和恒pH值MD(CpHMD)模拟[15,16]。通常,使用PropKa可以在几秒钟内获得蛋白质的pKa值,而基于PB的方案则需要几分钟到几小时。基于MD的方法可以提高准确性,但MD模拟通常需要几小时到几天的时间[17]。最近,基于AI的方法的出现可能为计算成本和准确性之间提供了平衡。
另一方面,类似药物的中小分子的化学空间估计约为10^60[8],而实验可获得的pKa值仅达到一万左右[18]。为了填补这一差距,也需要“计算机模拟”pKa预测。与蛋白质不同,量子力学(QM)适用于小分子,从而产生了基于物理的pKa计算器[19]。然而,QM计算速度较慢,且在估算溶剂化能时可能会降低整体准确性。作为替代方案,提出了基于经验的方法,包括线性自由能关系(LFER)[20]和定量结构-性质关系(QSPR)模型[21]。需要注意的是,LFER方案高度依赖于母体化合物的pKa值,因此可能缺乏通用性。同样,基于AI的QSPR方法最终可能会解决基于QM和LFER框架的局限性。
在本文中,我们分别介绍了蛋白质和小分子基于AI的pKa预测的新进展。如图1所示,蛋白质的输入选项包括三维(3D)结构和一维(1D)序列,而小分子则只需一个一维文本输入(通常是SMILES字符串)。如果需要3D结构进行能量计算,可以将1D SMILES文本转换为二维(2D)化学结构,然后通过结构优化生成3D结构。接下来对输入分子进行特征提取,描述其空间、拓扑(图)和物理/化学环境。特征提取后,利用AI架构进行模型训练,最终预测微观(Micro)、宏观(Macro)甚至超微观(supra)的pKa值。
部分摘录
基于AI的蛋白质pKa预测
受Pafnucy的启发,这是一个用于预测蛋白质-配体结合亲和力的深度学习框架[21],我们开发了DeepKa[22],这是第一个基于结构的AI蛋白质pKa预测模型。具体来说,在3D卷积神经网络(CNN)框架下,DeepKa使用从GPU加速的GBNeck2-CpHMD模拟[23,24]获得的PHMD279中的pKa值进行训练和验证,并随后与PKAD数据库中的EXP67S子集的实验pKa数据进行了对比评估
基于AI的小分子pKa预测
吴等人系统地回顾了2023年之前发表的用于小分子pKa预测的AI方法[18]。本文介绍了2023年以来的新进展(表3)。吴等人指出了该领域的挑战,如数据稀缺性、环境因素的复杂性以及模型解释问题,这些将在下文中详细讨论。
蛋白质的模型和数据正在并行发展,而小分子的进展主要是由模型驱动的,尽管在数量上有所不同
pKa预测中的挑战
准确预测pKa对于蛋白质和小分子来说仍然是一个未解决的挑战。首先,基础数据稀缺问题仍然存在。例如,目前只有1024个唯一残基的实验测量pKa值可用于机器学习[34]。因此,四种最丰富的可电离残基类型(Asp、Glu、His和Lys)的pKa值都少于256个。更糟糕的是,对于训练和基准测试至关重要的显著pKa变化非常罕见
结论
在本文中,我们回顾了基于AI的蛋白质和小分子pKa预测器。我们将蛋白质pKa预测方法分为基于结构和基于序列的方法。同样,小分子pKa预测器也被分为单一模型和集成模型。总的来说,我们确定了三个可能指导未来发展的共同挑战。首先,对于蛋白质而言,模型进步在很大程度上仍然受到实验数据的限制
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系,这些可能会影响本文报道的工作。
致谢
本工作部分得到了中国福建省自然科学基金(2023J01329)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号