蛋白质通常与其他配体结合,在生物体内执行基本的生物功能。如何确定蛋白质-配体复合物的结合亲和力是现代基于结构的药物发现中的核心问题(Dhakal, McKay, Tanner, Cheng, 2022; Graber, Stockinger, Meyer, Mishra, Horn, Buller, 2025)。虽然可以使用实验方法来测量结合亲和力,但这些方法耗时且不适合高通量任务(Kairys, Baranauskiene, Kazlauskiene, Matulis, & Kazlauskas, 2019)。作为一类计算方法,评分函数(SFs)已被开发出来用于评估蛋白质-配体相互作用。SFs是为一个或多个应用开发的(Harren, Gutermuth, Grebner, Hessler, Rarey, 2024; Song, Tang, Song, Qu, Chen, 2024),包括结合亲和力预测、候选配体排名、构象预测和虚拟筛选。因此,使用四个标准来评估SFs的性能:评分能力、排名能力、对接能力和筛选能力(Su et al., 2019)。尽管经过数十年的不懈努力,在基于结构的药物发现中开发可靠的SFs仍然具有挑战性(Jin, Wu, Chen, Pan, Wang, Xie, Quan, Lyu, 2023; Volkov, Turk, Drizard, Martin, Hoffmann, Gaston-Mathé, Rognan, 2022; Zhu, Zheng, Qi, Gong, Li, Mazur, Cong, Gao, 2024)。
文献中已经开发了许多SFs(Dhakal et al., 2022)。它们可以分为两大类:经典SFs和基于ML的SFs(Shen et al., 2021)。前者使用加性功能形式来表示结合亲和力与特征项之间的关系。根据其工作原理,经典SFs可以进一步分为三类:基于力场的SFs、经验性的SFs和基于知识的SFs(Liu & Wang, 2015)。然而,在经典SFs中使用加性功能形式的有效性是有争议的(Ain, Aleksandrova, Roessler, Ballester, 2015; Shen, Ding, Wang, Cao, Ding, Hou, 2020)。一种有前景的替代方法是使用非线性ML模型作为功能形式。最近已经证明了基于ML的SFs的成功(Harren, Gutermuth, Grebner, Hessler, Rarey, 2024; Shen, Ding, Wang, Cao, Ding, Hou, 2020),并且利用ML技术提高SFs的性能仍然是一个活跃的研究课题(Chen, Song, Song, Song, Ji, 2025; Tran-Nguyen, Junaid, Simeon, Ballester, 2023; Yang, Zhong, Lv, Dong, Chen, Chen, 2024)。
基于ML的SF的性能高度依赖于三个关键因素(Boyles, Deane, Morris, 2020; Shen, Zhang, Hsieh, Deng, Wang, Xu, Wu, Li, Kang, Hou, et al., 2023):使用的蛋白质-配体复合物结构数据集、特征表示以及所采用的ML模型。构建适当的训练和测试数据集对于开发基于ML的SF是有益的。已经提出了许多具有不同目的的手动策划的数据集用于开发SFs(Dhakal et al., 2022)。例如,PDBbind是用于对接和评分任务的最广泛使用的数据集(Liu et al., 2017)。DUD是一个专门用于虚拟筛选中开发SFs的数据集(Huang, Shoichet, & Irwin, 2006)。CASF-2016旨在评估SFs在各种任务中的性能,包括对接、筛选、排名和评分(Su et al., 2019)。另一方面,使用有效的特征表示输入到基于ML的SFs中也非常重要。常用的特征表示方法包括经典SF术语(Lu, Hou, Wang, & Zhang, 2019)、原子类型相互作用计数(Ballester & Mitchell, 2010)、物理化学特征(Jiménez, Skalic, Martinez-Rosell, & De Fabritiis, 2018)和指纹(Kumar & Kim, 2021)。此外,针对基于深度学习的SFs,还有专门的特征表示方法,包括体素化表示(Stepniewska-Dziubinska, Zielenkiewicz, & Siedlecki, 2018)和图表示(Yang et al., 2024)。一般来说,适当的特征表示应包含足够的 информация来表征蛋白质-配体相互作用。每种特征表示方法都有其优缺点。
尽管ML技术已广泛应用于许多实际问题并取得了巨大成功(Jumper, Evans, Pritzel, Green, Figurnov, Ronneberger, Tunyasuvunakool, Bates, ?ídek, Potapenko, et al., 2021; Yu, Zeng, Liu, Wang, Liu, 2025),但研究人员在对这些技术在敏感领域的应用仍持谨慎态度(Ali, Abuhmed, El-Sappagh, Muhammad, Alonso-Moral, Confalonieri, Guidotti, Del Ser, Díaz-Rodríguez, Herrera, 2023; Sun, Akman, Schuller, 2025; Yu, Lei, Song, Liu, Wang, 2020)。大多数ML模型能够做出准确的预测,但这些模型的内部工作机制难以理解。可解释的人工智能研究旨在为这些“黑箱”ML模型提供解释。已经提出了许多解释方法(Burkart & Huber, 2021),它们可以分为模型特定方法和模型不可知方法(Ding, Abdel-Basset, Hawash, & Ali, 2022)。模型特定解释方法只能应用于特定类别的ML模型,因为它们依赖于这些模型的内部工作机制。相比之下,模型不可知方法可以用来解释各种ML模型,因为它们主要依赖于模型的输入和输出。解释方法也可以大致分为局部解释方法和全局解释方法(Jurgita & Kaba?inskas, 2024)。前者专注于解释一些有趣的个别实例,而后者则致力于解释ML模型的整体行为。近年来,解释方法SHAP在某种程度上已成为行业标准(Lundberg, Erion, Chen, DeGrave, Prutkin, Nair, Katz, Himmelfarb, Bansal, Lee, 2020; Lundberg, Lee, 2017)。它是模型不可知的,并且可以提供局部和全局解释。
由于ML技术的强大能力,几乎所有类型的ML模型都被用于开发SFs。所采用的经典ML模型包括随机森林(RF)(Li, Leung, Wong, & Ballester, 2016)、支持向量机(Xu & Meroueh, 2016)和GBDT(Lu et al., 2019)。此外,基于深度神经网络的SFs也取得了显著的成功(Jiménez, Skalic, Martinez-Rosell, De Fabritiis, 2018; Stepniewska-Dziubinska, Zielenkiewicz, Siedlecki, 2018; Yang, Zhong, Lv, Dong, Chen, Chen, 2024)。然而,只有少数基于ML的SFs能够提供解释(Chen, Song, Song, Song, Ji, 2025; Meli, Anighoro, Bodkin, Morris, Biggin, 2021; Scantlebury, Vost, Carbery, Hadfield, Turnbull, Brown, Chenthamarakshan, Das, Grosjean, Von Delft, et al., 2023)。大多数基于ML的SFs被认为不可解释,主要有两个原因。首先,特征表示不具备人类可解释性。在某些情况下,输入特征的数量非常多。其次,所采用的ML模型天然作为“黑箱”运行,这些集成ML模型不提供额外的解释。实际上,对于基于ML的SFs的解释可以帮助用户理解潜在的结构-活性关系(Harren, Matter, Hessler, Rarey, & Grebner, 2022)。这种更深入的理解可以促进先导优化过程。
正如先前的研究(Harren, Gutermuth, Grebner, Hessler, Rarey, 2024; Shen, Ding, Wang, Cao, Ding, Hou, 2020)所建议的,新提出的基于ML的SF应附带解释。这激励我们开发一种可解释的基于ML的SF。在这项研究中,我们提出了一种基于GBDT的SF,称为XBTScore,用于预测蛋白质-配体结合亲和力。为了使这种基于ML的SF具有可解释性,我们使用了72个人类可解释的特征作为输入特征。此外,我们使用SHAP为这种SF提供解释。这项研究的贡献有三个方面。首先,提出了一种有效的基于GBDT的SF用于蛋白质-配体结合亲和力预测,实验证明了其优越性。其次,特征表示被认为是可解释的。使用了72个人类可解释的特征来捕捉焓效应和熵效应。第三,为所提出的SF提供了局部和全局解释,以便进行更深入的分析。
本文的其余部分组织如下。第2节介绍了本研究的初步内容。第3节详细介绍了所提出的方法。第4节介绍了用于评估所提出方法的实验研究。第5节进行了讨论。最后,第6节提出了本研究的结论。