一种基于可解释机器学习的评分函数,该函数使用可解释的特征和模型解释方法来预测结合亲和力

【字体: 时间:2026年03月11日 来源:Expert Systems with Applications 7.5

编辑推荐:

  可解释的机器学习评分函数XBTScore通过整合72个人工可解释特征和SHAP解释方法,在CASF-2016数据集上实现0.804的Pearson相关系数,显著提升蛋白质-配体结合亲和力预测的可解释性与预测性能。

  
陈行倩|宋双宝|季俊凯|宋双宇|周欣|张浩
江苏工业大学计算机工程学院,常州,213001,中国

摘要

尽管基于机器学习(ML)的评分函数(SFs)在基于结构的药物发现中取得了巨大成功,但大多数这类函数作为“黑箱”运行,缺乏可解释性。由于可解释的基于ML的SFs能够建立用户信任并揭示潜在的结构-活性关系,因此越来越需要开发带有解释性的基于ML的SFs。在这项研究中,我们提出了一种基于梯度提升决策树(GBDT)的SF,称为XBTScore,用于预测蛋白质-配体结合亲和力。为了提高这种基于ML的SF的可解释性,我们关注了两个主要方面。首先,我们使用了72个人类可解释的特征作为输入特征,旨在捕捉蛋白质-配体相互作用中的焓效应和熵效应。其次,我们使用SHAP为整合的GBDT模型提供解释。实验结果表明,与现有的SFs相比,所提出的SF具有竞争性的评分能力。在CASF-2016基准数据集上,XBTScore的皮尔逊相关系数为0.804。此外,我们还分析了模型的预测性能及其全局和局部解释。结果表明,在开发基于ML的SFs时,应同时考虑预测准确性和可解释性。XBTScore是一种新型的基于ML的SF,能够实现高准确度的蛋白质-配体结合亲和力预测。

引言

蛋白质通常与其他配体结合,在生物体内执行基本的生物功能。如何确定蛋白质-配体复合物的结合亲和力是现代基于结构的药物发现中的核心问题(Dhakal, McKay, Tanner, Cheng, 2022; Graber, Stockinger, Meyer, Mishra, Horn, Buller, 2025)。虽然可以使用实验方法来测量结合亲和力,但这些方法耗时且不适合高通量任务(Kairys, Baranauskiene, Kazlauskiene, Matulis, & Kazlauskas, 2019)。作为一类计算方法,评分函数(SFs)已被开发出来用于评估蛋白质-配体相互作用。SFs是为一个或多个应用开发的(Harren, Gutermuth, Grebner, Hessler, Rarey, 2024; Song, Tang, Song, Qu, Chen, 2024),包括结合亲和力预测、候选配体排名、构象预测和虚拟筛选。因此,使用四个标准来评估SFs的性能:评分能力、排名能力、对接能力和筛选能力(Su et al., 2019)。尽管经过数十年的不懈努力,在基于结构的药物发现中开发可靠的SFs仍然具有挑战性(Jin, Wu, Chen, Pan, Wang, Xie, Quan, Lyu, 2023; Volkov, Turk, Drizard, Martin, Hoffmann, Gaston-Mathé, Rognan, 2022; Zhu, Zheng, Qi, Gong, Li, Mazur, Cong, Gao, 2024)。
文献中已经开发了许多SFs(Dhakal et al., 2022)。它们可以分为两大类:经典SFs和基于ML的SFs(Shen et al., 2021)。前者使用加性功能形式来表示结合亲和力与特征项之间的关系。根据其工作原理,经典SFs可以进一步分为三类:基于力场的SFs、经验性的SFs和基于知识的SFs(Liu & Wang, 2015)。然而,在经典SFs中使用加性功能形式的有效性是有争议的(Ain, Aleksandrova, Roessler, Ballester, 2015; Shen, Ding, Wang, Cao, Ding, Hou, 2020)。一种有前景的替代方法是使用非线性ML模型作为功能形式。最近已经证明了基于ML的SFs的成功(Harren, Gutermuth, Grebner, Hessler, Rarey, 2024; Shen, Ding, Wang, Cao, Ding, Hou, 2020),并且利用ML技术提高SFs的性能仍然是一个活跃的研究课题(Chen, Song, Song, Song, Ji, 2025; Tran-Nguyen, Junaid, Simeon, Ballester, 2023; Yang, Zhong, Lv, Dong, Chen, Chen, 2024)。
基于ML的SF的性能高度依赖于三个关键因素(Boyles, Deane, Morris, 2020; Shen, Zhang, Hsieh, Deng, Wang, Xu, Wu, Li, Kang, Hou, et al., 2023):使用的蛋白质-配体复合物结构数据集、特征表示以及所采用的ML模型。构建适当的训练和测试数据集对于开发基于ML的SF是有益的。已经提出了许多具有不同目的的手动策划的数据集用于开发SFs(Dhakal et al., 2022)。例如,PDBbind是用于对接和评分任务的最广泛使用的数据集(Liu et al., 2017)。DUD是一个专门用于虚拟筛选中开发SFs的数据集(Huang, Shoichet, & Irwin, 2006)。CASF-2016旨在评估SFs在各种任务中的性能,包括对接、筛选、排名和评分(Su et al., 2019)。另一方面,使用有效的特征表示输入到基于ML的SFs中也非常重要。常用的特征表示方法包括经典SF术语(Lu, Hou, Wang, & Zhang, 2019)、原子类型相互作用计数(Ballester & Mitchell, 2010)、物理化学特征(Jiménez, Skalic, Martinez-Rosell, & De Fabritiis, 2018)和指纹(Kumar & Kim, 2021)。此外,针对基于深度学习的SFs,还有专门的特征表示方法,包括体素化表示(Stepniewska-Dziubinska, Zielenkiewicz, & Siedlecki, 2018)和图表示(Yang et al., 2024)。一般来说,适当的特征表示应包含足够的 информация来表征蛋白质-配体相互作用。每种特征表示方法都有其优缺点。
尽管ML技术已广泛应用于许多实际问题并取得了巨大成功(Jumper, Evans, Pritzel, Green, Figurnov, Ronneberger, Tunyasuvunakool, Bates, ?ídek, Potapenko, et al., 2021; Yu, Zeng, Liu, Wang, Liu, 2025),但研究人员在对这些技术在敏感领域的应用仍持谨慎态度(Ali, Abuhmed, El-Sappagh, Muhammad, Alonso-Moral, Confalonieri, Guidotti, Del Ser, Díaz-Rodríguez, Herrera, 2023; Sun, Akman, Schuller, 2025; Yu, Lei, Song, Liu, Wang, 2020)。大多数ML模型能够做出准确的预测,但这些模型的内部工作机制难以理解。可解释的人工智能研究旨在为这些“黑箱”ML模型提供解释。已经提出了许多解释方法(Burkart & Huber, 2021),它们可以分为模型特定方法和模型不可知方法(Ding, Abdel-Basset, Hawash, & Ali, 2022)。模型特定解释方法只能应用于特定类别的ML模型,因为它们依赖于这些模型的内部工作机制。相比之下,模型不可知方法可以用来解释各种ML模型,因为它们主要依赖于模型的输入和输出。解释方法也可以大致分为局部解释方法和全局解释方法(Jurgita & Kaba?inskas, 2024)。前者专注于解释一些有趣的个别实例,而后者则致力于解释ML模型的整体行为。近年来,解释方法SHAP在某种程度上已成为行业标准(Lundberg, Erion, Chen, DeGrave, Prutkin, Nair, Katz, Himmelfarb, Bansal, Lee, 2020; Lundberg, Lee, 2017)。它是模型不可知的,并且可以提供局部和全局解释。
由于ML技术的强大能力,几乎所有类型的ML模型都被用于开发SFs。所采用的经典ML模型包括随机森林(RF)(Li, Leung, Wong, & Ballester, 2016)、支持向量机(Xu & Meroueh, 2016)和GBDT(Lu et al., 2019)。此外,基于深度神经网络的SFs也取得了显著的成功(Jiménez, Skalic, Martinez-Rosell, De Fabritiis, 2018; Stepniewska-Dziubinska, Zielenkiewicz, Siedlecki, 2018; Yang, Zhong, Lv, Dong, Chen, Chen, 2024)。然而,只有少数基于ML的SFs能够提供解释(Chen, Song, Song, Song, Ji, 2025; Meli, Anighoro, Bodkin, Morris, Biggin, 2021; Scantlebury, Vost, Carbery, Hadfield, Turnbull, Brown, Chenthamarakshan, Das, Grosjean, Von Delft, et al., 2023)。大多数基于ML的SFs被认为不可解释,主要有两个原因。首先,特征表示不具备人类可解释性。在某些情况下,输入特征的数量非常多。其次,所采用的ML模型天然作为“黑箱”运行,这些集成ML模型不提供额外的解释。实际上,对于基于ML的SFs的解释可以帮助用户理解潜在的结构-活性关系(Harren, Matter, Hessler, Rarey, & Grebner, 2022)。这种更深入的理解可以促进先导优化过程。
正如先前的研究(Harren, Gutermuth, Grebner, Hessler, Rarey, 2024; Shen, Ding, Wang, Cao, Ding, Hou, 2020)所建议的,新提出的基于ML的SF应附带解释。这激励我们开发一种可解释的基于ML的SF。在这项研究中,我们提出了一种基于GBDT的SF,称为XBTScore,用于预测蛋白质-配体结合亲和力。为了使这种基于ML的SF具有可解释性,我们使用了72个人类可解释的特征作为输入特征。此外,我们使用SHAP为这种SF提供解释。这项研究的贡献有三个方面。首先,提出了一种有效的基于GBDT的SF用于蛋白质-配体结合亲和力预测,实验证明了其优越性。其次,特征表示被认为是可解释的。使用了72个人类可解释的特征来捕捉焓效应和熵效应。第三,为所提出的SF提供了局部和全局解释,以便进行更深入的分析。
本文的其余部分组织如下。第2节介绍了本研究的初步内容。第3节详细介绍了所提出的方法。第4节介绍了用于评估所提出方法的实验研究。第5节进行了讨论。最后,第6节提出了本研究的结论。

章节摘录

初步介绍

本节介绍了本研究的初步内容。

方法

本节详细介绍了所提出的方法。本研究的目的是构建一个可解释的SF,我们在两个方面进行了努力。首先,我们使用人类可解释的特征作为基于ML的SF的输入。其次,尽管我们没有使用可解释的ML模型作为所提出的基于ML的SF的核心组件,但我们使用了一个强大的GBDT模型,并使用SHAP来解释这个模型。

实验研究

本节介绍了进行的实验研究和分析,以评估所提出方法的性能。

结合两种类型特征的必要性

为了证明结合RF-Score特征和VSA基础特征的必要性,我们进行了以下对照实验。构建了一系列基于CatBoost的基于ML的SFs,它们都具有相同的参数设置。然后在这些数据集上对它们进行了训练和测试。这些SFs之间的区别在于它们的输入特征。表4展示了这些SFs(分别标记为SF01, SF02,..., SF06)在CASF-2016上的评分能力。

结论

最近的研究表明,为基于ML的SF提供解释是必要的。在这项研究中,我们提出了一种名为XBTScore的基于ML的SF,用于预测蛋白质-配体结合亲和力。作为构建这种SF的ML模型,我们使用了强大的GBDT模型。为了使所提出的SF具有可解释性,我们使用了72个人类可解释的特征作为输入特征。选择这些特征是因为焓贡献和熵贡献应该同时被考虑

致谢

本工作得到了中国国家自然科学基金(项目编号62203069; 62476177)和江苏省自然科学基金(项目编号BK20220619)的支持。

CRediT作者声明

陈行倩:概念化、方法论、软件、写作 - 原始草案、数据管理、资源。宋双宝:概念化、方法论、软件、写作 - 审稿与编辑、项目管理、资金获取。季俊凯:方法论、写作 - 审稿与编辑、监督、资金获取。宋双宇:验证、形式分析、写作 - 审稿与编辑、可视化。周欣:形式分析、写作 - 审稿与编辑。张浩:形式分析,

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号