《ACS Omega》:Machine Learning Methods for Protein–Protein Interaction Prediction Based on Noncovalent Interactions
编辑推荐:
这篇综述系统评述了利用机器学习(ML)预测蛋白质-蛋白质相互作用(PPI)的最新进展。文章聚焦于非共价相互作用(如氢键、疏水作用等)作为核心特征,阐述了从特征提取、模型构建(如ETsO、随机森林)、集成优化(Stacking/Voting)到特征重要性分析(SHAP)的全流程,为理解蛋白质识别机制和药物设计提供了新工具与见解。
引言
蛋白质-蛋白质相互作用(PPI)是信号传导、代谢调控、基因表达和细胞稳态等多种生命过程的基石,其功能网络构成了维持生命正常运转的基础。PPI的紊乱通常会导致不同程度的疾病,因此,探究这一复杂网络的运作机制对于理解细胞过程至关重要,并为解析疾病发病机制提供了分子基础。这进一步凸显了在基础生物学研究和治疗性药物发现中,准确识别PPI的极端重要性。
然而,尽管PPI在生物系统中作用关键,其实验鉴定方法,如酵母双杂交、免疫共沉淀和表面等离子体共振等,依然费力、耗时且成本高昂,尤其在大规模筛选庞大的蛋白质文库时。这些传统方法存在明显的局限性,包括高假阳性率、无法捕获瞬时相互作用以及对纯化蛋白质的大量需求。同样,传统的计算方法,如分子对接和分子动力学模拟,尽管被广泛采用,但也常常受限于其对力场的严重依赖,并且在表示非共价相互作用方面存在局限,这可能导致不准确的PPI预测。此外,它们的缺点,如预测不准确、计算资源消耗巨大以及需要专业知识,也限制了其应用。因此,迫切需要更高效、准确且经济实惠的PPI预测方法来适应生物学发现和药物开发的加速步伐。
机器学习的出现通过利用数据驱动识别来揭示生物数据集内复杂、非线性的模式,为解决这一困境提供了有前景的替代方案。相比传统计算方法,机器学习方法在处理大规模、异质和高维生物数据方面展现出卓越能力,从而提高了预测精度并增强了可解释性。目前,用于PPI评估的ML方法根据数据来源可分为三类,包括基于序列、基于结构和混合方法,例如SMMPPI、Struct2Net、InterPred、PRODIGY、TAGPPI等。尽管这些预测工具很少探索非共价相互作用数据,但ML方法仍为建模非共价相互作用提供了机会,而非共价相互作用从根本上决定了PPI的稳定性。
非共价相互作用,例如氢键、疏水作用、静电力以及芳香-芳香相互作用,是决定蛋白质-蛋白质结合亲和力和特异性的主要因素。这些相互作用共同促进了蛋白质复合物的稳定性,对于理解蛋白质识别的分子基础至关重要,并可指导药物的设计。在本研究中,我们提出了一种基于ML的综合方法,利用来自44848个相互作用蛋白质对的非共价相互作用数据来预测PPI。通过对多种ML算法进行系统比较、超参数优化和集成学习策略,我们最终开发了12个高性能模型,这些模型能够有效区分相互作用与非相互作用的蛋白质对。此外,该研究还基于特征重要性分析为模型提供了合理的可解释性。
材料与方法
- •
数据集收集、生成和处理
从RCSB-PDB数据库收集了总计44848个蛋白质-蛋白质相互作用复合物的pdb文件。为了生成一组稳健的负样本,使用Zdock(刚性对接)将复合物中的蛋白质与其天然结合界面远端区域进行对接。在此过程中,应用了Rosetta PackRotamers的侧链重新包装策略来消除类天然接触偏差。之后,使用ProtInter评估所有pdb文件的数据,并根据用户手册生成一系列非共价相互作用描述符,包括疏水相互作用、二硫键、离子相互作用、芳香-芳香相互作用、芳香-硫相互作用、阳离子-π相互作用、主链-主链氢键相互作用、主链-侧链氢键相互作用和侧链-侧链氢键相互作用。对于每种非共价相互作用,计算了两个蛋白质相互作用区域内的八个参数。然后,删除值为“0”占比达到75%的列和行。最终,获得了一个包含38542个亲和样本和24627个非亲和样本的数据集。所有获得的数据按8:2的比例分割为训练集和测试集,并进一步进行了缩放和中心化处理,用于ML算法筛选。为了捕获特征间的潜在相互作用,为训练集和测试集生成了多项式特征。此外,由于数据不平衡,对训练集进一步采用了SMOTE采样策略。之后,带有多项式特征的数据集被用于模型优化。
- •
不同ML算法的比较
使用LazyPredict评估了25种流行的分类ML算法的性能,未进行任何参数调整。这些算法包括自适应提升分类器、袋装分类器、伯努利朴素贝叶斯、校准分类器、决策树、虚拟分类器、极端随机树、极端随机树、高斯朴素贝叶斯、K最近邻、标签传播、标签扩散、轻量梯度提升树、线性判别分析、线性支持向量、逻辑回归、最近质心分类器、Nu-支持向量分类、被动攻击分类器、感知器、二次判别分析、随机森林、岭回归、内置交叉验证的岭回归分类器、随机梯度下降和支持向量分类器。在此过程中,计算了准确度、平衡准确度、受试者工作特征曲线下面积值和F1分数来评估这些预训练模型的优劣。表现满意的模型基于它们在测试数据集上的预测概率进行相关性分析。只有那些相关系数低于0.75的模型被保留用于后续的超参数优化和模型重建阶段。
- •
模型优化与堆叠
对选定的模型进行重建,并对每种算法进行超参数优化,建模过程基于sklearn提供的随机搜索方法。在优化过程中,采用了10折交叉验证策略来避免过拟合问题。计算并比较了准确度、AUC_ROC和F1分数以获得最佳的超参数和算法组合。然后,训练集基于每个优化后的模型进行了特征选择过程。使用FS后的训练集,利用从优化过程中获得的最佳超参数重建模型。最后,所有经过特征选择的最佳模型通过使用StackingClassifier和VotingClassifier进行集成。
- •
模型在测试集上的性能
然后,在测试集上进一步验证所有模型。通过真阳性、假阳性、真阴性和假阴性的比率计算了性能指标,包括准确度、灵敏度、特异性、精确度、F1分数和马修斯相关系数。为了进一步评估模型性能,还基于每个模型的灵敏度、特异性和精确度计算了受试者工作特征曲线下面积和精确度-召回率曲线下面积。
- •
特征重要性分析
这些特征的重要性可以揭示这些非共价相互作用在蛋白质与其结合伴侣之间发挥了多大作用。评估了特征的SHAP分析,以衡量每个特征对模型预测的贡献。
结果与讨论
随着PPI数据的指数级增长,能够高效处理海量数据的ML方法对于预测PPI(蛋白质功能的基础)变得日益不可或缺。非共价相互作用决定了蛋白质-蛋白质相互作用的特异性和亲和力,并进一步在蛋白质复合物的形成和稳定中扮演重要角色。因此,研究非共价相互作用数据与PPI之间的潜在关系将指导治疗性蛋白质的设计,并推动许多生物学过程的研究。在当前研究中,使用了26种不同的ML算法来学习来自44848个蛋白质复合物的非共价相互作用数据的潜在模式。
- •
数据集处理
数据处理表明,与HI和AAI相关的特征显示出极端的稀疏性,有75%的零值,这可能源于ProtInter中严格的识别阈值。数据分割后,50535个案例被分配到训练集,12634个案例被分配到测试集。在生成多项式特征和SMOTE处理后,获得了一组新的训练集和测试集,分别用于后续的模型优化。
- •
不同算法的性能比较
最初使用训练集和测试集通过LazyPredict构建了26个基础模型,以快速评估模型性能。如表1所示,有8个模型表现出满意的性能。为了评估HI和AAI相关特征的贡献,使用LazyPredict比较了包含与不包含这些特征的模型性能。结果显示,使用或不使用这些特征构建的模型在准确度、AUC-ROC和F1分数上的差异可以忽略不计,这意味着剩余的特征足以捕获用于区分PPI的信息。然后,使用不包含HI和AAI相关特征的数据集进行后续的ML算法比较。在8个最佳模型中,6个基于树的算法表现出显著优势,表明这些方法,特别是集成方法,特别适合捕获PPI背后复杂的非线性关系。
模型相关性分析表明,ETs、RF、Bag和LGBM的内部系数高于0.800,LS和LP为1,DT与其他模型的系数低于0.752,ET与其他模型的系数低于0.716。然后,在去除高相关模型后,选择ETs、ET、DT并分别重命名为ETsO、ETO和DTO用于后续的优化过程。有趣的是,尽管ETs和ET共享相同的基础算法,但在本研究中,这两种算法的预测行为可能存在根本性差异。
- •
模型优化与堆叠模型构建
然后,基于TrnP,使用特定的超参数设置对选定的模型进行优化。如表2所示,在最佳超参数下,ETsO在所有指标上持续优于ETO和DTO,表明其在区分相互作用与非相互作用蛋白质对方面具有稳健的能力,这进一步证实了集成算法在PPI预测中的优势。
基于优化后的模型,使用SelectFromModel函数进行FS处理,最终分别为ETsO、ETO和DTO选择了487、375和415个特征。然后,基于FS后的三个数据集,使用表2中的优化超参数设置重建了三个模型,随后使用StackingClassifier和VotingClassifier将它们集成为六个元学习模型。
- •
模型在测试集上的性能
然后,在相应的测试集上评估了优化步骤后的所有模型,以分析模型在未知数据上的泛化能力。如表3所示,除了元学习模型,基于ETs的模型在所有指标上表现出可比的性能,并且两者都优于基于ET和DT的模型,进一步证实了复杂集成算法可以通过聚合在有限特征内捕获更细微的模式。FS后,ETsO_FS和ETO_FS的整体性能与其FS前的对应模型相比略有下滑,表明被剔除的特征对预测性能贡献极小,并且这些模型已经捕获了绝大多数有用信息。有趣的是,只有DTO_FS在性能上表现出轻微提升,这可能是因为在FS过程中过滤掉了一些噪声。在元学习模型中,所有堆叠模型的性能都优于其他三个投票模型,而投票模型在所有指标上相对较低的性能可能源于投票算法的等权重稀释效应。SM_et487的性能明显差于SM_se375和SM_dt415。SM_dt415的整体性能优于SM_se375,仅在特异性上略逊一筹。此外,AUC_ROC和AUC_PRC的值也表明,集成模型和元学习模型在模型预测稳健性和处理不平衡数据方面表现出优于其他模型的性能。在所有架构中,SM_dt415达到了峰值性能,AUC-ROC为0.969,AUC-PRC为0.974,略微超过了SM_se375和全特征ETsO。
模型的不同性能可归因于其固有的算法结构及其与蛋白质特征空间的交互深度。与其他模型相比,ETsO及其相关堆叠模型具有更优的泛化能力和更稳健的预测性能,它通过聚合多个随机化的树来减轻处理高维数据集时的过拟合问题。然而,单棵树模型在高维PPI数据集中容易过拟合,因为它们贪婪地搜索最优分割,常常将噪声当作信号。像随机森林、朴素贝叶斯和支持向量机这样的流行模型在处理复杂的蛋白质界面模式时常常表现不佳,但本研究中获得的模型通过使用非共价相互作用特征,在这些指标上实现了更好的性能,这可能得益于本研究中使用的更大数据集和多项式特征策略。尽管FS本质上降低了维度和原始信息含量,导致FS后基础模型的性能略有下降,但元学习模型成功地提取了高阶交互模式,在使用更简洁特征集的同时恢复了性能水平。
- •
特征与特征重要性
基于之前的结果,经过特征选择的模型与三个原始模型相比,性能变化不大,这意味着经过特征选择的数据包含了每个模型能够有效识别蛋白质-蛋白质相互作用的核心数据模式。因此,为了理解这些ML算法之间的FS行为,对FS后的三个数据集进行了特征叠加分析。dafE、dafS和dafD保留了各自数量的独特特征,并且只有75个特征是三个模型共同共享的,这表明特征使用行为和特征评估策略存在显著差异,这也对应于这些模型之间的低相关性。成对比较显示,两个额外的基于树的数据集共享177个共同特征;dafE和dafD共享175个特征,而dafS和dafD的重叠度最低,只有123个共同特征。然而,FS前后模型性能的微小变化意味着,FS在简化数据的同时并未造成数据中潜在有用信息的显著丢失。此外,ETsO_FS明显更高的性能表明,该算法能够比FS后的其他两个模型更有效地利用其独特特征。
对所有三个FS后模型的SHAP分析表明,在前20个最重要的特征中,几乎都是多项式特征,只有ETsO_FS观察到一个原始特征,这表明多种相互作用类型的组合模式,而非单个相互作用类型,构成了蛋白质-蛋白质界面的判别特征。然而,这三个模型表现出明显不同的特征重要性模式。ETsO_FS、ETO和DTO_FS最重要的特征分别是IOI_count × ASI_mean、ASI_min × HBMM_50和DB_25 × CPI_min。进一步分析这20个最重要特征中相互作用的频率,揭示了模型间不同的特征偏好。ETsO_FS主要关注与HB、ASI和CPI相关的特征,而与HB、ASI和DB相关的特征对ETO_FS的性能有显著贡献。相比之下,DTO_FS强调使用与DB、ASI和HB相关的特征。这些结果表明,所有模型都强调了氢键和ASI相关特征的重要性。事实上,氢键不仅是PPI稳定性的关键因素,还与蛋白质之间的结构互补性有关,而ASI在蛋白质折叠和稳定中扮演重要角色,芳香堆积已被认为是蛋白质-蛋白质界面的关键组成部分之一。此外,一个包含ASI_min和HBMM_50的多项式特征是ETO最重要的特征,这证实了这两个因素的重要作用。然而,其他特征的应用模式在这些模型之间有所不同。作为PPI中另一个关键的非共价相互作用,CPI在稳定蛋白质复合物方面与HB表现出协同效应。这种协同效应的重要性也通过ETsO_FS前20个重要特征中7个CPI × HB多项式特征得到强调,而ETO_FS和DTO_FS对此类特征的较低重要性,表明对这些特征的利用率较低,可能是其模型性能低于ETsO_FS的原因。IOI代表了蛋白质与其结合伴侣之间的静电互补性,有助于结合的特异性和亲和力。然而,在本研究中,IOI相关特征的数量在这些FS后模型的前20个特征中少于6个,这需要在未来的工作中进行深入的特征数据分析和工程,以提取更有用的信息来提高模型性能。作为一种共价相互作用,DB虽然在PPI中较少见,但在特定PPI中,如蛋白质二聚化,有助于稳定性。然而,DB相关特征在ETO_FS和DTO_FS的前20个重要特征中占有一定比例,而在集成过程中,这些特征被稀释,导致利用率降低。合理的解释是,通过使用不参与界面的链生成的NAS数据,在DB相关特征上表现出与AS数据的明显差异,这两个模型更好地利用了这些特征。SHAP分析表明,合理优化非共价相互作用网络,特别是在HB和ASI方面,可能会增强蛋白质-蛋白质结合亲和力。在ETsO_FS中,对于顶部特征,具有高特征值的大多数样本点主要聚集在正SHAP值区域。ETO_FS的特征显示出高特征值和低特征值点的混合趋势,前两个特征显示出负相关模式,在DTO_FS中也观察到了相同的现象。此外,SHAP值尺度在模型之间存在显著差异,这表明ETsO_FS较窄的SHAP范围源于多棵树间的预测聚合,这平均化了特征影响并提高了稳健性,而ETO_FS和DTO_FS较宽的范围反映了这些模型的高特征杠杆和可解释性,但也更容易受到输入扰动的影响。
尽管结构数据的不断扩展推动了基于序列特征或结构嵌入的深度学习模型的成功,但这些“黑箱”模型无法很好地处理非共价相互作用,常常缺乏可解释性并且需要密集计算,这使得高通量分析在实际中不可行。然而,专注于非共价相互作用、无需额外配体或蛋白质信息的描述符最适合于无偏学习,但基于这些相互作用的模型尽管在PPI中起着至关重要的作用,但报道仍然很少。我们的ML方法通过利用非共价描述符来解决这一空白,使得能够对DL方法中常常被掩盖的特定相互作用进行细粒度量化,这也可以提供对结合界面的直接生物物理学解释,同时在处理速度上获得优势。
结论
实验确定的蛋白质结构数据的不断扩展推动了众多用于PPI预测的机器学习和深度学习方法的开发。然而,现有方法主要关注序列衍生特征或复杂的结构嵌入,而基于非共价相互作用的模型仍然稀缺。在当前研究中,最终构建了3个模型。然后,使用FS后的数据集,构建了3个特征简化模型和6个集成模型。尽管ETsO表现最佳,但ETsO_FS和三个堆叠模型在少量特征下可比的性能可以使预测更有效。此外,SHAP分析证实,PPI识别本质上依赖于多种分子相互作用的协同效应,而非单个相互作用单独作用的结果。然而,缺乏HI和AAI相关特征使得本研究构建的模型仍有很大的改进空间。简而言之,当前研究不仅提供了基于非共价相互作用的相互作用中心框架模型,还为理解生物分子识别机制提供了一个可解释的视角。