《Bioinformatics》:PLXFPred: Interpretable cross-attention networks with hierarchical fusion of multi-modal features for predicting protein-ligand interactions and affinities
编辑推荐:
本研究针对蛋白质-配体相互作用预测中精度不足、泛化能力差及可解释性弱等问题,开发了PLXFPred模型。该模型通过GATv2和BILSTM分别处理结构与序列特征,采用跨模态交叉注意力机制实现多模态特征层次融合,结合残差连接与条件域对抗学习提升泛化能力。实验表明,PLXFPred在CASF-2016/2013数据集上误差指标(RMSD、MAE、SD)降低超50%,且通过注意力权重可视化与SHAP分析提供生物学见解,为药物设计提供了高效可靠的计算工具。
在药物研发和结构生物学领域,准确预测蛋白质与配体之间的相互作用及其结合亲和力一直是科学家们追求的目标。传统的实验方法如分子动力学模拟、X射线晶体学和核磁共振虽然能够提供精确的结合信息,但耗时耗力且成本高昂,难以应对大规模药物筛选的需求。而计算模拟方法如分子 docking 虽提高了效率,却在准确性上有所欠缺。随着深度学习技术的发展,基于序列或结构的预测模型应运而生,但它们往往面临特征融合不充分、泛化能力弱以及预测结果难以解释等问题。
针对这些挑战,南京工业大学的研究团队在《Bioinformatics》上发表了题为"PLXFPred: Interpretable cross-attention networks with hierarchical fusion of multi-modal features for predicting protein-ligand interactions and affinities"的研究论文。该研究开发了一种创新性的多模态深度学习框架PLXFPred,仅从蛋白质氨基酸序列和配体SMILES序列出发,通过层次化特征融合和交叉注意力机制,实现了高精度、可解释的亲和力预测。
研究团队采用多模态融合策略,主要技术方法包括:(1)基于GATv2的图神经网络编码器提取蛋白质和配体的拓扑结构特征;(2)BILSTM和Transformer架构处理序列数据获取全局上下文信息;(3)跨模态交叉注意力机制实现图特征与序列特征的双向交互;(4)多层次融合模块整合原始特征、早期融合特征和交叉融合特征;(5)条件域对抗学习增强模型对未见蛋白-配体对的泛化能力。实验使用PDBBind v2020作为训练集,CASF-2016/2013作为测试集,同时采用Human数据集进行冷分割验证。
3.1 分类模型比较分析
在Human数据集上的分类任务评估显示,PLXFPred在随机分割下AUROC达到0.9836,AUPRC为0.9838;在更具挑战性的冷分割条件下,仍保持0.8608的AUROC和0.8694的AUPRC,较次优模型DrugLAMP提升7.6%。混淆矩阵分析表明,该模型在随机分割测试集上准确率和F1分数均为0.9315,冷分割下为0.7658,体现了对复杂真实场景的良好适应性。
3.2 回归模型比较分析
亲和力预测方面,PLXFPred在CASF-2016测试集上Pearson相关系数(PCC)为0.805,均方根误差(RMSE)仅0.615,较传统模型有显著提升。虽然PCC略低于依赖3D结构信息的PLAGCA(0.834)和EM-PLA(0.875),但在误差控制方面表现突出:MAE降低44.13%,RMSE降低41.71%,SD降低37.39%。在CASF-2013数据集上同样展现出优秀的误差控制能力,MAE降低61.62%,证实了模型在不同数据分布下的稳定性。
3.3 注意力可视化可解释性
通过分析HIV蛋白酶抑制剂darunavir(3GGU)和Hsp90抑制剂(2CCU)两个案例,PLXFPred的注意力权重成功识别出关键相互作用残基。在3GGU中,ILE-50残基与配体硫酸基团的氢键相互作用(权重0.34)、PRO-81的疏水作用等关键结合模式均被准确捕捉;在2CCU中,GLY-97和ASN-51等重要残基的氢键与疏水作用也被有效识别,与实验观测结果高度一致。
3.4 消融实验
对九个核心模块的消融研究表明,ProteinGraphEncoder贡献最为显著,其移除会导致PCC下降18.6%,RMSE增加54.05%;WeightedMSELoss模块的缺失使PCC降低13.04%,强调了加权损失函数对关键样本优化的重要性;CrossTransformerFusion模块虽影响较小,但对特征整合仍具有支持作用。
3.5 SHAP分析
SHAP分析揭示了模型的层次化特征交互机制:蛋白质序列特征(prot_x_protein)占据主导地位(最高SHAP值),而配体结构特征(mol_edge_attr等)起辅助调整作用。注意力热图显示,Prot_GAT1专注于局部结合位点(注意力权重0.81),Prot_GAT2则捕获长程相互作用(权重0.14-0.37),这种"全局主导-局部修正"的模式与生物分子相互作用特性高度吻合。
PLXFPred通过创新的多模态融合架构,在蛋白质-配体相互作用预测领域实现了精度与可解释性的双重突破。该模型不仅显著降低了预测误差,更重要的是通过注意力机制和SHAP分析揭示了"蛋白质主导、配体辅助"的特征交互规律,为理解分子识别机制提供了新视角。这种兼顾预测性能与生物学解释能力的设计理念,为后续药物靶标识别和合理药物设计提供了强有力的计算工具,有望在精准医疗和药物研发领域发挥重要作用。