《Journal of Biomedical Informatics》:FG-DDI: Functional group-aware graph neural networks for drug–drug interaction prediction
编辑推荐:
本文推荐一项名为FG-DDI的创新研究,该研究针对现有图神经网络(GNN)方法在药物-药物相互作用(DDI)预测中忽视功能组(FG)化学先验知识的问题,开发了一种双视图GNN架构。通过在分子内和分子间两个层面注入功能组富集先验,该模型在DrugBank和TwoSides数据集上的实验表明,尤其在具有挑战性的归纳设置(预测新药组合)中,其准确率(ACC)和F1分数分别提升了0.46%-1.42%和1.67%-2.84%,显著增强了模型对新药的泛化能力,并为理解DDI机制提供了可解释的化学见解。这项工作为将药物化学知识系统整合到深度学习模型中提供了新范式。
当两种或多种药物同时使用时,它们之间可能会发生意想不到的相互作用,改变药物的疗效或引发严重的不良反应,这直接关系到患者的用药安全和治疗效果。由于通过实验方法大规模筛选所有可能的药物组合成本高昂且不切实际,计算预测方法,特别是基于人工智能的方法,已成为药物开发和临床决策支持的重要工具。近年来,图神经网络(GNN)因其能直接从药物的分子图结构(原子为节点,化学键为边)中学习有效的表示,在DDI预测领域取得了显著成功。然而,现有的大多数GNN方法将分子图中的所有子结构同等对待,未能充分整合药物化学中一个核心概念——功能组(FG)的知识。功能组是决定分子化学反应活性和药理特性的关键化学基团(如羟基、羧基、氨基等),已知特定功能组的共存与特定的药物相互作用机制密切相关。忽视这一重要的化学先验知识,限制了模型,尤其是在预测训练数据中未出现过的新药(即归纳设置)时的泛化能力和可解释性。
为了应对这一挑战,悉尼大学的研究人员Fangyu Zhou和Shahadat Uddin在《Journal of Biomedical Informatics》上发表了题为“FG-DDI: Functional group-aware graph neural networks for drug–drug interaction prediction”的研究论文。他们提出了一种名为FG-DDI的新型功能组感知图神经网络模型,旨在将功能组知识显式地、以可训练的方式注入到GNN的消息传递机制中,从而在转导(预测已知药物间的新相互作用)和归纳(预测涉及新药的相互作用)两种设置下,提升DDI预测的准确性和泛化能力,同时提供与药理学相关的可解释性。
研究人员为开展此项研究,主要运用了以下几项关键技术:首先,他们基于SMARTS模式匹配,从药物分子中系统性地检测了42种具有药理学相关性的功能组。其次,他们构建了FG-DDI模型架构,其核心创新在于双层级功能组增强机制:在分子内层面,通过计算基于功能组共现统计的富集分数(以比值比形式表示),并将其作为可学习的门控信号来调整原子间消息传递的权重;在分子间层面,同样利用功能组对之间的富集分数来调制药物对之间二分图注意力机制的权重。模型采用多模块集成和协同注意力机制来融合不同抽象层次的表示。最后,研究在标准数据集DrugBank(1706种药物,86种相互作用类型)和TwoSides(过滤后包含4,576,287对相互作用,963种类型)上,严格遵循既定的数据划分方案,进行了转导和两种 inductive(S1:两药均新;S2:一新一已知)设置下的全面评估,并与7种当前最先进的基线方法(如MR-GNN, SSI-DDI, DSN-DDI等)进行了比较,使用准确率(ACC)、AUROC、平均精度(AP)和F1分数等指标衡量性能。
3.2. Functional group enrichment
该部分详细阐述了如何将功能组知识整合到模型中。研究首先通过一个层次化匹配策略识别出药物分子中的42种功能组,这些功能组根据其结构复杂性和药理重要性被分为7大类。核心创新在于计算功能组对的富集分数,该分数基于已知DDI数据中功能组共现的统计优势比,量化了特定功能组对同时出现时发生相互作用的倾向性。这使得模型能够将化学先验知识转化为可量化的、可用于调制神经网络权重的信号。
3.3. FG-DDI architecture
FG-DDI模型采用双视图学习范式。在分子内表示学习阶段,模型首先通过标准的图注意力网络(GAT)获取原子表示,然后利用每个原子所属功能组的富集信息对学习到的表示进行增强缩放。在分子间表示学习阶段,模型构建药物对的二分图,并利用功能组对之间的富集分数来调整药物间消息传递的注意力权重。最后,通过多模块集成和跨模块的协同注意力机制,综合不同层次的增强表示进行最终预测。该架构确保了功能组信息既能影响单个药物的内部表征,也能影响药物对之间的交互建模。
5.1. Overall performance comparison
全面的实验结果表明,FG-DDI在多个数据集和评估设置下均表现出色。在转导设置下,FG-DDI在DrugBank数据集上取得了最佳性能(ACC: 97.30%, AUROC: 99.50%, AP: 99.44%, F1: 97.29%),相比之前最好的方法DSN-DDI有稳定但小幅的提升。在更具挑战性的归纳设置(S1和S2分区)下,FG-DDI的优势更为明显,特别是在S2分区(一新一已知药物),其准确率和F1分数分别达到83.34%和83.02%,相比DSN-DDI提升了1.42%和2.84%。这表明注入功能组知识显著提高了模型对未知药物的泛化预测能力。
5.2. Per-ADR performance analysis
针对86种不同类型的不良药物反应(ADR)的详细分析显示,在转导设置下,FG-DDI与基线模型性能均很高且接近。但在归纳设置下,FG-DDI的性能分布更集中于高值区域,且低性能的异常值更少,表明其在不同类型的相互作用预测上具有更强的鲁棒性和稳定性。统计检验证实了FG-DDI在归纳设置下的性能提升具有显著性(p < 0.05)。
5.3. Functional group enrichment analysis and a case study
对功能组富集分数的分析表明,模型学习到的富集模式与已知的药理学机制高度一致。例如,三唑-吡咯功能组对获得了最高的富集分数(10.514),这与已知的唑类抗真菌药物通过协调细胞色素P450酶的血红素铁从而产生竞争性抑制和DDI的机制相符。案例研究进一步表明,模型能够关注到与特定DDI类型(如影响药物吸收的Type-18)相关的关键功能组对(如带正电的胺与芳香环、酯/酰胺之间的相互作用),这与人P-糖蛋白(P-gp)抑制剂的药效团模型特征一致,增强了模型预测结果的可解释性和化学合理性。
5.4. Ablation study
消融实验清晰地证明了FG-DDI各个组件的有效性。单独移除分子内或分子间的功能组增强机制都会导致性能下降,而同时使用两者(即完整的FG-DDI模型)能获得最佳性能,说明分子内和分子间的功能组信息是互补的。与完全不使用功能组增强的基线模型相比,FG-DDI的持续优势凸显了集成功能组先验知识对于提升DDI预测性能的必要性。
综上所述,FG-DDI研究通过将药物化学领域知识(功能组)系统性地整合到深度图神经网络中,成功解决了现有DDI预测方法在泛化性和可解释性方面的局限。该模型不仅在标准转导任务中表现优异,更在预测涉及新药的、更具现实意义的归纳任务中展现了显著的性能提升。其关键意义在于:首先,它证明了将显性的、经过验证的化学先验知识注入数据驱动的深度学习模型,能够有效提升模型,特别是面对未知数据时的泛化能力和可靠性。其次,模型所采用的功能组富集机制提供了与化学机制相关联的解释维度,使预测结果不再是“黑箱”,有助于研究人员理解相互作用的潜在分子基础,从而指导后续的生物学实验验证和药物设计优化。这项工作为开发下一代知识引导的、可解释的AI辅助药物安全评估工具奠定了坚实的基础,对推动精准医疗和保障患者用药安全具有重要的理论价值和广阔的应用前景。未来的研究方向包括整合三维分子构象信息、开发动态富集计算策略以及将功能组增强框架扩展到多模态DDI预测等更复杂的场景中。