《IEEE Transactions on Big Data》:RADDI: A Retrieval Augmented Framework for Drug-Drug Interaction Prediction
编辑推荐:
本文介绍了一种名为RADDI的检索增强框架,以解决药物-药物相互作用(DDI)预测任务中,新药数据稀缺和事件类别分布高度不平衡带来的两大挑战。该研究通过将通用知识迁移与专业知识检索相结合,并设计类别感知概率分布策略,在基准数据集上验证了其在零样本DDI场景下的优越性能。这项工作为高效预测新药相互作用提供了新颖有效的解决方案。
在药物研发和临床应用中,准确预测药物-药物相互作用至关重要。当两种或多种药物同时使用时,它们之间可能会产生意想不到的相互作用,轻则影响药效,重则可能引发严重的不良反应,甚至危及生命。随着新药不断涌现,这些新药与现有药物之间未知的相互作用风险也在增加。然而,传统的计算方法面临着双重困境:一方面,新药往往缺乏已观测到的相互作用数据,导致难以提取有效的特征进行预测;另一方面,已知的DDI事件在各类别间的分布极不平衡,大部分事件集中在少数常见类型,而许多罕见的相互作用仅有寥寥数个案例。这种不平衡会导致模型过度拟合常见类别,而对稀有类别的预测能力不足。为了应对药物研发领域的这一动态性挑战,本文提出并验证了RADDI框架。
本研究发表于《IEEE Transactions on Big Data》。研究人员为了开展此项工作,主要运用了以下几个关键技术方法:首先,构建了一个检索增强的DDI预测框架(RADDI),该框架包含粗粒度DDI预测器和细粒度DDI检索器。在粗粒度层面,利用预训练的大型语言模型(如RoBERTa)对药物描述文本进行编码,并连接分类器以进行通用知识迁移。在细粒度层面,将已知的药物对及其描述文本与对应的相互作用标签构建为向量数据库,使用基于BERT的模型编码药物对描述作为查询和检索键,通过计算L2距离(负L2距离作为相似度)检索最相似的已知药物对。其次,为了应对数据类别不平衡问题,研究者设计了一种类别感知概率分布策略,为常见类别和稀有类别的检索样本分配不同的权重系数(λc和λu),以校正检索偏差。最后,通过一个可学习的门控机制α,将来自粗粒度预测器的概率分布Pp和来自细粒度检索器的类别感知概率分布Pr进行协同融合,得到最终的预测概率分布P。实验在两个基准数据集DrugBank和TWOSIDES上进行,并严格划分训练集、验证集和测试集,确保测试集中的药物在训练阶段未被观测到。
研究结果:
- 1.
整体性能比较:如表3所示,RADDI在两个基准数据集上的多项评价指标(如Macro F1-Score、准确率、Cohen's Kappa、ROC-AUC、PR-AUC)均超越了所有基线方法,证明了其优越性。在DrugBank数据集上,其Macro F1-Score和Cohen's Kappa分别比次优方法高出2.1%和2.6%。
- 2.
零样本场景的细粒度分析:如表4所示,作者对比了两种零样本场景:一种是药物对中仅一个新药,另一种是两个都是新药。结果表明,在更具挑战性的“双新药”场景下,RADDI的表现虽然有所下降,但仍优于其他文本基线方法,说明其并非仅依赖单个已知药物的信息,而是能捕捉药物对之间的相互作用。
- 3.
消融实验:如表5所示,移除检索增强模块(即仅使用DDI预测器)或类别感知概率分布策略(即无类别感知)都会导致模型性能下降。特别是,加入类别感知策略后,稀有DDI的预测准确率显著提升,验证了该策略在缓解数据不平衡问题上的有效性。
- 4.
可扩展性分析:如图3所示,通过扩大可见DDI(及药物)范围来模拟框架的扩展能力。实验表明,即使在不重新微调预测器的情况下,RADDI在扩展后的性能与需要重新微调的基线方法相当,同时所需时间显著更少,展示了其良好的可扩展性和效率。
- 5.
超参数研究:如图4和表6所示,研究分析了检索邻居数量K和协同预测权重α对性能的影响。最佳性能在K=25和α=0.4时取得。同时,调整稀有类系数λu可以权衡模型对常见类和稀有类的预测精度。
- 6.
案例研究:如图5所示,通过一个具体案例可视化展示了细粒度DDI检索器如何通过检索与查询药物对(均与HIV蛋白酶抑制相关)语义相似的已知药物对,纠正了粗粒度预测器的错误预测,从而体现了该方法具有一定的可解释性。
结论与讨论:本研究提出的RADDI框架成功应对了零样本DDI预测中的数据稀缺和类别不平衡两大核心挑战。其核心贡献在于创新性地将检索增强生成(RAG)范式应用于DDI预测任务,通过结合粗粒度的通用知识迁移(基于预训练语言模型)和细粒度的专业知识检索(基于向量数据库),实现了对新药组合相互作用的高精度预测。特别设计的类别感知概率分布策略有效缓解了数据不平衡带来的检索偏差,提升了稀有相互作用类别的识别能力。实验证明,RADDI在多种零样本场景下均表现出优越的性能、良好的可扩展性和一定的可解释性。这项工作不仅为预测新药相互作用提供了一种高效、可扩展的计算方法,也为处理生物医学领域中其他具有数据稀缺和长尾分布特点的问题提供了新的思路。未来,研究者计划探索整合分子图等更多药物表征形式以应对文本信息缺失的情况,并进一步优化检索系统的存储和查询效率,以提升框架的整体性能。