:基于动态样本图增强多模态特征融合的药物响应预测方法DSGPred

《IEEE Transactions on Big Data》:A Multi-Modal Feature Fusion Method Enhanced by Dynamic Sample Graphs for Predicting Drug Responses

【字体: 时间:2026年02月22日 来源:IEEE Transactions on Big Data 5.7

编辑推荐:

  本文提出了一种名为DSGPred的药物响应预测新框架。针对实际数据中普遍存在的模态缺失问题,研究者创新性地构建了动态样本图来量化并利用缺失模式,并融合了药物化学结构和多种生物实体特征,以及细胞系的多组学数据。该模型通过Transformer编码器和交互模块深入捕捉药物与细胞系间的复杂相互作用,在基准和独立测试集上均超越了现有方法,展现出优异的预测性能和泛化能力,为精准医疗和抗癌药物研发提供了有力的计算工具。

  
癌症的复杂性和异质性导致相同癌症类型的患者对同一治疗方案的反应千差万别,这使得个性化治疗的需求日益迫切。与此同时,抗癌药物的研发过程漫长、成本高昂且失败率高。随着机器学习的进步和大规模药物筛选数据库的涌现,利用计算方法预测药物反应(Drug Response Prediction)已成为加速药物发现和优化治疗方案的重要途径。然而,现实世界中多源生物数据的记录往往不完整,不同模态的数据缺失问题普遍存在,这种噪声和不确定性给模型的预测能力带来了巨大挑战。为此,研究人员开发了一个名为DSGPred的创新框架,旨在更精准地预测药物反应。
为了应对这一挑战,研究人员提出了一种新的多模态学习药物反应预测框架DSGPred。其核心在于构建动态样本图(Dynamic Sample Graphs),以表征每个样本中缺失的模态类型和数量,从而实现对数据完整性的细粒度理解。该框架整合了多模态异构图卷积网络和先进的融合模块,以深度捕捉并综合药物与细胞系的多样化特征。研究结果表明,在基准和独立数据集上的实验评估显示,DSGPred在预测性能上持续优于现有方法。此外,针对新药和未知细胞系的测试也验证了其强大的泛化能力。案例研究进一步突出了其在真实世界场景中的实用性,为药物反应预测和个性化治疗设计提供了稳健的预测和洞见。
研究中采用了多项关键技术方法。首先,研究者从多个公开数据库(如PubChem、DrugBank、GDSC、CCLE、COSMIC等)收集了涵盖药物化学结构、生物实体(靶点、疾病等)以及细胞系多组学(基因表达、体细胞突变、拷贝数变异)的12种药物特征和4种细胞系特征。为了处理特征缺失,他们为每个药物样本构建了一个包含中心药物节点和六个生物实体节点的动态样本图,并根据数据存在与否连接边。对于特征提取和融合,研究使用了图卷积网络(GCN)从动态样本图中学习嵌入,并采用基于Transformer的编码器来处理药物和细胞系的多模态特征。在交互建模阶段,他们设计了包含外积与卷积神经网络(CNN)以及元素乘积与多头自注意力机制的双路交互模块,以捕捉药物-细胞系间的高阶相互作用。最后,通过多层感知机(MLP)预测药物反应的半抑制浓度(IC50)值。模型使用均方误差(MSE)损失函数进行端到端训练,并通过随机5折交叉验证优化超参数。
4.1 Performance Evaluation Metrics
研究人员使用均方根误差(RMSE)、平均绝对误差(MAE)和皮尔逊相关系数(r)三个回归指标来全面评估模型的预测准确性和可靠性。
4.2 Results on the Benchmark Dataset
在基准数据集上,DSGPred在5折交叉验证中取得了最佳的RMSE、MAE和Pearson相关系数,显著优于所有对比方法(tCNNs、DeepCDR、BiGPicture、Precily、HMM-GDAN、MSDRP和BANDRP),证明了其在处理多模态数据方面的有效性。
4.3 Results on the Independent Dataset
为了评估模型对新药物的泛化能力,研究构建了一个独立的测试集,其中包含了在训练集中未出现过的药物。DSGPred在该独立测试集上的预测性能同样优于所有对比基线方法,证明了其良好的外推能力。
4.4 Ablation Study
一系列消融实验验证了DSGPred各个模块的必要性。实验结果表明,移除动态样本图学习模块、药物多模态融合模块、细胞系多模态融合模块或交互模块中的任何一个,都会导致模型性能的显著下降,从而证实了每个组件对最终预测结果的贡献。
4.5 Case Study
通过对具体药物(如Docetaxel和Paclitaxel)和细胞系(如肺癌细胞系NCI-H23和乳腺癌细胞系MDA-MB-231)的案例分析,DSGPred成功预测了已知的药物敏感性模式,并通过分析模型关注的生物实体和基因特征,为理解药物作用机制提供了可解释的见解。
本研究提出的DSGPred框架通过引入动态样本图来显式建模和处理多模态数据中的缺失模式,有效解决了现有方法通常依赖数据完整性假设的局限。该方法整合了图卷积网络、Transformer和多头注意力等先进深度学习技术,构建了一个强大的药物-细胞系交互预测模型。实验证明,DSGPred不仅在标准基准测试中表现优异,在面对全新药物和细胞系时也展现出卓越的泛化能力。这项工作的重要意义在于,它提供了一种能够更稳健地利用现实世界中不完整、多源异质生物数据的计算工具,为加速抗癌药物发现和推动基于生物标志物的精准治疗策略设计提供了新的思路和方法论支持。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号