《Frontiers in Bioinformatics》:Generative AI in drug repurposing and biomarker discovery: a multimodal approach
编辑推荐:
在复杂疾病中,由于数据稀疏、异质且存在冷启动问题,传统的图神经网络模型在药物重定位和生物标志物发现方面面临挑战。本研究提出了一种创新的异质注意力元学习图神经网络(HAMGNN),通过整合药物-疾病知识图谱、多组学数据和文献挖掘信息,成功预测了阿尔茨海默病和长新冠(Long COVID)的潜在疗法,实现了10-15%的性能提升。该研究为循证药物重定位提供了一个通用、可解释的生物信息学框架。
在生物医学研究的汪洋大海中,存在着海量的药物属性、疾病关联、基因表达和组学数据。这些数据构成了一个复杂的、非均质的网络,其中蕴藏着疾病机理和潜在疗法的宝贵线索。然而,要将这些线索转化为有效的药物重定位方案,科学家们面临着巨大的挑战。当前,计算药物重定位方法,如基于相似性的排名、网络传播、矩阵分解,以及主流的图神经网络(GNN)模型,在面对现实世界的生物医学应用时,都暴露出了明显的“短板”:它们对于注释稀少的疾病(如许多罕见病)泛化能力差,在疾病层面的适应能力有限,并且难以有效整合来自数据库、多组学谱和无结构生物医学文献的异质证据。这些问题在应对像长新冠(Long COVID)这样的新兴复杂疾病时尤为突出,阻碍了高效、精准治疗方案的发现。
为了攻克这些瓶颈,一项发表在《Frontiers in Bioinformatics》上的研究提出了一个名为“异质注意力元学习图神经网络”(HAMGNN)的突破性框架。这项研究旨在构建一个统一的、基于生物学原理的计算模型,以支持复杂和新发疾病的循证药物重定位和生物标志物发现。HAMGNN融合了三大核心技术创新:关系敏感的多头注意力机制,以优先处理不同边类型的生物学显著相互作用;以疾病为中心的元学习框架,使模型能够快速适应新出现或信息不足的疾病;以及一个由大语言模型(LLM)增强的知识图谱构建流程,用于编码从科学文献中提取的高置信度治疗信息。
为了验证HAMGNN的有效性,研究团队在一个大规模的、多模态生物医学知识图谱上进行了测试。这个图谱融合了来自DrugBank、DisGeNET和Hetionet的数据,包含超过220万条边,涵盖了约1,500个药物节点、21,000个基因节点、70个疾病节点和14,000个通路/生物过程节点,共计约36,570个独特实体和18种不同的关系类型,但整体图密度小于0.02%,反映了生物医学知识的高度稀疏性。研究人员采用了一种严格的、基于不相交疾病的“冷启动”评估协议,即训练和测试中的疾病完全无重叠,以模拟现实世界中为新疾病寻找疗法的情景。实验结果显示,HAMGNN在接收者操作特征曲线下面积(ROC-AUC)上达到了0.98,精度达到0.95,在未见疾病泛化方面,性能比现有的TxGNN和GAT-GNN模型高出10%-15%。其转化应用潜力通过对阿尔茨海默病和长新冠的案例分析得以证实,模型识别出了临床上合理的候选重定位药物,并通过机制通路揭示了疾病相关的生物标志物特征。
本研究采用了几个关键的技术方法。首先,构建了一个异质生物医学知识图谱,整合了DrugBank、DisGeNET和Hetionet的结构化数据,并结合了来自如TCGA、ADNI等来源的转录组、基因组突变和蛋白质组等多组学特征。其次,设计了HAMGNN模型架构,其核心是关系感知的多头注意力机制和元学习模块。注意力机制为每种关系类型(如药物-靶点、基因-疾病)和每个邻居学习不同的权重,以捕获生物学上更重要的交互。元学习模块则将每个疾病预测任务视为一个独立的“学习任务”,通过模型无关的元学习(MAML)策略,使模型能从少量样本中快速适应新疾病。此外,研究还采用了领域优化的大型语言模型(LLM)从科学文献中提取隐含的治疗关系,以补充和增强知识图谱。
研究结果如下:
- •
HAMGNN架构在药物-疾病关联预测中优于现有模型:在严格的“冷启动”评估下,HAMGNN在ROC-AUC和精度等关键指标上均显著超越了TxGNN、GAT-GNN等基准模型,证明了其关系感知注意力和疾病自适应元学习的优势。
- •
模型成功识别了阿尔茨海默病和长新冠的潜在疗法:在案例分析中,HAMGNN为阿尔茨海默病和长新冠预测了具有临床合理性的候选重定位药物。例如,对于阿尔茨海默病,模型识别出的药物与已知的病理机制(如淀粉样蛋白沉积、tau蛋白缠结、神经炎症)相关;对于长新冠,预测的药物则涉及免疫调节、抗炎和抗纤维化等途径。
- •
多模态集成增强了生物标志物的发现:通过整合多组学数据(如转录组XRNA、突变组Xmut),HAMGNN能够识别与疾病进展或治疗反应相关的预测性生物标志物。这些生物标志物通过通路富集分析得到了功能上的解释,揭示了潜在的治疗靶点和疾病机制。
- •
知识图谱增强与可解释性:利用LLM从文献中挖掘的信息丰富了知识图谱,提供了额外的证据支持。HAMGNN的关系级注意力权重(如公式中的βr)提供了模型的解释,显示了不同生物医学关系(如基因-疾病关联相对于药物-靶点结合)在预测中的相对重要性,增强了结果的可信度。
研究结论与讨论:本研究提出的HAMGNN框架,通过整合异质图注意力、疾病自适应元学习和多模态证据,为解决生物医学知识图谱稀疏、异质和冷启动的核心挑战提供了一个强大而统一的解决方案。它不仅在技术上实现了对现有图神经网络模型的显著性能超越,更重要的是,它为计算药物重定位和生物标志物发现领域提供了一个具有生物学基础、可泛化且可解释的新范式。该框架能够快速适应信息匮乏的罕见病或新发疾病,如长新冠,展示了其在应对突发公共卫生事件中的潜力。未来,进一步将模型扩展到动态更新的知识图谱、整合更多模态的临床数据(如影像学和电子健康记录),并推动其走向临床验证,将极大地促进AI在生物医学研究和精准医疗中的转化应用。