《Journal of Ethnopharmacology》:MAGED: Multimodal Attentive Graph learning with Gene Expression Dynamics on Knowledge Graphs for TCM Target Prediction
编辑推荐:
传统医药的机制研究需连接宏观临床效应与微观分子通路,本文提出MAGED框架,通过整合中医药属性、症状信息及转录组动态构建多模态知识图谱,利用分层图注意力机制实现跨尺度知识融合,显著提升草药-靶点预测精度与可解释性。
Fengming Chen|Shichao Fang|Ranran Zhao|Xingxing Han|Huan Li|Bing Xu|Zhishu Tang
中国中医科学院中药资源中心道地药材质量保障与可持续利用国家重点实验室,北京,100700,中华人民共和国
摘要
民族药理学相关性
:传统医学中使用的植物长期以来为药物发现提供了宝贵的线索,然而将它们记录的治疗效果与现代对生物机制的理解系统地联系起来仍然是一个关键的科学问题。弥合传统知识、临床症状特征和当代分子水平调控之间的差距对于推进草药医学的研究至关重要。目标
:本研究旨在开发一个多模态图注意力学习框架,命名为MAGED,该框架将知识图谱与基因表达动态相结合,以提高草药-靶点相互作用(HTI)预测的准确性和可解释性。方法
MAGED整合了多种异构数据,包括中药(TCM)属性、分层临床症状信息以及分子水平的生物数据,如药物干预下的基因表达动态和因果生物网络。采用多模态融合编码器将草药属性嵌入到与疗效相关的特征向量中,然后将其与功能表示(例如,标准化富集分数)结合起来,形成统一的上下文化表示。此外,设计了一个分层图注意力网络,将宏观症状-基因关联与微观调控途径结合起来,从而建立从草药效果到生物靶点和表型症状的连贯推理链。结果
系统实验评估表明,MAGED在多个评估指标上显著优于现有的基线方法,在HR@10指标上提高了59.8%。该模型在冷启动场景下也表现出更好的排名和召回性能。在黄芩(Scutellaria baicalensis)的案例研究中,预测的前10个靶点中有8个得到了现有文献的支持,并有功能或直接相互作用的证据,一些靶点通过分子对接进一步得到了验证。结论
MAGED提供了一个准确且可解释的框架,用于预测草药-靶点相互作用,有效整合了传统知识与现代分子证据。这种方法在促进草药机制的发现和新型治疗靶点的识别方面显示出强大的潜力。引言
作为具有数千年实践经验的传统医学体系,中医(TCM)在疾病预防和治疗方面积累了丰富的临床知识(Fu等人,2022年;Wu等人,2024年)。然而,宏观临床结果与潜在分子作用之间的机制联系尚未得到充分阐明。研究表明,草药通过涉及多个靶点多组分协同作用的“系统药理学”机制发挥作用(Chen等人,2023年;Zhang等人,2024年),但其化学复杂性和组合规则使得实验表征成本高昂且具有挑战性(Song等人,2024年)。传统的靶点识别需要同时发现活性化合物及其靶点,这通常伴随着长周期、高成本和高假阳性率(Chen等人,2020年;Cui等人,2022年)。基于结构的预测也受到限制:化合物之间的协同作用引入了噪声;矿物/动物来源的药物中的大分子缺乏稳定的结构;并且在加工(炮制)过程中的化学变化尚未得到完全表征。因此,迫切需要计算方法来补充和指导实验工作。
由于草药-靶点相互作用(HTI)与药物-靶点相互作用(DTI)具有共同的分子机制,用于DTI预测的计算方法越来越多地被应用于HTI预测。现有方法分为三类:基于结构的(例如,分子对接)、基于网络的(拓扑传播/嵌入)和基于深度学习的方法。基于结构的方法需要高质量的3D结构,这限制了它们的覆盖范围(Sydow等人,2019年)。基于网络的方法使用图拓扑,但经常忽略节点属性,如化学或功能特征(Wang等人,2019年)。随着生物数据的发展,深度学习模型(例如,DNNs、GNNs、Transformers)在通过自动化从大型数据集中提取特征来进行二分类/链接预测方面表现出色(Chen等人,2024年;Zhao等人,2025年)。
该领域的最新研究越来越多地采用基于知识图谱的方法,系统地整合来自临床观察和科学文献的异构证据,并通过图推理算法(如随机游走、图嵌入和图神经网络)来支持靶点推断。代表性方法包括heNetRW(Yang等人,2018年),它构建了一个异构草药-靶点网络,并通过随机游走策略对潜在靶点进行排名;以及HTINet2(Duan等人,2024年),它进一步将知识图谱嵌入到深度学习框架中,利用草药属性和临床治疗信息来增强草药-靶点相互作用的识别。尽管取得了这些进展,现有方法在共同建模中医的理论基础和潜在的分子调控机制方面仍然有限。一方面,中医强调整体原则和“基于模式的治疗”(证治),其中治疗效果与多维草药属性密切相关,包括四性、五味、经络趋向性和功能属性。捕捉这些丰富的语义信息需要更具表现力的表示方法,例如来自预训练的大型语言模型的表示方法。另一方面,由草药干预引起的分子水平动态,如基因表达扰动和因果生物途径,尚未被系统地纳入现有推理框架中。这种遗漏限制了模型从药理作用追踪到症状改善的机制路径的能力。因此,一个关键的科学挑战在于开发一个跨级别的多模态学习框架,能够共同建模宏观症状、草药属性和微观生物途径。这样的统一模型对于提高靶点预测的可靠性和增强潜在治疗机制的可解释性至关重要。
多模态学习整合了多种异构数据,通过跨模态互补性提高了鲁棒性(Peng等人,2024年;Ren等人,2023年)。然而,大多数HTI预测方法依赖于单一数据类型,忽略了将KG结构先验与功能组学数据(例如,转录组学)的整合。此外,多源数据的协同建模仍然未得到充分探索。可解释性也很关键,将因果推理(例如,DEMAND(Woo等人,2015年)与先前的调控网络相结合,确保了生物学的合理性和可追溯性。生物医学知识图谱已经在整合多组学数据和促进靶点发现方面显示出强大的潜力(Chandak等人,2023年;Cui等人,2025年;Serra等人,2025年)。因此,开发能够将多尺度生物调控信息与中医理论相结合的新计算框架对于准确预测草药靶点和系统阐明其药理机制具有重要的科学价值。
为了解决这些差距,我们将HTI预测视为知识图谱中的链接预测任务,并提出了一个端到端的多模态图注意力框架。我们的模型将语义草药属性(来自中医理论)和转录组学功能扰动(例如,途径富集分数)整合到动态的上下文化表示中。这些表示被注入图消息传递和注意力机制中,以增强生物学相关的信号并抑制噪声。具体来说,我们使用预训练的语言模型对草药属性进行编码,并通过可学习的多模态编码器将其与标准化富集分数(NES)结合。结果产生的上下文向量在异构图中调节注意力权重,调整关系和邻居的重要性。我们采用了分层注意力设计:对因果调控边使用方向感知的注意力,对草药关联边使用上下文感知的注意力。我们构建了一个跨尺度的生物医学KG,其中包含了中医概念(例如,症状、草药属性)和分子相互作用(例如,mRNA调控、蛋白质-DNA结合、非编码RNA)。在这个图上的训练使得可以同时使用语义、症状和生物分子信息,显著提高了HTI预测的准确性和可解释性。
部分片段
多模态草药数据
我们使用两种主要模式来表征草药:文本草药属性和转录组学谱型。草药属性是从《中国药典》(2020年版)中提取的,包括四性、五味、经络趋向性和已知功效等描述符。基于长期临床实践,中医属性理论为组织这些属性提供了一个整体的框架。在本研究中,文本描述符使用基于文本的编码方法进行编码
构建具有生物学意义的中药知识图谱和模型可解释性
我们将草药的宏观属性与微观水平的生物调控信息相结合,构建了一个支持因果和关联推理的中药知识图谱(TMKG)。在这个图中,草药-靶点相互作用被视为潜在的原因,临床表型被视为可观察的效果,而生物过程(如基因表达变化和途径激活)则作为它们之间的连接器(图4A和4B)。这些关系包括
讨论
MAGED的核心优势在于其能够深度整合多种异构信息,实现整体知识融合。通过多模态注意力机制,该模型有效地结合了基因表达动态和来自知识图的丰富结构化语义信息,如草药的宏观治疗效果和微观水平的生物调控关系,从而实现跨模态知识转移和潜在关联的挖掘。
CRediT作者贡献声明
Shichao Fang:可视化、验证、软件、概念化。Fengming Chen:写作——审阅与编辑、写作——原始草稿、可视化、验证、调查、正式分析、数据管理、概念化。Xingxing Han:方法论、正式分析。Ranran Zhao:可视化、验证、方法论、数据管理。Huan Li:验证、方法论、调查。Zhishu Tang:写作——审阅与编辑、监督、资源管理、项目管理、资金支持
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作得到了中央政府层面的重点项目的支持:《贵重中药资源可持续利用能力建设》([2060302]);国家自然科学基金([U24A20787]);教育部的学科突破试点项目(“用中医预防和治疗多系统共病”);2024年中药创新团队和人才支持计划