《Computers in Biology and Medicine》:Het2Gene: a phenotype-driven model for gene prioritization by heterogeneous graph embedding
编辑推荐:
基因优先级排序模型Het2Gene通过加权异构图嵌入提升致病基因预测精度,在HPO数据库整合和Meta-path2Vec改进基础上实现跨数据集泛化。
Buchao Zhan|Xin Yang|Dongmei He|Zilong Zhang|Feifei Cui|Qingchen Zhang|Shankai Yan
海南大学计算机科学与技术学院,中国海南570228
摘要
孟德尔遗传疾病对全球健康构成了重大负担。早期识别致病基因对于阻止疾病进展和开发针对性疗法至关重要。然而,从下一代测序(NGS)数据中诊断致病基因在临床实践中仍然是一个耗时的挑战。尽管已经开发了许多基于表型的计算模型(主要是图基方法)来辅助临床优先级排序,但许多方法存在局限性。这些方法往往忽略了生物网络中固有的异质性信息,并且主要关注疾病注释而忽视了实际临床病例的频率,从而忽略了关键的疾病流行信息。为了解决这些问题,我们提出了
Het2Gene,这是一个新颖的框架,它使用基于权重的Meta-path2Vec算法从异构图中学习有信息的表型-基因嵌入。与忽略异构元路径语义的现有方法不同,
Het2Gene生成了由临床病例数据引导的异构随机路径。它在路径中动态分配适应性权重,以优先考虑生物学上有意义的关系,从而显著提高了候选基因的排名。在两个基准数据集上进行评估并进行了额外的外部验证后,
Het2Gene在致病基因优先级排序方面的表现优于最先进的模型,并表现出强大的跨数据集泛化能力。对基因得分的分析进一步表明其有潜力揭示新的基因-疾病关联。该实现的源代码可免费获取于:
https://github.com/cskyan/Het2Gene引言
孟德尔遗传疾病,也称为单基因疾病,影响了全球大约8%的人口[1]。这些疾病每年影响数百万新生儿,占儿科住院病例的14.7%–18.6%[2]、[3]。早期识别致病基因对于防止疾病进展和提出有效的治疗策略至关重要。最近,下一代测序(NGS)技术的广泛应用显著提高了孟德尔遗传疾病的分子诊断水平。这不仅提高了诊断率,还减轻了国家的经济负担[4]、[5]、[6]。然而,从NGS数据生成的众多候选基因中区分致病基因仍然是一个巨大的挑战。为了解决这一挑战并促进通过NGS进行临床致病基因的识别,已经开发了各种候选基因优先级排序算法[7]。随着人类表型本体(HPO)[8]的不断进步,使用深度表型(表型驱动)作为输入已成为排名候选致病基因的常规方法[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]。这种方法具有输入方便和诊断快速的双重优势。图表示学习为分类和推荐等下游任务提供了节点嵌入。
最近的研究(例如HANRD [11]、CADA [17])应用了图嵌入技术来应对基因优先级排序的挑战,整合了来自HPO、OMIM [20]和WikiPathways [21]等生物医学来源的数据。这些模型构建了异构网络,但通常将它们视为同质图或对不同类型的边应用简单的平均策略,从而导致有意义的异质语义的丢失。此外,传统的基于元路径的方法(如Metapath2Vec [22])没有考虑不同元路径或边类型的重要性差异,从而限制了它们的嵌入表达能力。为了克服这些限制,我们提出了
Het2Gene,这是一个基于加权异构表示学习的新模型。通过构建表型-基因异构图并改进Metapath2Vec框架,
Het2Gene捕捉了表型和基因之间的细微关系。这种设计使得嵌入学习更加准确,从而提高了致病基因预测任务的性能。通过分析基因之间的评分关系并将其与独立的疾病基因知识数据库进行比较,我们发现我们的模型具有发现基因关联的潜力。我们的贡献总结如下:
•我们通过整合HPO数据库和实际临床表型-基因关联,构建了一个全面的异构生物知识网络。
•我们设计了一种新颖的加权异构图嵌入框架,通过改进的转换概率机制增强了基于元路径的表示。
•我们提出了Het2Gene,这是一种表型驱动的基因优先级模型,能够明确捕捉异构生物医学图中的语义相关性。
•广泛的实验表明,Het2Gene在致病基因预测方面的表现优于现有模型,并且能够揭示现有模型未捕捉到的新的疾病-基因关联。
方法部分
相关工作
本节概述了用于方法开发的基准数据集,详细介绍了我们的异构图嵌入算法,并介绍了与我们方法进行比较的模型。
方法
在本节中,我们将描述加权异构图的节点嵌入学习过程,然后是基因评分的方法以及候选基因的后续排名。我们提出了一个用于加权异构表型-基因网络中的基因优先级排序框架(如图2所示)。该方法包括三个组成部分:(i)用于节点嵌入的Weight-Metapath2Vec,(ii)整合嵌入和生物约束的Het2Gene架构,以及(iii)
实验设置
所有实验均使用PyTorch Geometric实现,并在NVIDIA A100 GPU上执行。在我们的实验设置中,异构HP–Gene网络被建模为无向图。这种设计选择主要是为了计算简便性,并专注于捕捉表型和基因节点之间的整体结构关系,而不是明确的因果方向性。通过将网络视为无向的,我们强调了基因之间的相互关联
讨论
全面的基准测试表明,Het2Gene在多个数据集上一致优于现有的表型驱动基因优先级排序方法,如CADA和HANRD。该模型在top-k准确性和排名性能方面的改进来自于关系特定边权重和元路径引导的嵌入的整合,有效地捕捉了异构HP–Gene网络中的直接和更高阶的语义依赖性。所提出的元路径框架
结论
我们提出了Het2Gene,这是一种新的候选基因优先级排序模型,能够有效捕捉生物网络中的异构信息。通过我们改进的Weight-Metapath2Vec算法学习加权异构嵌入,该模型显著提高了致病基因的识别能力。针对三个数据集的五项最先进方法的全面基准测试证明了Het2Gene的准确性和泛化能力,特别是在top-k排名指标方面。
CRediT作者贡献声明
Buchao Zhan:研究。Xin Yang:撰写 – 审稿与编辑,撰写 – 原始草稿,软件,方法论,研究,数据管理,概念化。Dongmei He:研究。Zilong Zhang:撰写 – 审稿与编辑。Feifei Cui:撰写 – 审稿与编辑。Qingchen Zhang:研究。Shankai Yan:研究,资金获取,概念化。
伦理声明
本文中呈现的所有患者数据均来自公开可用的数据集。因此,不需要患者的知情同意书,根据机构政策,也免除了机构审查委员会(IRB)的审查。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本文描述的工作得到了国家自然科学基金支持的科研项目(项目编号62202128)的实质性资助。这项研究还得到了海南大学的资助(项目编号KYQD(ZR)23125)的实质性支持。