《Human Genetics》:Multiscore, a gene ranker powered by artificial intelligence and real-world clinical data, shows high sensitivity for the molecular diagnosis of Mendelian disorders in nearly 10,000 exomes and genomes
编辑推荐:
本研究针对临床外显子组/基因组测序(ES/GS)分析中患者临床表现与已知基因-表型关联(GPA)匹配的挑战,开发了名为Multiscore的基因优先排序工具。该工具整合多源数据与算法,利用随机森林分类器预测患者临床特征与基因的关联概率,旨在辅助表型审查并提升诊断效率。研究表明,在9,989例回顾性分析案例中,Multiscore能够将报告阳性基因的排序中位数提升至第3位,平均排名为6.35,且在排名前10的基因中平均召回率达到83%。该工具能够处理非精确的人类表型本体(HPO)术语匹配,并利用内部真实世界临床数据优先排序了74个未被OMIM收录的基因,有效提升了病例处理能力并拓宽了患者的诊断可及性,为孟德尔病的精准诊断提供了有力工具。
现代医学中,通过外显子组测序(Exome Sequencing, ES)或基因组测序(Genome Sequencing, GS)来寻找罕见遗传病的“元凶”已成为常规操作。然而,当测序数据产生成千上万个基因变异时,如何从中大海捞针,精准找到与患者症状对应的致病基因,是临床遗传学家面临的一大挑战。这不仅需要对基因变异本身进行致病性评估,更需要将患者千差万别的临床表征——从发育迟缓到特殊面容,从心脏异常到神经系统问题——与浩如烟海的基因-疾病知识库进行匹配。传统的依赖公开发布数据库(如OMIM)的匹配方法,往往受限于更新速度和表型描述的“教科书式”局限,难以应对临床实践中遇到的、描述不够精确或更为复杂的真实病例。
为了解决这一核心问题,来自GeneDx的研究团队开发并验证了一款名为Multiscore的基因优先排序工具。它旨在充当一位不知疲倦的“超级分析员”,利用人工智能(AI)的力量,整合海量、多源的临床与文献数据,自动评估患者的表型与候选基因的匹配程度,从而帮助临床分析师快速聚焦最有可能致病的基因。这项研究成果已发表在《Human Genetics》期刊上,为提升孟德尔病(单基因遗传病)的诊断效率和广度提供了新的、强有力的解决方案。
为了开展这项研究,作者团队主要应用了几项关键技术:首先,他们构建了一个综合的知识参考库,其基因-表型关联数据来源于三个核心部分:在线孟德尔遗传在人数据库(Online Mendelian Inheritance in Man, OMIM)的HPO注释、从相关文献中提取的患者表型描述,以及来自GeneDx公司(GDx)内部的大量、具有明确阳性分子诊断结果的临床病例数据。其次,他们开发了名为Literature Surveyor的工具,利用自然语言处理(NLP)技术自动化地收集、结构化并分析生物医学文献,以获取最新的基因-表型关联信息。第三,团队整合了多种表型相似性评分算法,包括精确匹配的杰卡德相似度(Jaccard similarity)、基于语义的混合相对语义相似度(Hybrid Relative Semantic Similarity, HRSS)、以及基于词向量(word2vec)和文档向量(doc2vec)的上下文相似度计算。最后,他们将来自不同数据源和算法计算的八个相似性子评分(subscores)作为特征,输入一个随机森林(Random Forest, RF)机器学习模型进行训练,该模型能够综合这些特征并输出一个代表患者临床表型与基因关联概率的最终分数,从而实现基因的自动化排序。
Multiscore在9,989例回顾性分析病例中始终能有效优先排序阳性基因
研究团队利用9,989例在GeneDx接受分析并得到明确阳性诊断的病例作为测试集,评估了Multiscore的性能。在结合了基因型过滤(平均每个病例产生173个需要临床审查的候选基因)后,Multiscore将报告阳性基因的排序中位数提升至第3位,平均排名为6.35。其平均召回率(敏感性)在排名前1位基因中为33%,前5位为69%,前10位为83%,前20位则高达93%。对于非家系三联(非-家系三联体)病例,由于基因型过滤信息较少,候选基因更多,但Multiscore仍能在76.4%的病例中将阳性基因排入前十。
Multiscore能够优先排序未被公共参考数据库收录的基因
测试集中包含257个病例,其阳性基因(涉及74个基因)没有在OMIM的HPO注释中收录。Multiscore利用其内部的GDx数据集和文献数据集,成功地将这些病例中48.2%的阳性基因排在了前20位。例如,KDM2B基因在测试时尚未被OMIM或Orphanet收录,但基于GDx知识库和一篇包含27名患者的大规模文献报道,Multiscore在4/8的相关病例中成功将该基因排入前20,展示了其对新兴和超罕见疾病关联的识别能力。
Multiscore的表现优于其他仅基于表型的优先排序工具
研究将Multiscore与另外两种表型优先排序工具——Phrank(分别使用GDx知识库和HPOA知识库)和LIRICAL——在相同的9,989例病例上进行了直接比较。结果显示,在所有位次的平均召回率指标上,Multiscore均显著优于其他工具。例如,在排名前10位时,Multiscore的召回率为83%,而表现次之的Phrank(使用GDx知识库)为72%,Phrank(使用HPOA知识库)和LIRICAL则约为60%。Multiscore在超过53%的病例中给出了最高或并列最高的排序,显示了其综合多知识源和算法集的优势。
Multiscore能够处理真实世界患者的临床信息
测试集中的临床信息直接来源于未经深度人工表型标准化的临床记录,具有真实世界的多样性和复杂性。病例中位HPO术语数为15个。尽管线性回归显示HPO术语数与阳性基因排名之间存在微弱的负相关,但Multiscore的性能在高HPO术语数的病例中依然保持强劲。此外,随着某个基因在GDx数据集中阳性病例数的增加,其GPA集合中可能会混入一些与该病核心表型无关的“噪音”术语(即具有较低术语频率-逆文档频率,Term Frequency-Inverse Document Frequency, TF-iDF),但Multiscore通过集成学习和多数据源互补,有效应对了这种真实数据中的“噪音”问题,保持了稳定的性能。
作者在讨论中总结道,将基因型分析与表型匹配解耦(分离),对于考虑代表表型拓展或全新疾病关联的、分子致病性证据很强的发现至关重要。Multiscore的成功关键在于其能够利用内部临床实践中积累的大量、多样化的真实世界患者表型数据,这些数据比单纯依赖专家手动更新的公共数据库(如OMIM)能更全面地描述疾病-基因关联的表型谱。其集成式架构融合了多个数据源和算法,从而能够从一系列较弱的信号中综合识别出患者与基因之间的强关联信号。
这项研究的重要意义在于,Multiscore作为一款经过大规模验证的基因优先排序工具,显著提升了临床ES/GS数据分析的效率。它能够在超过80%的病例中将致病基因精准地排入前10名,极大地缩小了临床分析师需要重点审查的基因范围。更重要的是,它突破了对传统公共数据库的依赖,利用动态增长的真实世界临床知识库,能够识别和优先排序那些尚未被标准数据库收录的新兴疾病基因,从而为更多罕见病患者(包括那些携带“超罕见”变异的患者)带来了明确的诊断希望。Multiscore代表了迈向一个更全面、更智能的临床基因组分析系统的重要一步,其最终目标是整合更多的生物医学信息,以更快的速度和更高的准确性,帮助患者找到致病的遗传学答案。