大语言模型(LLM)驱动的遗传诊断与发现新范式:从鼠类模型到人类罕见病研究

《Advanced Science》:Genetic Diagnosis and Discovery Enabled by Large Language Models

【字体: 时间:2026年02月10日 来源:Advanced Science 14.1

编辑推荐:

  本文系统评估了大语言模型(LLM)(如Med-PaLM 2和Gemini)在解决遗传学问题中的潜力,通过四个复杂度递增的实验(鼠类基因识别、新型听力损失基因发现、人类听力损失致病基因筛选、复杂罕见病遗传因素鉴定),证明了基于LLM的AI流程能有效促进小鼠和人类的遗传诊断与发现,为精准医疗提供了创新工具。

  
摘要
人工智能(AI)已在医学多个领域得到应用,大语言模型(LLM)在各种临床应用中展现出潜在价值。为确定LLM是否能加速遗传诊断和发现的步伐,本研究检验了近期开发的LLM(Med-PaLM 2和Gemini)是否能协助解决四种复杂度依次增加的遗传学问题。首先,针对自由文本输入,Med-PaLM 2正确识别了六个先前研究过的生物医学性状鼠类模型中,经实验验证具有致病遗传因子的小鼠基因。其次,Med-PaLM 2识别出一个新型的导致自发性听力损失的小鼠致病遗传因子,并通过基因敲入小鼠得到了验证。第三,我们开发了一个检索和接地(grounding)流程,使Gemini 2.5 Pro能够分析包含20名听力损失人类受试者基因组序列中识别出的遗传变异的大型基因列表,并证明其能协助识别听力损失的致病遗传因子。第四,我们修改了遗传分析流程,使Gemini 2.5 Pro无需任何任务特异性微调即可识别六名患有罕见遗传病受试者的致病遗传因子,这些受试者的多方面症状复合体需要用14至34个不同的术语来描述。这些结果表明,AI流程能够促进小鼠和人类的遗传诊断与发现。
1 引言
生物医学科学的一个主要挑战是识别人群中影响个体特性(即表型或性状),特别是疾病易感性的遗传因素。许多遗传发现是通过全基因组关联研究(GWAS)方法实现的,该方法比较小鼠或人类群体中等位基因差异的模式与表型反应变异的关系。无论受试者是小鼠还是人类,遗传发现的一个主要障碍是GWAS结果会识别出一个真正的致病遗传变异,同时伴随着许多其他假阳性关联,因为常见遗传基因组区域内的等位基因模式可能随机与人群中的任何表型反应模式相关联。为了解决这个问题,我们最近开发了一个基于AI的计算流程用于小鼠遗传发现,该流程可以筛选从GWAS中产生的一组候选基因,并基于对已发表文献中候选基因-表型关系的评估,识别出最有可能具有因果关系的基因。然而,该流程无法响应自由文本查询,并且只能在输入其数字标签后分析公共数据库中包含的特定数据集。
如果遗传发现AI能够回答自由文本查询并利用比现有AI更复杂的分析能力,其实用性将大大扩展。与这种可能性一致,最近开发了大语言模型(LLM),它们是通用AI系统,通常基于Transformer神经网络架构实现。它们通常在互联网规模的文本语料库上进行预训练,并展现出广泛的语言理解和处理能力,包括信息提取、推理、数据总结,并可以使用网络和生物医学文献搜索进行信息检索。虽然通用LLM在广泛的应用中展示了其能力,但科学和生物医学领域的独特性要求它们进一步专业化和适应。LLM的任务性能可以通过使用高质量领域特定文本进行微调,或通过集成到智能体(agentic)系统中来提高,这些系统支持从外部知识源检索、使用工具执行特定任务,以及基于已验证信息源进行接地(grounding)以确保事实性和可支持的推理。例如,Med-PaLM 2是一个经过医学对齐的LLM,它使用高质量生物医学文本语料库进行了微调,然后通过临床医生反馈进行对齐。在回答医学问题时,其表现相对于通用LLM有显著提高,其答案与医生相当或更优。下一代多模态Gemini模型具有处理图像、音频、视频和文本的能力,其推理能力可以扩展到数百万个token。该Gemini模型在许多具有挑战性的任务上(包括数学、编码和学术基准)达到了前沿通用LLM的最先进性能。尽管取得了这些进展,并且LLM内部编码了大量的生物医学和科学知识,但LLM是否能产生促进遗传发现的新假设仍有待确定。
本文通过让这些LLM处理四种复杂度依次增加的遗传学问题,来研究它们是否能促进遗传发现和诊断。分析首先使用从鼠类模型获得的数据进行,然后检查从患者获得的人类基因组序列。Med-PaLM 2准确解释了关于小鼠候选基因的自由文本查询,并识别出一个导致听力损失的新型小鼠致病遗传因子。为了进一步增强LLM的能力,我们设计了一个基于Gemini 2.5 Pro的新型工具使用系统,该系统基于对生物医学文献的分析生成假设,然后对其生成的假设进行排序。除了简化遗传分析过程外,它提供的解释增加了对其输出的信心。该系统被用于识别20名人类患者听力损失的潜在遗传因素,这是一种常见的临床状况。最后,使用修改后的AI流程与这个Gemini系统一起分析从患有多重复杂临床症状的罕见遗传病患者获得的基因组序列数据。
2 结果
2.1 评估小鼠候选基因集
为了测试Med-PaLM 2是否能响应自由文本输入促进遗传发现,我们要求其分析六种先前研究过的生物医学性状的小鼠GWAS数据所识别的候选基因集。Med-PaLM 2正确识别了具有经实验验证的致病因子的基因。这些结果表明,Med-PaLM 2可以通过评估基因-表型关系来分析基因列表,并识别最有可能负责所研究性状的基因。
2.2 听力损失的双基因模型
我们接下来研究Med-PaLM 2是否能分析通过基因组序列比较产生的小鼠基因列表,并促进发现近交系小鼠中影响听力损失的新遗传因子。在80个测试的近交系小鼠中,有16个在3月龄时自发出现年龄相关性听力损失。一个小鼠钙粘蛋白23(Cdh23)等位基因(Cdh23753G→A)已被证明通过降低耳蜗感觉毛细胞束蛋白的稳定性而导致听力损失。我们检查了小鼠SNP数据库,发现早期听力损失品系与携带Cdh23753A等位基因的品系之间存在极强的相关性。然而,肯定存在其他贡献遗传因素,因为只有一部分携带Cdh23753A等位基因的品系出现早期听力损失。NOD/LtJ小鼠的年龄相关性听力损失令人关注,因为它在3周龄时即发生。我们发现NOD/LtJ耳蜗敏感性在所有测试频率上均显著降低。同样携带Cdh23753A等位基因的C57BL/6小鼠在7周龄时出现严重程度轻得多的听力损失,并在较晚年龄完全显现。因此,除了Cdh23753A等位基因外,其他遗传因素必然导致NOD/LtJ的听力损失。为了识别它们,将NOD/LtJ的基因组序列与10个终生保持正常听力的其他品系进行比较,并去除了存在于NOD/LtJ和任何其他品系中的变异等位基因。要求Med-PaLM 2使用思维链(CoT)提示和自洽性分析14个具有高影响NOD/LtJ特异性SNP等位基因的基因,它识别出Crystallin muCrym)为最可能与听力损失相关的基因。当随机化输入基因顺序后重复Med-PaLM 2分析100次,Crym在98次分析中被识别为前5名候选基因之一。NOD/LtJ小鼠在Crym氨基酸220密码子处有一个纯合的2-bp移码缺失等位基因(rs216145143),该等位基因在47个经典近交系中不存在,包括密切相关的NOR/LtJ品系。这在230位点产生了一个提前终止密码子,免疫印迹表明CRYM蛋白在NOD/LtJ组织中完全缺失,这源于突变CRYM蛋白或其mRNA的降解。因此,NOD/LtJ小鼠存在Crym基因敲除。Med-PaLM 2识别出Crym是因为它沿着小鼠耳蜗长度呈梯度高表达,并且人类CRYM的点突变导致常染色体显性(AD)非综合征性耳聋伴早期发病(DFNA40)。
为了确定Crym突变是否导致听力损失,我们在NOD/LtJ遗传背景上生成了纯合回复2 bp Crym缺失至野生型的基因敲入(KI)小鼠(NOD CrymWT/WTKI)。从5周龄到8周龄每周进行的听力测试显示,KI小鼠在低频范围(5.66–11.3 kHz)的听力显著优于年龄匹配的对照NOD/LtJ小鼠。组织学分析证实Crym在NOD CrymWT/WTKI小鼠的耳蜗中表达,但在NOD/LtJ小鼠中不表达:CRYM在NOD CrymWT/WTKI小鼠的螺旋神经节神经元(SGN)和支持细胞中表达,而在NOD/LtJ小鼠中不表达。与Crym回复体选择性挽救低频听力一致,野生型小鼠(CBA/CaJ)中的CRYM在耳蜗SGN中呈现梯度表达,在顶转检测到最高水平。虽然CRYM表达也在支持细胞和侧壁中检测到,但其表达在整个耳蜗长度上是均匀的,这不能解释2 bp校正后的低频听力挽救。总之,这些结果表明,虽然Cdh23753A等位基因导致听力损失,但NOD/LtJ Crym突变也通过影响顶转的SGN神经元而导致听力损失。
2.3 人类听力损失遗传因素的识别
我们的小鼠遗传分析方法类似于用于识别疑似人类遗传病致病遗传因素的方法。尽管基因组测序的使用日益增加,但识别人类遗传病真正的致病变异很困难,因为(与小鼠一样)任何个体的基因组中都存在数千个意义未明的罕见变异(VUS)。因此,我们研究Gemini是否能帮助识别20名听力损失个体的致病变异,每人的基因组序列中都有数千个VUS。为了促进这些分析,一个计算算法检查了多个数据库中的信息,并使用多个标准为每位患者选择具有VUS的基因子集(范围:375–435)。然后,选定的基因由基于Gemini 2.5 Pro的假设生成系统进行评估,并按其导致听力损伤或耳聋的潜力进行排序。重要的是,系统输出了用于对基因排序的假设和支持性研究论文。然后,联合检查Gemini输出和等位基因影响评级,以识别每位患者的可能致病遗传因子。
例如,患者1在肌球蛋白重链14(MYH14)中有16个变异,MYH14是一种ATP依赖性分子马达,调节细胞运动。MYH14突变导致语后发病的非综合征性耳聋(DFNA4),这与患者1在33岁时出现耳聋一致。此外,一个发生在高度保守残基的MYH14 GLU965LYS变异使用美国医学遗传学与基因组学学会(ACMG)标准被分类为具有致病性的支持性证据(PP3),蛋白质结构建模表明该变异可能导致MYH14蛋白结构的显著功能改变。类似地,GJB2 Arg143Gln变异被识别为患者3听力损失的可能遗传原因,因为:GJB2是Gemini排名第二高的基因,Arg143Gln变异被评为强致病性;GJB2突变导致常染色体显性(AD)形式的耳聋3A(DFN3A);该突变在几项临床研究中与常染色体显性耳聋相关,并在功能测定中显示显性效应。在其他患者中识别出其他的致病性GJB2突变。在同时患有白化病和耳聋的患者4中,识别出酪氨酸酶(TYR)变异(Arg422GLN)为致病突变。TYR突变主要与眼皮肤白化病相关,以常染色体隐性模式遗传。然而,美国国立卫生研究院遗传测试注册库(ID: CN028925)报告了伴有先天性感音神经性听力损失的眼白化病,患者4的父亲携带此等位基因并有耳聋。患者7在α-盖膜蛋白(TECTA)中有两个错义变异(Val830MetTyr942Cys),其中Tyr942Cys被评为可能致病。TECTA是覆盖耳蜗毛细胞膜的主要成分,该膜是外毛细胞声音放大所必需的。TECTA突变在多个种群中与AD听力损失(DFNA8/12)相关。对于患者12,Gemini识别出Gasdermin E(GSDME)中的一个错义变异为可能的致病遗传因子,因为GSDME突变导致AD进行性感音神经性听力损失(DFNA5)。GSDME Leu485Arg在468个选定基因中具有第二高的等位基因影响评级,建模预测该变异将导致关键功能域发生显著改变。GSDME的COOH末端结构域(由外显子8-10编码)调节GSDME的坏死诱导活性,该结构域的改变促进耳蜗毛细胞凋亡。
由AI流程识别的遗传因素由照顾这20名患者的耳鼻喉科专家和一位具有听力损失专业知识的临床遗传学家进行了评估。这些专家完全同意(15例)或初步同意(3例)20项预测中的18项。因此,该AI流程为15名受试者识别了遗传因素,为3名受试者识别了可能的变异,这与临床医生的评估一致。尽管他们不同意患者10和15的预测,但通过重新评估LLM和等位基因影响排名确定了其他候选基因。此外,后续随访显示,患者13、14和20的已识别遗传变异并非致病性,正在利用AI流程输出追踪其他变异。虽然可以通过改变提示中提供的信息来改进AI流程结果,但这些结果证明它有潜力协助识别听力损失的致病遗传因素。
2.4 罕见遗传病
我们接下来研究Gemini是否能识别患有疑似罕见遗传病个体的致病变异,这些疾病呈现多重、复杂的临床特征。对于听力损失患者,评估突变等位基因对蛋白质序列的影响对于识别致病遗传因素至关重要。一项比较分析表明,在提示中提供由组合注释依赖缺失(CADD)程序确定的变异影响排名,提高了我们系统识别致病遗传因子的能力。因此,针对遗传病患者的分析流程包括了与提供给Gemini的基因列表和人类表型本体(HPO)术语一起的CADD变异影响评估。对于每位患者,Gemini识别的遗传因子得到了照顾他们的遗传学专家的验证。
遗传病患者1在幼年经历多次感染,包括一次隐源性脑膜炎,后来出现其他不明原因的多器官炎症(葡萄膜炎、心包炎、心肌炎)。Gemini分析基因组序列分析确定的232个候选基因、不同临床特征的14个HPO术语,识别出最可能与观察到的临床特征相关的候选基因。白细胞介素-1受体相关激酶4(IRAK4)是Gemini排名最高的基因。IRAK4是唯一具有高影响突变的排名靠前基因:Q122处的终止密码子(c.364C>T)截短了460个氨基酸的IRAK4蛋白。随后对该患者基因组序列的分析发现了一个13.1 kb的缺失,该缺失移除了IRAK4的外显子6-11和部分外显子12。因此,该患者在一个丝氨酸-苏氨酸激酶中存在高影响的双等位基因突变,该激酶触发病原体防御所需的促炎细胞因子(IL-1, IL-8, IL-33和I型干扰素)的释放。与临床特征一致,IRAK4缺陷个体在幼年易患化脓性感染,并在后期发生脑炎和其他炎症状况。
遗传病患者2是一名幼年男孩,有自婴儿期起的全面发育迟缓史,身材矮小,矢状缝早闭,单侧鼻气道阻塞,新生儿期肌张力低下和张力减退。检查可见毛发稀疏、睑裂下斜、面部肌张力低下、趾重叠、手部第二和第五指甲小。Gemini评估了选定的候选基因和描述临床特征的34个HPO术语,识别出47个候选基因,但只有两个具有高影响等位基因。鸟氨酸脱羧酶1(ODC1)中的一个移码缺失(Pro438Argfs*9)被识别为这一不寻常异常集合的可能原因,因为它改变了9个氨基酸的序列(从Pro438开始),然后导致462个氨基酸的ODC1蛋白截短。ODC13'端的突变导致一种神经发育障碍(Bachmann-Bupp综合征),其特征是发育迟缓、肌张力低下和非先天性脱发。ODC1编码多胺产生的限速酶,多胺对胚胎发育和细胞增殖至关重要。C末端截短突变通过阻止其与介导其蛋白酶体降解的蛋白质相互作用而增加ODC1活性;这种遗传效应机制在小鼠中产生皮肤皱纹、指甲生长加快和脱发。
遗传病患者3是一名年轻女孩,表现为婴儿期发病的发育性癫痫性脑病,伴有相关的智力残疾和自闭症谱系障碍特征。癫痫发作首次出现在7个月大时;她13个月会走路,2岁时发展出钳状抓握。她不能言语。检查还可见高腭弓、长睫毛、牛奶咖啡斑、关节过度活动、小手小脚、小头;7个月大时脑部MRI正常。在Gemini评估的具有变异的基因和14个HPO术语中,识别出48个候选基因,但只有两个具有高影响移码变异。基于临床特征,细胞周期蛋白依赖性激酶样5(CDKL5)的一个移码变异(ENST00000623535.2:c.2828_2829del: p.(Arg943Asnfs*11))被识别为可能的遗传原因。该变异改变了从Arg943开始的11个氨基酸的序列,然后截短了960个氨基酸的蛋白质。CDKL5是一种丝氨酸苏氨酸激酶,在大脑中高度表达,调节N-甲基-D-天冬氨酸受体的突触后定位和组成。其长C末端序列调节CDKL5从核到胞质的穿梭,这就是C末端移码突变可能降低CDKL5酶活性的方式。与该患者的异常一致,CDKL5缺乏症是一种X连锁疾病,其特征是全面发育迟缓、智力残疾、癫痫发作和自闭症特征,这些常见报道,还有手部刻板动作。
遗传病患者4是一名成年男性,有24岁开始的进行性近端肌无力史,肌电图显示可能的肌炎,对泼尼松治疗无反应。患者还有肌酸磷酸激酶升高、超声心动图显示射血分数44%、肌肉活检显示可能的肌丝蛋白病和dysferlin蛋白病、MRI显示近端腿部肌肉萎缩。患者后来出现面部肌肉无力,从坐位站起困难。Gemini评估了9个HPO术语,识别出腺苷琥珀酸合成酶1(ADSS1 Asp261Asn)突变为可能原因,因为它位于一个蛋白质结构域内,先前识别的ADSS1连锁肌病的致病突变位于该域。ADSS1催化IMP向AMP的转化,这对肌肉中的能量产生至关重要。与该患者的表现一致,ADSS1肌病是一种在年轻人中发病的进行性肌病,肌肉组织病理学可能包括纤维分裂和局灶性纤维化。由于ADSS1肌病是一种常染色体隐性遗传病,Gemini建议在该受试者中寻找额外的ADSS1突变。
遗传病患者5是一名年轻男性,有婴儿早期发现的全面发育迟缓、肌阵挛性癫痫、中枢性肌张力低下和胃肠道症状(包括反流和便秘)。Gemini评估了9个HPO术语,排名第二的基因在RHOBTB2中有一个错义变异(Arg461His)。RHOBTB2突变与早发性癫痫、发育迟缓和胃肠道症状相关,这些症状在一小部分此类患者中被注意到。该患者的突变位于一个结构域内,其他致病的RHOBTB2突变也位于此域,并且该域对RHOBTB2功能很重要。
遗传病患者6是一名年轻女孩,有畸形特征史、肌张力低下、发育迟缓和发育倒退。虽然她在两个月时有头部控制能力,6个月开始吃固体食物,但后来失去了这些技能,并依赖饲管喂养。她还有牙齿萌出晚伴乳牙早失、喉裂、多次肺炎后肺功能不全伴氧依赖。她在3岁时出现肾上腺功能早现,并有两次胰腺炎发作。MRI显示基底节区T2信号增加和白质体积减少。她在幼儿期经历过热性惊厥。检查可见眉弓连合、前发际线低、右鬓角有一撮头发、后头皮有较粗糙头发区、趾重叠、下唇突出、下颌突出、轻度漏斗胸和长睫毛。Gemini识别出RNA聚合酶III亚基α(POL3RA)中的错义(Ser467Leu)和剪接位点(ENST00000372371.3:c.1771-7C>G:p.?)突变与这些异常最密切相关。POLR3A编码RNA聚合酶III的一个基本亚基,用于转录tRNA和rRNA。复合杂合突变导致一种神经退行性疾病,其特征是脑髓鞘形成缺陷(儿童期发病的髓鞘形成不良性脑白质营养不良7,HLD7),其临床特征与该患者严重的神经系统症状和观察到的MRI结果一致。
2.5 比较性能
我们将上述分析中选出的四个复杂度递增的场景提交给四个LLM:OpenAI GPT4.5、DeepSeek R1、OpenAI mini-03-hi和Claude Sonnet 3.7。前两个场景分析小鼠白内障和听力损失的候选基因,第三和第四个场景是遗传病患者1和2的数据。用于这些比较的提示与上面使用的相同。简要来说,OpenAI GPT4.5对所有四个场景提供了错误答案;DeepSeek R1和OpenAI mini-03-hi对两个小鼠场景提供了正确答案,但对两个遗传病患者提供了错误答案;Claude Sonnet 3.7对两个小鼠场景中的一个和两个遗传病患者中的一个提供了正确答案。虽然Gemini 2.5比其他测试的LLM表现更好,但仅分析四个案例并不能全面评估不同LLM的相对能力。
我们接下来比较了使用CADD等位基因影响排名、使用Exomiser(一套用于优先处理遗传病诊断基因或变异的算法)获得的排名,或使用带有或不带有CADD等位基因排名的临床提示的Gemini的相对性能。评估了每种方法分析基因列表和变异信息并识别六名遗传病患者致病基因的能力。CADD分析将四名遗传病患者的致病基因排名为第一或第二高,但无法优先处理两个致病基因,因为它无法分析移码突变。Exomiser将两名遗传病患者的致病基因排名为与其临床状况关联最高;两个致病基因排名第五,但两名受试者的致病基因被Exomiser排名第25位,这意味着它们不太可能被考虑。在没有CADD排名的情况下进行的Gemini分析从未将致病基因识别为排名最高的基因,但两个致病基因排名第二高,两个排名第七或第八,两个排名第25或39位。相比之下,带有CADD信息的Gemini分析将5名遗传病患者中的致病基因识别为排名最高的基因。一名遗传病患者的致病基因排名第15位,因为一个移码变异无法获得CADD排名。我们的结果也与最近开发的一种用于诊断罕见遗传病受试者的图神经网络(GNN)方法获得的结果相比具有优势,作者显示该方法优于其他10种可用的基因排序方法。然而,当该GNN分析包含少量专家精选基因(n = 13 ± 8)的基因列表时,致病基因仅在40%的时间内是排名最高的基因。当它评估通过变异计算分析生成的包含较大数量基因(n = 223 ± 244)的列表时,致病基因仅在21%的时间内是排名最高的基因,并且在48%的时间内位于排名前10的基因之中。此外,Gemini输出的假设和支持性证据为其基因排序提供了理由,使临床医生或研究人员能够更好地评估结果。总之,使用CADD变异排名和Gemini LLM的AI流程提高了我们正确分配遗传因果关系的能
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号