基于机器学习的鼠类心脏发育基因鉴定与优先排序系统及其在先天性心脏病基因诊断中的应用

【字体: 时间:2026年02月12日 来源:PLOS Genetics 3.7

编辑推荐:

  本综述创新性地构建了基于随机森林(RF)的机器学习(ML)分类器,用于系统鉴定与小鼠心脏发育相关的基因。研究通过整合基因序列特征、蛋白互作网络(PPI)、发育表达谱等127个多维特征,实现了对小鼠全基因组蛋白编码基因的心脏发育关联性预测,准确率达81%。该模型成功预测了人类先天性心脏病(CHD)相关基因的同源物,并建立了公开数据库(CDGD),为CHD患者的基因序列数据分析和遗传诊断提供了强大的候选基因优先排序工具,显著提升了致病基因的发现效率。

  
摘要
先天性心脏病(CHD)是导致婴儿死亡的主要原因,并且为患者带来终生挑战。目前仅对少数CHD类型明确了遗传病因。发现更多遗传病因的挑战在于候选基因的优先排序。本研究通过分析小鼠基因的广泛特征,包括序列特征、蛋白定位与互作数据、发育表达数据及基因本体论(GO)注释,发现心脏发育必需基因与非心脏基因在许多特征上存在差异。基于此,开发了一种监督机器学习方法,用于识别具有高概率参与心脏发育的小鼠基因。这些基因发生突变时,是导致人类CHD的候选基因。分类器的交叉验证准确率达到81%。研究对所有小鼠蛋白编码基因的心脏发育关联状态进行了预测,并将预测结果与已知人类CHD基因数据集进行交叉比对,发现预测的心脏基因与人类CHD基因存在高度重叠。这些预测结果可为CHD患者序列数据的遗传诊断提供基因优先排序信息,从而可能加速CHD患者的遗传诊断速度。
引言
先天性心脏病(CHD)是由于心脏在妊娠期间形成错误所致,是最常见的出生时结构性畸形,全球每年影响约135万婴儿,并且是出生缺陷导致婴儿死亡的主要原因。CHD包括多种心脏和大血管畸形,表型严重程度各异。尽管检测和外科干预手段进步提高了CHD患儿的存活率,但患者似乎会出现一系列共病。例如,心理疾病在患有CHD的青少年和成人中持续作为显著的共病。与环境因素可能贡献于异常心脏发育不同,许多CHD病例源于病理性遗传变异。然而,尽管对CHD的遗传基础进行了大量研究,但在高达80%的散发性CHD病例和高达70%的家族性CHD病例中,仍缺乏特定的遗传诊断。发现更多CHD遗传病因的进展受到候选基因优先排序挑战的限制。机器学习(ML)作为人工智能(AI)的一个子集,具有解决这一挑战的潜力。本研究开发了一种监督机器学习分类器,用于识别小鼠心脏发育必需基因的特征。
结果
数据集
从小鼠基因组信息学(MGI)数据库编译了两个数据集:一个包含1415个已知与心脏发育相关的小鼠基因(心脏基因),另一个包含6808个已知与心脏发育无关的基因(非心脏基因)。最终数据集包括1242个心脏基因和6573个非心脏基因。
心脏基因在特征上与非心脏基因不同
分析了127个特征,发现心脏基因与非心脏基因在多个特征值上存在显著差异。心脏基因倾向于更长,有更多转录本、更多外显子以及更长的外显子和内含子。心脏基因在关键小鼠发育阶段(如囊胚期、原肠胚期、器官发生期和新生儿期)的表达比例更高,并且在多种组织(如八周龄小鼠心脏组织、成纤维细胞组织、Theiler阶段10外胚层、受精卵、胸腺组织和干细胞组织)中表达水平更高。心脏基因具有较低的gnomAD功能丧失概率(pLoF)评分。心脏蛋白更长,分子量更高,并且天冬酰胺(Asn)、脯氨酸(Pro)和酪氨酸(Tyr)残基的比例更高。心脏蛋白更可能作为氧化还原酶、转录因子、磷酸化蛋白和乙酰化蛋白发挥作用,并且具有信号肽基序的频率更高。亚细胞定位分析显示,更高比例的心脏蛋白定位于细胞核和胞外区。蛋白互作网络(PPI)分析表明,心脏蛋白在其互作网络中具有更高的连接度(度)、介数中心性和接近中心性,并且更可能成为网络中的枢纽蛋白。基因本体论(GO)分析显示,心脏基因主要富集于“心脏发育”、“心脏形态发生”、“血管生成”等生物过程,而非心脏基因则与“免疫系统反应”、“离子运输”等过程相关。
机器学习的数据集处理
为减轻训练数据集中类别不平衡(心脏:非心脏 ≈ 1:5.3)的影响,创建了平衡的训练数据集,包含所有1242个心脏基因和等量的随机选择的非心脏基因(1242个)。构建了两个测试数据集用于验证预测准确性。
随机森林分类器的性能
使用随机森林(RF)方法构建分类器。初始分类器(RF-1)使用所有127个特征进行10倍交叉验证,准确率为79.8%。通过信息增益特征选择方法筛选出73个最具信息量的特征后,构建的新分类器(RF-2)准确率提高至80.6%。与其他分类器(J48决策树、支持向量机SVM、梯度提升树GBT)相比,RF分类器表现出最佳性能。在独立测试数据集上,分类器正确识别了测试集1中86%的非心脏基因和测试集2中89%的心脏报告基因。
心脏发育相关基因预测
将RF分类器应用于12375个心脏关联状态未知的小鼠蛋白编码基因,预测出4472个(36%)基因可能与心脏发育相关,7901个(64%)基因预测为无关。对预测置信度最高的前15个基因进行了RT-PCR验证,均在小鼠胚胎和心脏组织中表达。通过CRISPR/Cas9技术靶向斑马鱼同源基因epn2atf7ip,在G0代胚胎中观察到显著的心脏表型,包括心包水肿和心脏环化缺陷。对小鼠心肌特异性Atf7ip基因敲除模型的分析也证实了其在心脏发育中的重要作用,观察到心室形态异常、室间隔缺损等表型。这些结果验证了分类器预测的新基因确实参与心脏发育。
心脏发育基因数据库
建立了公开可访问的数据库CDGD,包含所有小鼠蛋白编码基因的心脏/非心脏状态信息(已知或预测)及预测置信度评分。
心脏和非心脏基因的PPI网络
基于“关联性定罪”原则,分析发现已知心脏蛋白与预测心脏蛋白之间的互作数量多于与预测非心脏蛋白的互作。已知心脏蛋白和预测心脏蛋白的PPI网络均显示出比其非心脏对应网络更高的连接度特性。
发育表达模式
基于RNA-Seq数据的曼哈顿距离分析表明,预测的心脏基因与已知心脏基因在小鼠发育的多个Theiler阶段(TS17, TS19, TS21, TS23, TS24)表现出更高的共表达模式(更小的距离),而预测的非心脏基因与已知非心脏基因的共表达更高。
与“未知基因组”的重叠
研究发现,在果蝇“未知基因组”中分析的基因,有74%在小鼠中存在同源物,并且这些同源物分布于预测的心脏和非心脏基因数据集中。这表明对这些预测基因的实验研究有望揭示新的生物学关联。
与新发现的心脏小鼠基因敲除的比较
检索MGI数据库中新报道的(截至2025年8月)具有“异常心脏形态”表型的小鼠基因敲除(69个基因),发现分类器正确预测了其中78%(54个)的基因与心脏发育相关,显示出预测与实验证据之间的高度一致性。
与人类CHD基因的比较
将预测的小鼠心脏基因与多个新近发表的人类CHD基因数据集进行交叉比对,发现76%的新发现人类CHD基因是小鼠预测心脏基因的同源物(超几何检验,P值 = 1.3 × 10-17)。对 Genomics England PanelApp 中“家族性非综合征性先天性心脏病”临床检测面板的25个“绿色”基因(已知人类CHD基因)进行评估,分类器正确识别了其中88%(22个)为已知或预测的心脏基因。对英国10万人基因组计划(UK100KG)队列中发现的79个新型候选CHD基因的分析显示,47%是预测或已知小鼠心脏基因的同源物。
讨论
基因组研究方法学的进步使得CHD患者更容易获得基因组测序。然而,由此产生的一个重大挑战是将特定基因内的变异与个体患者的CHD病因联系起来。机器学习具有发现数据集中模式的能力,为识别CHD相关基因提供了一种有前景的方法。本研究开发的随机森林分类器在10倍交叉验证中达到81%的准确率,并在独立测试数据集上表现出色,表明其能有效区分心脏和非心脏基因。预测显示约36%的小鼠蛋白编码基因可能参与心脏发育。对预测基因的蛋白网络拓扑结构和发育共表达模式的分析支持其与已知心脏基因共同在心脏发育过程中发挥作用的假设。实验验证证实了预测基因(如Epn2, Atf7ip)在心脏发育中的关键作用。预测基因与人类新发现CHD基因的高度重叠,以及其在果蝇“未知基因组”同源物中的广泛分布,凸显了该预测资源的生物学有效性和应用潜力。该机器学习方法提供了一种快速、经济且互补的实验方法来识别心脏发育基因。公开的预测数据库(CDGD)可为研究和临床工作者在评估CHD患者序列数据时提供基因优先排序的依据,有望加速遗传诊断。对预测心脏基因的进一步研究将阐明其在心脏发育中的作用,并揭示与CHD的潜在临床关联。
材料与方法
(此部分概述研究方法要点,细节见原文)
研究遵循相关伦理规范。心脏和非心脏小鼠基因数据集源自MGI数据库。收集了127个特征,包括基因/蛋白序列特性、表达数据、PPI信息、GO注释等。使用WEKA和R软件构建并评估了随机森林等机器学习分类器。采用信息增益法进行特征选择。使用准确率、召回率、精确率、AUC等指标评估性能。通过曼哈顿距离分析基因共表达。利用DIOPT工具进行跨物种同源基因比对。通过RT-PCR验证基因表达。利用条件性基因敲除小鼠模型和斑马鱼CRISPR/Cas9 G0代敲降模型进行功能验证。使用SPSS、R和GraphPad Prism进行统计分析,采用Mann-Whitney U检验、Chi-squared检验、Bonferroni校正、超几何检验等方法。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号