基于独特患者分层与机器学习的匈牙利人群COVID-19严重性新型遗传易感与保护因子识别

《International Journal of Molecular Sciences》：A Unique Patient Stratification Method Combined with a Machine Learning Approach Identifies Novel Genetic Susceptibility and Protective Factors for Severe COVID-19 in a Hungarian Population Alexandra Neller, Mátyás Bukva, Bence Gálik, József Kun, Nikoletta Nagy, Ferenc Somogyvári, Valéria Endrész, Margit Pál, Barbara Anna Bokor and Márta Széll + 9 authors

【字体：大中小】 时间：2026年03月04日 来源：International Journal of Molecular Sciences 4.9

编辑推荐：

　　本研究创新性地结合临床分层与机器学习，在匈牙利人群中识别出877个与COVID-19严重性相关的基因。通过对比年龄、疾病严重度与临床背景构成的极端队列，研究成功区分了易感与保护性遗传因子，最终将基因集精炼为30个关键基因。这不仅为理解疾病遗传基础提供了新视角，也为开发个性化风险预测工具（WES、Random Forest）奠定了基础，尤其关注了代表性不足的人群，具有重要的临床转化潜力。

背景与目标

严重急性呼吸系统综合征冠状病毒2(SARS-CoV-2)感染引发的2019冠状病毒病(COVID-19)，其临床结局表现出显著异质性。尽管高龄和并存病是已知的严重疾病强风险因素，但临床观察中存在矛盾现象：部分年轻、低风险个体发展为重症，而一些高龄、多病共存者却仅经历轻症。这提示宿主遗传因素在疾病转归中扮演着重要角色。既往研究已识别出与COVID-19易感性和严重性相关的多个基因，例如干扰素相关基因（TLR3, IFNAR1/2, IRF9）、病毒进入因子（ACE2, TMPRSS2）及特定人类白细胞抗原(HLA)单倍型。然而，在异质性患者群体中，传统分析方法可能因强临床风险因素的混杂效应而掩盖宿主遗传变异的作用。本研究旨在通过一种新颖的患者分层方法，结合全外显子组测序(Whole-Exome Sequencing, WES)与机器学习算法，在匈牙利患者队列中识别与COVID-19严重性相关的遗传变异，区分易感与保护性遗传因素，以期为开发个性化的严重疾病风险评估工具提供依据。

研究设计：独特的患者分层方法

为最大限度地突出遗传贡献，本研究摒弃了传统的仅依据年龄和并存病的分层策略，转而设计了两组临床特征与疾病结局呈“矛盾”对比的焦点队列。研究在匈牙利的两家临床中心进行，共纳入700名患者，并从中根据严格标准筛选出四个定义明确的亚组进行WES分析，总样本量为168人。四个队列定义如下：

•
年轻焦点队列(Young Focus Cohort, YFC, n=38)：年龄<65岁，患有严重或危重型COVID-19，但具有较少或无临床风险因素。此组代表了“高危临床背景下的严重结局”。
•
老年焦点队列(Old Focus Cohort, OFC, n=34)：年龄≥65岁，仅患有轻至中度COVID-19，但存在多种并存病。此组代表了“低危临床背景下的轻症结局”。
•
年轻对照队列(Young Control Cohort, YCC, n=31)：年龄<65岁，患有轻症COVID-19，并存病少。此组代表符合经典流行病学预期的年轻低风险轻症患者。
•
老年对照队列(Old Control Cohort, OCC, n=49)：年龄≥65岁，患有严重COVID-19，并存病多。此组代表符合经典预期的高风险重症患者。

通过这种设计，YFC与OFC的对比旨在揭示驱动“意外”临床结局的遗传因素，而YCC与OCC的对比则主要反映年龄和并存病的影响。统计分析确认，这种分层有效地区分了年轻与老年队列之间的并存病负担，而年龄匹配的焦点与对照队列内部在并存病数量上无显著差异，保证了比较的有效性。

核心发现：机器学习识别关键基因集

对168名个体进行WES后，研究人员计算了每个基因的单核苷酸多态性(SNP)突变负荷，构建了包含20,048个基因的变异数据集。随后，采用随机森林(Random Forest)机器学习方法对YFC和OFC这两个焦点队列进行分析，以识别能够区分两者的关键基因变异模式。

1.
识别877个区分基因：通过信息增益算法进行特征选择，最终筛选出877个基因。基于这877个基因的变异模式构建的随机森林模型，能够以89.20%的平均分类准确率区分YFC和OFC。该基因集同样能有效区分焦点队列与其对应的对照队列：区分YFC与YCC的准确率为84.10%，区分OFC与OCC的准确率为88.10%。相比之下，直接比较两个对照队列YCC和OCC时，分类准确率仅为57.11%，表明这两个队列的遗传背景相似，其疾病结局差异主要由非遗传因素（如年龄、并存病）驱动，这与研究假设一致。t-SNE可视化也直观展示了YFC与OFC样本形成明显不同的簇，而对照组则存在部分重叠。
2.
区分易感性与保护性基因：在877个基因中，通过比较YFC和OFC的平均变异计数，将431个基因归类为易感性基因（在YFC中变异频率更高），将446个基因归类为保护性基因（在OFC中变异频率更高或相等）。个体水平的分析显示，易感性与保护性SNP计数的比值在四个队列中存在显著差异。YFC的比值最高（1.33），OFC的比值最低（0.65），而两个对照组的比值接近（YCC=0.97, OCC=0.93），进一步证实了这种基因分类方向性在个体层面的有效性。OFC) and 446 as protective (OFC ≥ YFC). Among susceptibility genes, 246/431 (57.08%) show higher average SNP counts in OCC than OFC, and 369/431 (85.61%) are higher in YFC than YCC. Among protective genes, 419/446 (93.95%) are higher in OFC than OCC, and 302/446 (67.71%) are lower in YFC than YCC. Mean ratios: OFC 0.65, YFC 1.33, YCC 0.97, OCC 0.93—confirming that the gene-categorization directionality is preserved at the individual level.">
3.
确定最小鉴别基因集：为了提高临床实用性，研究进一步精简基因集。通过按信息增益值对基因排序并逐步纳入模型，发现仅使用前30个最重要的基因即可达到80.60%的分类准确率，继续增加基因数量仅带来微小的提升。这30个基因构成了一个精简而高效的预测面板，在对所有比较（YFC vs OFC, YFC vs YCC, OFC vs OCC）进行评估时，平均效率达到90%。重要的是，该30基因面板无法区分YCC和OCC，再次印证了其特异性。2 (severe/mild) SNP ratios for the top genes, showing susceptibility (red) and protective (blue) associations.">

生物学通路与功能关联

对识别出的877个基因进行基因本体(Gene Ontology, GO)富集分析，发现它们在分子功能上显著富集于蛋白质结合和阳离子结合；在生物过程上富集于生物调节；在细胞组分上富集于细胞质和侧体等。进一步的免疫特征富集分析（使用Metascape）显示，这些基因显著富集于与巨噬细胞活化、干扰素刺激状态、Toll样受体配体刺激、以及T细胞活化和分化相关的基因集中。这些通路与病毒感染期间的宿主免疫反应密切相关，支持了所识别基因集的生物学合理性。例如，干扰素信号传导是抗病毒防御的核心，而过度先天免疫感应可能导致严重COVID-19中观察到的炎症失调。

与已知研究的对比与意义

本研究确定的基因集与COVID-19宿主遗传学计划(COVID-19 Host Genetics Initiative, HGI)等大型全基因组关联研究(GWAS)的结果存在部分交叉。在877个基因的层面上，与HGI报道的基因有重叠，包括THBS3、FBRSL1、KANSL1、DPP9、TYK2、IFNAR2、ELF5和SLC22A31等。这些基因涉及干扰素驱动的抗病毒信号（如TYK2、IFNAR2）、炎症小体相关信号（如KANSL1、DPP9）以及上皮-细胞外界面生物学（如THBS3、ELF5），表明本研究捕捉到了已知的宿主遗传信号。然而，核心的30基因最小面板与HGI结果无直接重叠，这反映了本研究的焦点是优化特定队列内的预测性能，从而得到一个精简的预测特征集，而非全面的疾病相关位点目录。与基于转录组学构建预测模型的研究（如Lai等和Zheng等的研究）不同，本研究基于WES和SNP突变负荷，着眼于揭示感染前的宿主基因组水平决定因素，为早期风险识别提供了补充视角。

研究的优势与局限性

本研究的主要优势在于其创新的患者分层策略，通过构建临床特征与疾病结局矛盾的极端队列，有效放大了潜在的遗传信号。结合WES与随机森林机器学习，成功识别出与疾病严重性高度相关的基因集，并精炼出具有高预测效能的30基因面板。该研究聚焦于代表性不足的中东欧（匈牙利）人群，增加了现有遗传数据的多样性。所建立的方法框架为未来将基因组数据整合到临床决策中提供了概念验证。

然而，研究也存在一些局限性。样本量相对较小且为单一人群设计，可能限制研究结果的普适性。虽然通过交叉验证进行了内部验证，但特征选择和模型训练使用同一数据集，存在过拟合风险，可能高估预测性能。因此，未来需要在独立的外部队列中进行验证。此外，本研究为发现性研究，未对涉及的基因进行功能验证，所报告的关联是统计学上的优先排序，不应直接解释为因果生物学机制的证据。某些已知的免疫相关基因（如部分干扰素通路基因）未被模型优先考虑，但其生物学相关性不能排除，需要在未来的面板迭代中进一步评估。

结论与展望

本研究在匈牙利患者队列中，通过结合独特的临床分层、全外显子组测序和随机森林机器学习，成功识别出30个与COVID-19严重性最相关的基因，构成了一个最小但高效的风险预测基因集。这30个基因包含了易感性和保护性因子，能够高精度地区分疾病严重程度不同的患者群体。评估个体发展为重症COVID-19的风险对患者和临床治疗至关重要。随着WES和基因面板筛查成本的下降，基于此基因集的遗传筛查有望成为一种经济有效的方法。研究结果为开发个性化的严重COVID-19风险诊断工具奠定了基础，并可能促进对疾病发病分子通路的理解，从而揭示新的治疗靶点。未来的工作将集中于在独立队列中验证该基因面板，并对优先基因进行功能表征和表达谱分析，以推动这些统计学发现向具有生物学基础和临床信息的应用转化。

热点排行

新闻专题