编辑推荐:
为解决新冠病情严重程度预测难题,研究人员开展相关研究,发现 215 个相关基因及 5 个关键生物标志物,意义重大。
《新冠研究新突破:发现 5 大关键生物标志物助力病情预测》
自 2019 年 12 月以来,新冠病毒(SARS-CoV-2)引发的 COVID-19 疫情在全球肆虐,给人类健康带来了巨大威胁。世界卫生组织数据显示,疫情期间病例和死亡人数不断攀升。SARS-CoV-2 属于 β 冠状病毒属,感染人体后,免疫系统会释放干扰素(IFNs)等物质对抗感染。然而,新冠症状多样,从轻微到严重不等,且与多种疾病症状相似,这给诊断和治疗带来了极大挑战。同时,部分患者会出现过度免疫反应,如细胞因子风暴,导致病情加重。而且,现有研究中关于新冠病情严重程度的生物标志物尚需进一步验证,样本量等因素也影响着研究结果的可靠性。在此背景下,为了更深入了解新冠病毒感染机制,找到可靠的病情预测生物标志物,来自相关机构的研究人员开展了此项研究,研究成果发表在《Advances in Biomarker Sciences and Technology》上。
研究人员采用了多种关键技术方法。首先,从基因表达综合数据库(GEO)获取 126 个样本(100 个感染样本和 26 个健康对照),利用自动化可重现模块化工作流程(ARMOR)对 RNA 测序(RNAseq)数据进行预处理和分析,包括质量控制、序列修剪、比对和定量等步骤。接着,运用条件生成对抗网络(cGAN)和条件瓦瑟斯坦生成对抗网络(cWGAN-GP)进行数据增强,以解决样本量不足的问题。之后,通过随机森林递归特征消除交叉验证(RFECV)方法筛选与病情严重程度相关的基因,并利用基因本体论(GO)富集分析探究这些基因参与的生物过程。
研究结果如下:
- 数据预处理:经过一系列处理,共得到 19,994 个蛋白编码基因,差异表达分析筛选出 916 个差异表达基因(DEGs),其中 503 个上调,413 个下调。主成分分析(PCA)表明数据的变异主要由生物学因素引起,无明显批次效应。
- 数据增强:在数据增强前,先对原始数据集进行探索和预处理,包括数据缩放和降维等操作。确定 cGAN 和 cWGAN-GP 模型的架构和超参数后进行训练,生成合成数据。经评估,合成数据在统计特性和机器学习模型准确性上表现良好,数据增强后模型准确率显著提高,cGAN 增强数据集准确率达 94.58%,cWGAN-GP 增强数据集准确率达 95.21%。
- 特征选择和模型评估:从 cGAN 和 cWGAN-GP 增强的数据集中分别筛选出 56 个和 815 个最优特征,其中有 56 个重叠特征。结合文献验证,最终确定 215 个重叠特征为生物标志物,包含 112 个上调基因和 103 个下调基因。使用随机森林(RF)模型对这些特征进行评估,发现使用 215 个重叠特征的模型准确率更高,cGAN 增强数据集上可达 95.31%。
- 基因本体论功能富集分析:GO 富集分析显示,SARS-CoV2 病情严重程度与中性粒细胞脱颗粒、中性粒细胞激活参与免疫反应等生物过程的失调有关。这表明在新冠感染过程中,免疫系统的这些环节出现异常,可能导致病情加重。
- 顶级生物标志物和临床效用评估:考虑到临床实施的可行性,研究人员从 cGAN 增强的数据集中选取 5 个最重要的基因(CCDC65、ZNF239、OTUD7A、CEP126 和 TCTN2)作为生物标志物进行评估。基于这 5 个基因的随机森林模型在区分轻症和重症患者方面表现出色,准确率达 0.94,曲线下面积(AUC)为 0.98。
研究结论和讨论部分指出,本研究通过先进的数据增强技术和机器学习模型,确定了 215 个与新冠病情严重程度相关的基因,并筛选出 5 个关键生物标志物。这些生物标志物在新冠病毒感染机制中发挥重要作用,如参与纤毛组装、免疫调节和炎症反应等过程。它们不仅有助于深入理解新冠病毒感染机制,还具有重要的临床意义,可用于疾病严重程度的诊断、预测和指导个性化治疗。然而,研究也存在一定局限性,如仅关注蛋白编码基因,未来研究可纳入非编码 RNA 等调控元件,进一步深入探究新冠病情严重程度的分子机制。
总体而言,这项研究为新冠病毒研究和临床治疗提供了重要依据,有望推动新冠疫情的防控和治疗取得新的进展,也为转录组学和机器学习在传染病研究中的应用提供了有益参考。