《Life》:Machine Learning Identification of Cell-Type-Specific Molecular Signatures Distinguishing COVID-19 from Other Lower Respiratory Tract Diseases
Yusheng Bao,
Xianchao Zhou,
Lei Chen,
Kaiyan Feng,
Wei Guo,
Tao Huang and
Yu-Dong Cai
编辑推荐:
冠状病毒病2019(COVID-19)与其他下呼吸道疾病(LRTDs),包括细菌性肺炎和急性呼吸窘迫综合征,具有重叠的临床特征,但源于不同的病理生理机制。区分这些疾病的分子特征在非洲人群中仍未得到充分表征,其遗传背景、地方性感染和环境暴露可能显著塑造免疫反应。
冠状病毒病2019(COVID-19)与其他下呼吸道疾病(LRTDs),包括细菌性肺炎和急性呼吸窘迫综合征,具有重叠的临床特征,但源于不同的病理生理机制。区分这些疾病的分子特征在非洲人群中仍未得到充分表征,其遗传背景、地方性感染和环境暴露可能显著塑造免疫反应。研究人员整合了来自马拉维30例患者肺尸检标本的空间分辨单细胞转录组图谱,包括10例COVID-19、12例其他LRTDs和8例非LRTD对照。共分析了代表15种细胞类型和36,602个基因表达特征的61,391个细胞。利用结合九种特征排序算法与增量特征选择(IFS)的集成机器学习框架,研究人员在该队列中鉴定了可区分疾病状态的潜在分子特征。最佳分类模型实现了大于0.94的加权F1分数,证明了在数据中区分COVID-19与其他LRTDs的强大能力。值得注意的是,COVID-19中的巨噬细胞相关状态以IFN-γ反应为主,伴有CD163和HLA-DQA2的上调,这与欧洲队列报道的I/III型干扰素特征形成鲜明对比。此外,研究人员观察到细胞类型特异性的COVID-19特征,包括AT1细胞中CAV1的下调(与上皮损伤一致)、AT2细胞中SFTPC的失调(提示表面活性剂功能障碍)以及中性粒细胞中NFKBIA的上调(表明炎症调节改变)。Gene Ontology(GO)富集进一步揭示了蛋白质合成机制的普遍破坏,以及免疫激活、上皮修复和炎症信号通路中的细胞类型特异性改变。
该研究针对COVID-19与其他下呼吸道疾病(LRTDs)在临床特征上的重叠性,以及非洲人群相关研究数据的匮乏,旨在通过整合空间分辨单细胞转录组学与机器学习(ML)方法,解析马拉维人群中区分COVID-19与其他LRTDs的细胞类型特异性分子特征。研究背景指出,尽管COVID-19与其他LRTDs(如细菌性肺炎、急性呼吸窘迫综合征)均表现为下呼吸道损伤,但其病理生理机制(如内皮损伤、免疫失调模式)存在显著差异,且既往研究多集中于欧美及亚洲人群,缺乏对非洲遗传背景、地方性疾病共感染及环境暴露影响下的免疫应答表征。为此,研究人员利用已发表的马拉维患者肺尸检单细胞数据集(含10例COVID-19、12例其他LRTDs、8例非LRTD对照),通过集成机器学习框架筛选关键基因特征,揭示疾病特异性分子机制。相关成果发表于《Life》期刊。
关键技术方法包括:基于Zenodo数据库获取马拉维患者肺组织单细胞RNA测序数据(15种细胞类型,61,391个细胞);采用九种特征排序算法(Ridge、Lasso、Random Forest等)评估基因重要性,结合增量特征选择(IFS)与合成少数类过采样技术(SMOTE)构建分类模型,通过五折交叉验证优化性能;利用gseapy包进行Gene Ontology(GO)与KEGG通路富集分析,解析关键基因功能。
研究结果部分:
- 1.
特征排序结果显示,九种算法对不同细胞类型的特征排序存在差异,但通过IFS与分类模型(Ridge或Random Forest)评估发现,多数细胞类型的最优模型加权F1分数>0.94,其中AT2细胞(0.992)、基底细胞(0.993)等表现最佳,表明模型可有效区分疾病状态。
- 2.
跨算法联合分析通过定义“肘点”筛选精简特征集,发现重复被多种算法识别的基因具有更高的生物学相关性,这些基因构成后续功能富集的基础。
- 3.
富集分析表明,所有细胞类型均存在蛋白质合成与核糖体相关通路的普遍富集(如肽生物合成、细胞质翻译),反映病毒复制对宿主翻译程序的重编程;细胞类型特异性通路则显示,免疫细胞富集于抗原呈递与细胞因子产生,肺泡上皮细胞表现为应激反应与表面活性剂代谢异常,内皮细胞涉及血管重塑相关通路;KEGG分析进一步揭示冠状病毒疾病通路在14种细胞类型中富集,且IL-17信号、抗原加工呈递等通路呈现细胞类型特异性分布。
讨论与结论部分指出,该研究通过机器学习鉴定了非洲人群COVID-19的特征性分子标签:巨噬细胞以IFN-γ驱动的反应为主(区别于欧美队列的I/III型干扰素特征),AT1细胞CAV1下调、AT2细胞SFTPC失调及中性粒细胞NFKBIA上调等细胞类型特异性改变,揭示了COVID-19与LRTDs在病理机制上的差异。研究局限性包括样本量较小(30例)、机器学习框架中超参数设置未优化等,但结果为资源有限地区开发诊断标志物提供了依据,强调了考虑人群差异的精准医学策略的重要性。最终结论强调,该研究通过集成机器学习与单细胞转录组学,系统解析了马拉维人群肺细胞在COVID-19中的分子特征,为跨区域疾病机制比较及个性化治疗靶点开发提供了理论基础。