编辑推荐:
本文通过整合多队列转录组数据和单细胞测序,运用机器学习筛选,成功鉴定出慢性鼻窦炎伴鼻息肉(CRSwNP)中与上皮-间质转化(EMT)过程密切相关的三个核心基因:SPP1、PTHLH和IGFBP3。研究构建的诊断模型在训练集和外部验证集中均展现出优异的判别效能(AUC 0.888-0.991),并通过双中心临床样本的qRT-PCR和免疫组化/免疫荧光验证,证实了其表达与组织重塑、免疫微环境改变及患者症状负担(SNOT-22)正相关,为理解CRSwNP的病理机制和寻找潜在干预靶点提供了新的分子框架。
慢性鼻窦炎伴鼻息肉(CRSwNP)是一种以鼻腔和鼻窦黏膜慢性炎症、组织水肿和息肉形成为特征的异质性疾病,严重影响患者生活质量。尽管当前以鼻用糖皮质激素和内镜鼻窦手术(ESS)为主的治疗方案取得了一定疗效,但仍有相当一部分患者面临症状控制不佳和术后复发等挑战。近年来,上皮-间质转化(EMT)被证实是连接炎症、上皮屏障功能障碍和黏膜重塑的关键病理过程,但缺乏跨队列、可重复验证的EMT核心生物标志物。本项研究旨在通过多组学整合分析与机器学习筛选,系统鉴定CRSwNP中与EMT相关的核心基因,并阐明其细胞来源、功能关联及临床意义。
研究方法与设计
研究采用系统性整合分析策略,首先将重庆队列的RNA测序数据与四个来自GEO数据库的公开数据集(GSE72713、GSE136825、GSE179265、GSE198950)合并,构建包含77例CRSwNP和47例对照样本的训练集。利用ComBat方法校正批次效应后,通过差异表达分析、加权基因共表达网络分析(WGCNA)与MSigDB数据库中的EMT基因集取交集,初步筛选出25个EMT相关候选基因。随后,应用三种机器学习算法进行特征筛选:最小绝对收缩和选择算子回归(LASSO)、支持向量机递归特征消除(SVM-RFE)和随机森林(RF)。三种算法的交集最终锁定三个基因作为EMT核心基因:分泌磷蛋白1(SPP1)、甲状旁腺激素相关蛋白(PTHLH)和胰岛素样生长因子结合蛋白3(IGFBP3)。
基于这三个核心基因,研究构建了多种分类器(如LDA、Ridge、GBM、XGBoost、朴素贝叶斯)的诊断模型,并在训练集和独立的外部验证数据集GSE23552中评估其判别性能,计算受试者工作特征曲线下面积(AUC)。为了深入解析核心基因的生物学背景,研究进一步利用单细胞转录组数据(HRA000772数据集)定位了它们在鼻黏膜组织中的主要细胞来源。同时,通过单样本基因集富集分析(ssGSEA)和CIBERSORT评估了免疫浸润特征,并利用基因集变异分析(GSVA)探讨了与核心基因高表达相关的信号通路活动。此外,还通过数据库预测了核心基因的转录因子调控网络、化合物相互作用以及与其他耳鼻咽喉科疾病的关联。
研究的最终验证环节在两个独立的临床中心(重庆队列和辽宁队列)完成。利用定量实时聚合酶链式反应(qRT-PCR)在更大规模的临床样本中验证了核心基因的表达差异及其与22项鼻结局测试(SNOT-22)症状评分的相关性。最后,在组织学水平上,通过免疫组化(IHC)和免疫荧光(IF)技术,在健康对照、非嗜酸性CRSwNP和嗜酸性CRSwNP组织中,检测了经典EMT标记物(E-钙粘蛋白、N-钙粘蛋白)以及三个核心基因的蛋白表达水平,以提供直观的形态学证据。
研究核心发现
- 1.
核心基因的鉴定与验证:经过多算法筛选,SPP1、PTHLH和IGFBP3被确定为CRSwNP的EMT核心基因。在训练集、外部验证集(GSE23552)以及重庆、辽宁双中心临床样本的qRT-PCR验证中,这三个基因在CRSwNP组织中的表达均显著上调。基于这三个基因构建的诊断模型在训练集中AUC达到0.944-0.991,在外部验证集中AUC达到0.888-0.938,显示出强大的判别能力。SHAP可解释性分析表明,三个基因对模型的预测均有重要贡献。
- 2.
细胞来源定位:单细胞转录组分析揭示了三个核心基因具有不同的细胞来源。SPP1主要来源于髓系细胞(如巨噬细胞),PTHLH主要在上皮细胞中富集,而IGFBP3则在成纤维细胞等基质细胞中表达较高。这种差异化的细胞定位提示,EMT过程可能涉及不同类型细胞之间的复杂交互对话。
- 3.
免疫微环境与通路特征:免疫浸润分析显示,CRSwNP组织中存在广泛的免疫细胞组成改变,包括巨噬细胞、肥大细胞等浸润增加。三个核心基因的表达与多种免疫细胞的浸润评分呈显著正相关。GSVA通路分析发现,核心基因高表达的样本倾向于激活炎症小体/细胞焦亡相关信号、糖酵解、氧化应激等通路,而与神经递质清除、激素代谢相关的通路则呈现抑制趋势。
- 4.
组织学与临床相关性验证:组织学染色结果提供了直接证据。在CRSwNP,尤其是嗜酸性亚型中,经典上皮标记物E-钙粘蛋白表达下降,而间质标记物N-钙粘蛋白表达上升,证实了EMT表型的存在。同时,SPP1(IHC)、PTHLH(IF)和IGFBP3(IF)的蛋白表达也在CRSwNP组织中增强,且在嗜酸性亚型中信号更强。此外,在双中心临床队列中,三个核心基因的mRNA表达水平均与患者的SNOT-22症状评分呈正相关,其中SPP1的相关性最为一致(斯皮尔曼相关系数r = 0.560-0.569),表明这些基因与患者的疾病负担密切相关。
结论与展望
本研究通过整合多队列转录组学、单细胞测序和机器学习,成功鉴定并验证了SPP1、PTHLH和IGFBP3作为CRSwNP中稳健的EMT相关核心基因。这些基因不仅在不同平台和独立队列中表达一致上调,而且与免疫微环境改变、特定信号通路激活以及患者临床症状显著相关。它们代表了连接炎症、上皮屏障功能障碍和组织重塑的关键分子节点。
其中,SPP1作为主要由髓系细胞分泌的基质蛋白,可能通过旁分泌作用影响上皮和基质细胞状态;PTHLH作为上皮来源的因子,可能直接参与上皮细胞的EMT程序;而IGFBP3则可能在成纤维细胞介导的细胞外基质重塑中发挥作用。三个基因共同勾勒出一个涉及免疫细胞-上皮细胞-基质细胞交互作用的EMT相关分子网络。
本研究的主要优势在于通过多层次证据链(从群体关联到细胞定位,再到组织学验证)构建了坚实的分子框架。然而,研究本质是探索性和横断面研究,尚未建立因果关系,也未评估这些核心基因对治疗反应或术后复发的预测价值。未来的研究方向应包括:在前瞻性纵向队列中验证这些基因对临床结局(如复发时间、生物制剂疗效)的预测能力;在细胞和动物模型中进行功能获得/缺失实验,以阐明其具体的分子机制;并探索靶向这些基因或其信号通路是否能为CRSwNP的治疗提供新的策略。总之,本研究发现为理解CRSwNP的复杂病理机制提供了新的见解,并为未来的转化研究和精准医疗策略开发提供了有潜力的候选生物标志物和干预靶点。