《Journal of Cellular and Molecular Medicine》:Integration of Transcriptomics With Interpretable Artificial Intelligence for Identifying Molecular Signatures of Physiological Stress in Sleep Deprivation
编辑推荐:
摘要:睡眠剥夺(sleep deprivation, SD)可诱发伴随转录组重塑及免疫失调的全身性生理应激(physiological stress),但目前尚缺乏用于评估SD的客观分子指标。本研究整合外周血转录组分析与可解释机器学习(interpretabl
摘要:睡眠剥夺(sleep deprivation, SD)可诱发伴随转录组重塑及免疫失调的全身性生理应激(physiological stress),但目前尚缺乏用于评估SD的客观分子指标。本研究整合外周血转录组分析与可解释机器学习(interpretable machine learning)框架,以鉴定并验证与SD相关的候选分子特征及其在失眠(insomnia)中的潜在关联。研究采用公共基因表达综合数据库(Gene Expression Omnibus, GEO)数据集构建急性SD训练队列、独立SD验证队列及慢性失眠验证队列。首先筛选差异表达基因(differentially expressed genes, DEGs),随后应用六种机器学习算法进行特征选择并结合Shapley加性解释(SHapley Additive exPlanations, SHAP)提高模型可解释性。采用CIBERSORT反卷积推断免疫细胞组成,并进一步评估候选基因与免疫细胞亚群间的关联。训练队列中共鉴定25个DEGs,经可解释机器学习框架筛选出8个高优先级候选基因。其中S100A3在训练队列、独立SD队列及失眠队列中均表现出一致的判别效能,而VEGFB则在失眠队列中显示出显著的诊断潜力。免疫浸润分析表明SD与外周免疫组成改变相关,包括静息自然杀伤(resting natural killer, NK)细胞及活化树突状细胞(dendritic cells, DCs)减少,调节性T细胞(regulatory T cells, Tregs)及初始免疫细胞群体发生改变。S100A3和VEGFB的表达水平与特定免疫细胞亚群显著相关,提示这些分子特征与应激相关免疫调节存在联系。研究结果表明S100A3是急性SD与慢性失眠共有的稳健候选生物标志物,而VEGFB可能反映慢性代谢或炎症适应。所提出的可解释转录组-机器学习框架为发现睡眠相关生理应激分子指标提供了一种非侵入性策略,可为未来睡眠医学中的风险分层提供支持。
论文解读:《转录组学结合可解释人工智能鉴定睡眠剥夺生理应激分子特征的研究》
本文发表于Journal of Cellular and Molecular Medicine。睡眠是维持稳态、认知功能及整体健康的基本生理过程,但现代生活方式导致睡眠剥夺(sleep deprivation, SD)成为严重的公共卫生问题。慢性SD与心血管疾病、代谢综合征及神经认知损害密切相关。从分子层面看,SD不仅引起昼夜节律基因表达异常及表观遗传修饰改变,还导致免疫系统失调与慢性低度炎症。然而目前临床评估SD主要依赖主观自评量表或多导睡眠监测(polysomnography, PSG),前者易受回忆偏倚影响,后者成本高且无法反映病理生理机制,因此亟需能客观量化SD严重程度的外周血分子生物标志物。尽管计算方法已在多组学研究中发挥作用,但缺乏可解释人工智能(interpretable Artificial Intelligence)框架来筛选SD相关稳健标志物,且急性SD与慢性失眠(insomnia)是否存在共享分子通路亦有待探索。为此,研究人员整合血液转录组学与可解释机器学习,旨在从SD差异表达基因(differentially expressed genes, DEGs)中识别跨队列稳定的候选生物标志物,并探讨其与免疫微环境重塑的关系。
主要关键技术方法:
研究人员从GEO数据库获取四个公开转录组芯片数据集:合并GSE98582与GSE37667作为急性SD训练队列(n=72,SD与对照各36例),GSE56931为独立SD验证队列(n=27),GSE208668为慢性失眠验证队列(n=42),并以GSE48113正常昼夜节律数据集为负对照。探针ID映射为基因Symbol后行分位数标准化(quantile normalisation)及ComBat批次校正。采用limma包筛选|log2倍数变化(fold change, FC)|≥0.3且校正后p<0.05的DEGs。功能富集分析使用DAVID(基因本体论生物过程Gene Ontology Biological Process, GO-BP及KEGG等)和clusterProfiler行基因集富集分析(gene set enrichment analysis, GSEA)。以25个DEGs为输入特征构建六种机器学习模型——支持向量机(support vector machine, SVM)、极端梯度提升(eXtreme Gradient Boosting, XGBoost)、随机森林(random forests, RF)、朴素贝叶斯(naive Bayes, NB)、弹性网络(Elastic Net)及多层感知器(multilayer perceptron, MLP),五折交叉验证评估性能,并通过fastshap包计算SHAP值进行特征重要性排序与筛选(归一化总SHAP值≥2)。候选基因诊断效能通过pROC包绘制受试者工作特征(receiver operating characteristic, ROC)曲线并计算曲线下面积(area under the ROC curve, AUROC)。采用CIBERSORT(LM22矩阵,1000次置换)反卷积估算22种免疫细胞亚群相对丰度,Wilcoxon秩和检验比较组间差异,Spearman相关分析考察候选基因与免疫细胞相关性。单因素方差分析(one-way analysis of variance, ANOVA)评估生物标志物在正常昼夜节律中的表达稳定性。
3 Results(结果)
3.1 Data Preprocessing and Quality Control(数据预处理与质量控制): 经层次聚类剔除GSE98582中离群样本后,训练队列含72例。PCA显示校正前样本按数据集聚集,ComBat去除批次效应后样本按生物学状态聚集,分位数归一化使各样本表达分布一致,数据适用于后续分析。
3.2 Identification of Differentially Expressed Genes(差异表达基因的鉴定): 训练队列中鉴定出25个显著DEGs(上调16个,下调9个),火山图展示其分布,热图显示这25个DEGs可将SD组与对照组有效区分。
3.3 Functional Enrichment Analysis(功能富集分析): DEGs显著富集于颗粒酶介导的程序性细胞死亡信号通路、凋亡过程(GO-BP)及NK细胞介导的细胞毒作用(KEGG)。GSEA显示SD组氧化磷酸化及阿尔茨海默病相关通路上调,对照组苯丙氨酸代谢及移植物抗宿主疾病相关通路富集。
3.4 Machine Learning and Feature Selection(机器学习与特征选择): 六模型五折交叉验证均表现良好(Accuracy 0.94~1.00,AUROC 0.98~1.00),其中Elastic Net与MLP达完美分类。基于SHAP分析选取总归一化SHAP值≥2的8个高优先级候选基因,按重要性降序为:VEGFB、CLDN7、S100A3、ZNF594、GZMB、RGS18、HPS5、COX7B。
3.5 Validation of Candidate Genes(候选基因验证): ROC分析显示S100A3在训练队列(AUC=0.83)、独立SD验证队列(AUC=0.75)及失眠队列(AUC=0.92)中均具稳定判别力;VEGFB在训练队列与失眠队列(AUC较高)有判别力但在独立急性SD验证队列中不显著。其余6个基因未在各验证队列中持续达标。Wilcoxon检验证实S100A3在三个病例组均显著改变,VEGFB在训练及失眠组显著而在急性SD验证组不显著。
3.6 Analysis of Immune Cell Infiltration(免疫细胞浸润分析): SD组外周血静息NK细胞与活化髓样树突状细胞比例显著降低,初始B细胞与Tregs比例升高。失眠组见CD8+T细胞、各亚型CD4+T细胞、静息NK细胞、M1巨噬细胞、静息髓样DC及静息肥大细胞比例与对照组有差异。S100A3表达仅与静息NK细胞呈负相关;VEGFB与静息NK细胞、静息记忆CD4+T细胞及M2巨噬细胞正相关,与Tregs及活化记忆CD4+T细胞负相关。
3.7 Validation of Biomarker Specificity in a Normal Circadian Rhythm Cohort(正常昼夜节律队列中生物标志物特异性验证): S100A3表达在24小时正常睡眠-觉醒周期中无显著波动(p=0.413);正常节律组可见部分免疫细胞生理性昼夜波动,但本研究所见SD特征——S100A3显著升高及静息NK细胞显著耗竭——在正常昼夜节律各时点均无此变化,排除昼夜节律混淆。
4 Discussion(讨论总结):
本研究建立了转录组学结合可解释机器学习的整合框架,通过SHAP增强特征选择透明度,优于单纯差异表达分析。S100A3在急性SD与慢性失眠中均具诊断价值,属损伤相关分子模式(damage-associated molecular patterns, DAMPs)家族成员,可通过结合RAGE/TLR4激活NF-κB通路参与应激诱导无菌性炎症,其升高反映系统性炎性应激。VEGFB受PGC-1α与ERRα协同调控,关联线粒体脂肪酸氧化及氧化磷酸化通路,在慢性失眠中显著提示其可能为慢性代谢或炎症适应的指标。免疫微环境分析揭示SD致"先天免疫抑制合并调节性T细胞上调"的免疫麻痹样表型,与S100A3变化相关联,支持其为应激免疫调节的核心指示分子。选用|log2FC|≥0.3阈值系因SD引广泛但轻微转录扰动,过严阈值会漏掉有生物学意义的微调基因。S100A3跨越年轻急性SD与老年慢性失眠队列仍保持稳定判别力,说明其受睡眠剥夺生理应激驱动超越年龄相关免疫衰老(immunosenescence)基线变异。研究局限性在于未在非睡眠相关的代谢或炎症病人群验证、训练前全队列筛选DEGs存轻微数据泄露风险(外部独立验证已佐证标志物可靠性)、缺体外体内功能实验及多组学整合,未来应行巢式交叉验证(nested cross-validation)、扩大临床样本并补充分子功能验证。
5 Conclusion(结论译文):
本研究建立并验证了一种融合多算法机器学习与可解释人工智能的新分析框架,提升从高维生理应激数据中发掘稳健生物标志物的能力。该框架得出两点转化洞见:第一,确定S100A3为跨情境系统性生理应激的候选生物标志物;VEGFB则作为慢性代谢适应的潜在指标,在失眠中具显著预测力但不全见于急性期——特异地反映无菌性炎症与代谢适应,二者是应激致生理损伤的核心机制。第二,揭示系统性应激将免疫微环境重塑为免疫抑制表型,类似于病理性免疫抑制。综上,该计算策略为解析系统性应激分子网络提供了强有力的非侵入性手段,为利用可解释人工智能鉴定可监测亚临床生理紊乱、指导睡眠医学临床风险分层的潜在应激生物标志物提供了理论概念验证。