《The Aging Male》:Possible cross?talk between sarcopenia and obstructive sleep apnea revealed by WGCNA analysis and machine learning
编辑推荐:
本文综合运用生物信息学与机器学习方法,首次从转录组层面深入探究了阻塞性睡眠呼吸暂停(OSA)与肌肉减少症之间的潜在关联。研究者通过WGCNA分析识别共享基因,并利用SVM-RFE和随机森林(RF)算法筛选出核心候选生物标志物LGR6和ARRDC2。基于这两个基因构建的诊断模型在多数据集中均表现出优异的预测效能,为理解OSA合并肌肉减少症的共病机制提供了新视角,并为其临床风险预测提供了潜在的新型生物标志物工具。
引言:探究OSA与肌肉减少症之间的潜在联系
阻塞性睡眠呼吸暂停(OSA)是一种以睡眠期间上呼吸道反复塌陷为特征的常见睡眠障碍,导致间歇性低氧和睡眠碎片化。其全球患病率近10亿成年人,临床表现为不规则打鼾、频繁夜间觉醒和日间疲劳。OSA的多因素发病机制主要由间歇性低氧驱动,进而促进炎症、代谢失调和氧化应激。越来越多的证据表明,OSA与多种全身性疾病相关,包括心血管、脑血管疾病以及糖尿病等代谢性疾病。与OSA相关的低氧诱导的氧化应激和免疫失调会引发全身性炎症反应,这被认为是驱动相关系统性疾病发病的核心机制。
肌肉减少症是一种以骨骼肌质量、力量和功能进行性丧失为特征的综合征。在老年人中全球患病率约为10%–27%,与跌倒、残疾和死亡等不良后果风险增加相关。肌肉减少症的多因素发病机制由蛋白质稳态受损、线粒体功能障碍和炎症等关键机制驱动。
一项涉及7948名50岁及以上参与者的大规模研究发现,OSA高风险个体与中老年人群的肌肉质量减少显著相关。此外,美国国家健康与营养检查调查(NHANES)的数据分析表明,OSA可能导致早发性肌肉流失。同时,一项多中心研究结果也提示,OSA患者中肌肉减少症的患病率显著更高。有越来越多的证据表明,OSA和肌肉减少症可能共享重叠的病理生理机制——包括慢性炎症、氧化应激和代谢失调——这可能形成一种相互加重的恶性循环。在OSA患者中,反复的夜间呼吸暂停诱发间歇性低氧-复氧循环。此过程驱动活性氧(ROS)的过度产生,导致氧化应激,进而损害肌细胞的线粒体功能,最终导致代谢失调和肌纤维萎缩。此外,ROS可以激活关键信号通路,如AP-1和NF-κB通路,促进促炎细胞因子和黏附分子的上调。这种炎症级联反应反过来驱动肌肉蛋白降解并加速肌细胞凋亡,最终导致骨骼肌质量丧失和肌肉减少症的功能特征。相反,与肌肉减少症相关的胰岛素抵抗和脂肪积累,可能通过促进上气道组织中的脂肪沉积、从而损害气道通畅性,从而促进OSA的发病。
尽管肌肉减少症和OSA共享许多共同风险因素,提示两者之间存在潜在关联,但其共存的潜在机制仍不清楚。鉴于此,从转录组学角度探索两者的关系是合理的。此外,这两种情况都面临诊断挑战——OSA通常需要多导睡眠图(PSG),而肌肉减少症则涉及使用专用仪器评估肌肉组成。因此,本研究旨在阐明OSA与肌肉减少症共病的共同病理生理机制,并基于共享的基因表达谱开发并验证一个诊断模型。这种方法可能为这种共病的临床诊断和预防提供新策略。
材料与方法:整合多组学数据与机器学习算法
本研究遵循《赫尔辛基宣言》原则进行。研究利用了来自基因表达综合数据库(GEO)的四个公开基因表达数据集:两个与OSA相关(GSE135917, GSE38792),两个与肌肉减少症相关(GSE9103, GSE38718)。数据集GSE38792和GSE38718被指定为验证队列。OSA数据集GSE135917包含来自OSA患者(n = 24)和健康对照(n = 8)的皮下脂肪组织样本。肌肉减少症数据集GSE9103包含来自肌肉减少症患者(n = 20)和健康对照(n = 20)的骨骼肌样本。验证数据集GSE38792包含来自OSA患者(n = 10)和健康对照(n = 8)的内脏脂肪组织样本。类似地,GSE38718数据集包含来自肌肉减少症患者(n = 14)和健康对照(n = 8)的骨骼肌样本。
数据挖掘与核心分析流程
使用WGCNA R包,研究者首先构建了一个无向共表达网络。选择软阈值功率(β)以实现无标度拓扑,并将得到的邻接矩阵转换为基于拓扑重叠测度(TOM)的相异矩阵。然后使用该矩阵进行平均连接层次聚类以识别初始基因模块。基于模块特征基因(ME)相异性阈值0.25,合并具有相似表达谱的模块。为识别临床相关模块,将每个ME与疾病表型(OSA和肌肉减少症)进行关联分析。在相关性最显著的模块中,将基因显著性(GS)和模块成员(MM)值高的基因识别为关键驱动基因。
为识别最显著的共享基因,研究使用了两种互补的机器学习算法进行特征选择:随机森林(RF)和支持向量机递归特征消除(SVM-RFE)。选择这种双方法策略是因为它们结果的交集可以识别出更稳健、可靠的候选基因集。具体而言,RF基于特征重要性分数对基因进行排序,捕捉复杂的非线性相互作用,而SVM-RFE迭代消除信息量最少的特征,以提炼出一个最小、高度有区分度的基因集。这些分析在R中使用“randomForest”包(用于RF)以及“e1071”、“caret”和“kernlab”包(用于SVM-RFE)进行。
研究者使用“ggpubr”包生成的箱线图可视化了关键基因在共病组和对照组之间的差异表达。使用Wilcoxon秩和检验确定统计学显著性,P值<0.05被认为具有显著性。
研究者使用“rms”包为共病开发了基于列线图的预测模型。该模型的诊断性能首先在训练队列中使用受试者工作特征(ROC)曲线分析进行评估,曲线下面积(AUC)作为区分能力的主要指标。为确保普遍性和稳健性,随后在外部队列上对模型进行了独立验证。
研究者首先使用CIBERSORT算法估算了所有样本中22种浸润免疫细胞类型的相对丰度。使用Wilcoxon秩和检验比较OSA、肌肉减少症和对照队列之间估计的细胞比例,以识别差异丰度的细胞群体。然后,使用Spearman等级相关性评估疾病队列内关键基因表达与免疫细胞丰度之间的关系。对于所有分析,P值<0.05被认为具有统计学意义。
为阐明共享基因的生物学相关性,研究者首先进行了GO和KEGG分析。GO分析涵盖三个领域:生物过程(BP)、细胞成分(CC)和分子功能(MF)。作为一种补充方法,还进行了基因集富集分析(GSEA),以识别在整个排序基因列表中富集的生物学通路。所有富集分析均在R中使用“clusterProfiler”包进行。
结果:从共享基因到诊断模型
WGCNA分析结果
选择软阈值β=22(OSA)和β=3(肌肉减少症)构建共表达网络,并从中构建了样本树状图和性状热图。在WGCNA分析中,在肌肉减少症数据集(GSE9103)中识别出五个基因共表达模块,在OSA数据集(GSE135917)中识别出六个基因共表达模块。随后,基于以下标准选择关键模块:|cor| > 0.5,P < 0.05,且Z summary评分 > 10。在WGCNA分析中,绿松石模块被确定为与OSA相关,黄色模块被确定为与肌肉减少症相关。接下来,对OSA和肌肉减少症的关键模块基因进行重叠分析,识别出两种疾病共有的20个基因。结果通过维恩图进行可视化。
GO和KEGG通路富集分析结果
GO分析显示,这20个基因在生物过程类别中主要富集在“RNA聚合酶II介导的转录调控”,在细胞成分类别中富集在“细胞溶质”,在分子功能类别中富集在“DNA结合转录激活因子活性”。相比之下,未发现显著的KEGG通路。
机器学习结果
在OSA数据集(GSE135917)中,采用RF算法根据重要性评分对基因进行排序,从中选出前10个。相反,SVM算法选择了产生最低均方根误差(RMSE)的20个基因子集。两种算法结果的交集产生了10个与OSA相关的共有基因。
类似地,对于肌肉减少症数据集(GSE9103),RF算法根据重要性评分识别出前13个基因。同时,SVM算法选择了产生最低RMSE的18个基因子集。两种算法结果的交集产生了12个肌肉减少症的共有基因。
最后,将OSA和肌肉减少症分析中的候选基因集取交集,识别出六个候选生物标志物:LGR6、KLF6、FOXO3、ECHDC3、BTG2和ARRDC2。此重叠通过维恩图进行可视化。
最终候选生物标志物筛选
研究者使用Wilcoxon秩和检验,结果显示只有LGR6和ARRDC2在疾病样本中相对于对照显著上调(P < 0.05)。基于这种显著的差异表达,选择这两个基因作为最终的候选生物标志物。
列线图构建与验证
研究者基于LGR6和ARRDC2的表达构建了诊断列线图。在训练队列中,该模型表现出强大的区分能力,OSA (GSE135917)的AUC达到0.871,肌肉减少症(GSE9103)的AUC达到0.792。校准图证实了预测结果与观测结果之间具有极佳的一致性。为评估普适性,在独立的外部队列上验证了该模型,获得了稳健的AUC值:OSA (GSE38792)为0.675,肌肉减少症(GSE38718)为0.732。
免疫浸润分析结果
研究者在OSA患者中观察到更高比例的M1巨噬细胞。此外,在肌肉减少症中观察到更高比例的中性粒细胞、单核细胞、CD4+记忆静息T细胞和初始B细胞。进一步研究了枢纽基因与免疫细胞之间的关系。结果显示,在OSA样本中,ARRDC2与CD4+记忆静息T细胞、活化的树突状细胞和浆细胞呈负相关(P < 0.05),与M0巨噬细胞呈正相关(P < 0.05)。LGR6与CD4+初始T细胞呈正相关(P < 0.05)。在肌肉减少症样本中,ARRDC2与调节性T细胞(Tregs)和M1巨噬细胞呈负相关(P < 0.05)。LGR6与CD4+初始T细胞呈正相关(P < 0.05)。
GSEA分析结果
LGR6高表达主要与蛋白质合成和离子转运通路相关,如“翻译起始”和“电压门控钙通道活性”。相比之下,ARRDC2高表达富集在与细胞凋亡和肌肉完整性相关的通路中,包括“内在凋亡通路”、“CDC42信号通路”、“Rac信号通路”和“肌营养不良蛋白相关蛋白复合体”。这些发现为枢纽基因与肌肉减少症和OSA的共同病理生理学之间提供了合理的机制联系。
讨论:探索枢纽基因的病理生理学角色与临床意义
肌肉减少症是一种以骨骼肌质量下降为特征的常见年龄相关疾病。其潜在机制涉及氧化应激、慢性炎症、衰老和其他生物过程。这些因素通常与OSA的潜在机制相关。这表明两者存在潜在的共同联系。此外,鉴于OSA患者中肌肉减少症的高发病率,本研究利用生物信息学方法识别了与OSA和肌肉减少症共病相关的生物标志物,以确定其共同的通路和功能,并开发了一个诊断模型。该模型在独立数据集上进行了外部验证,为OSA-肌肉减少症共病的诊断和预防提供了新的见解。
在此研究中,识别了肌肉减少症和OSA之间共享的20个共有基因。使用两种机器学习算法——RF和SVM,进一步筛选出六个枢纽基因,其中ARRDC2和LGR6被最终确定为候选生物标志物。随后进行了GSEA以探索与这些枢纽基因相关的潜在生物学功能。构建了OSA合并肌肉减少症的诊断模型并进行了外部验证。此外,分析并比较了两种条件下的免疫细胞浸润模式。通过评估枢纽基因表达与浸润免疫细胞群之间的相关性,进一步研究了免疫相关机制。
GO分析结果表明,共享的共有基因主要通过调节蛋白质代谢和脂质代谢参与OSA和肌肉减少症发病的生物过程。一个关键发现是,在OSA和肌肉减少症队列中,LGR6的表达相对于对照样本呈现出一致且显著的上调。LGR6是富含亮氨酸重复序列的G蛋白偶联受体(LGR)家族的成员,被充分证明是多种肿瘤发病机制的关键调节因子。除了其在肿瘤学中的既定作用外,LGR6在炎症过程中也发挥着关键作用,如在肺移植模型中,其表达与缺血再灌注损伤和慢性移植物功能障碍期间的免疫细胞浸润和炎症反应相关。肌肉减少症的发病机制从根本上植根于衰老和慢性炎症过程之间的复杂相互作用。LGR6通过慢性Wnt/β-catenin通路激活与慢性阻塞性肺疾病(COPD)和特发性肺纤维化(IPF)的发病机制相关联,该通路通过诱导肺上皮祖细胞的细胞衰老和凋亡促进疾病进展。此外,LGR6增强胞葬作用,从而关键性地调节炎症反应。OSA的临床前模型已确立巨噬细胞是OSA多种合并症的关键致病驱动因素。研究结果表明,LGR6表达在OSA和肌肉减少症队列的巨噬细胞中均显著上调,表明该受体在共同病理生理学中的关键作用可能涉及巨噬细胞活性和极化的调节。因此,LGR6可能通过协调免疫细胞的募集和激活,驱动肌肉减少症和OSA的共享炎症发病机制。
作为α-抑制蛋白(arrestin)家族的成员,ARRDC2通过其抑制蛋白结构域介导泛素化,从而确立其在蛋白质代谢和信号转导中的关键调节作用。研究揭示,ARRDC2在OSA队列中的表达与蛋白质分解代谢和肌肉功能障碍的核心通路密切相关,包括肌营养不良蛋白信号、26S蛋白酶体功能和细胞凋亡。杜氏肌营养不良症(DMD)的临床谱包括进行性肌肉萎缩和OSA等合并症的显著升高风险。26S蛋白酶体是泛素-蛋白酶体系统(UPS)的主要催化成分,介导大多数细胞内蛋白质的靶向降解,从而维持细胞蛋白质稳态。有证据表明,OSA特有的氧化应激会损害UPS的功能,这直接导致心肌细胞凋亡加速。因此,肌营养不良蛋白和26S蛋白酶体的联合失效可能驱动呼吸肌中