编辑推荐:
本研究通过整合多种机器学习算法与多维临床数据,构建了预测阻塞性睡眠呼吸暂停(OSA)合并高血压患者发生主要不良心脑血管事件(MACCEs)的风险模型。研究发现,结合甘油三酯-葡萄糖指数与体质指数的指标(TyG-BMI)是关键预测因子,基于XGBoost的模型表现出最佳预测性能(AUC=0.898)。该研究提出了超越传统体质指数(BMI)评估的、包含体脂分布参数的肥胖新定义,为高风险患者的早期识别和精准干预提供了新策略。
研究背景与目的
肥胖是全球性的重大公共卫生挑战,与传统的心血管代谢疾病风险密切相关。目前评估肥胖的常用指标体质指数(BMI)存在局限,无法反映脂肪的具体分布及其对健康的差异化影响。与此同时,阻塞性睡眠呼吸暂停(OSA)与高血压是两种常与肥胖共存并相互加剧的常见疾病,共同促进胰岛素抵抗(IR)和代谢紊乱,显著增加患者发生主要不良心脑血管事件(MACCEs)的长期风险。尽管已有研究证实了替代性肥胖指标和代谢生物标志物的优势,但专门针对OSA-高血压共病人群、整合多维指标与先进计算方法的综合风险分层框架仍有欠缺。本研究旨在利用多种机器学习驱动的代谢框架,开发并验证一个全面的风险分层模型,以更准确地评估此类患者的长期MACCEs风险。
研究方法
本研究是一项多中心回顾性队列研究,共纳入了2017年1月至2021年12月期间两家医院的708名OSA合并高血压患者。患者被分为训练队列(n=446)和独立验证队列(n=262)。研究收集了包括身高、体重、颈围(NC)、腰围(WC)、颈围身高比(NHtR)、腰围身高比(WHtR)在内的人体测量学数据,并基于空腹血糖和甘油三酯计算了甘油三酯-葡萄糖(TyG)指数。为进一步完善评估,研究者将TyG指数分别与BMI、NC、WC、NHtR、WHtR相乘,得到了TyG-BMI、TyG-NC、TyG-WC、TyG-NHtR和TyG-WHtR等一系列改良指标。
研究的首要临床终点是MACCEs,包括心源性死亡、急性冠脉综合征和脑卒中。中位随访时间为47.13个月。在数据分析阶段,研究首先采用Boruta算法进行关键预测变量的筛选,并计算方差膨胀因子(VIF)以评估多重共线性。随后,构建了九种不同的机器学习模型进行预测,包括极限梯度提升(XGBoost)、轻量梯度提升机(LightGBM)、随机森林、决策树、梯度提升、多层感知机、支持向量机(SVM)、K近邻(KNN)和高斯朴素贝叶斯(GNB)模型。同时,也建立了使用向后逐步选择的Cox比例风险回归模型作为基准比较。通过受试者工作特征曲线下面积(AUC)、校准曲线、决策曲线分析(DCA)和Brier评分等指标综合评估模型性能,并利用SHAP(SHapley Additive exPlanations)值解释各特征对模型预测的贡献。
研究结果
患者基线特征显示,训练队列与验证队列在大多数指标上匹配良好。Boruta特征选择算法确定了十个对预测MACCEs重要的关键变量:男性、年龄、TyG指数、TyG-BMI、糖化血红蛋白(HbA1c)、空腹血糖(FPG)、甘油三酯、肌酐、纤维蛋白原和呼吸暂停低通气指数(AHI)。VIF分析表明所有变量均不存在显著的多重共线性问题。
在验证队列中,所有机器学习模型均显示出一定的预测能力,其中XGBoost模型表现最优,其AUC值达到0.898(95% CI: 0.822–0.973)。其他模型如随机森林(AUC=0.889)和支持向量机(AUC=0.860)也表现良好,而决策树等模型性能相对较弱。校准曲线显示XGBoost和LightGBM模型的预测概率与观察结果最为接近,Brier评分最低(XGBoost为0.099)。决策曲线分析进一步证实,在广泛的阈值概率范围内,XGBoost模型能提供最大的临床净收益。
SHAP分析深入揭示了各特征对预测结果的贡献。在XGBoost模型中,年龄和TyG指数是最具影响力的预测因子。改良的TyG指标,特别是TyG-BMI,在风险预测中显示出显著的重要性,强调了结合胰岛素抵抗状态与肥胖负荷进行综合评估的价值。
讨论
本研究通过整合多维临床数据与多种机器学习算法,成功构建了针对OSA合并高血压患者的高性能心血管风险预测模型。这一方法克服了传统BMI评估的局限性。研究引入的改良TyG指数(如TyG-BMI)代表了“肥胖放大的胰岛素抵抗表型”,它将反映代谢功能的TyG指数与反映肥胖负荷的人体测量学指标相结合,能够更敏感地捕捉到OSA相关间歇性低氧对胰岛素抵抗和内脏脂肪积累的双重加剧效应,从而识别出传统方法可能遗漏的高风险患者表型。
肥胖,特别是中心性肥胖,是胰岛素抵抗和心血管疾病的核心驱动因素。OSA与高血压的共病关系并非简单并存,而是通过间歇性低氧、睡眠碎片化、交感神经过度激活等多条病理生理途径相互交织,共同加剧代谢紊乱和心血管风险。机器学习技术的优势在于能够处理高维多变量数据,发掘其中复杂的非线性关系,实现更精准的风险分层,并通过SHAP值提供直观的、个体化的特征贡献解读,有助于临床医生理解风险驱动因素并制定个性化干预策略。
研究局限性
本研究存在若干局限性。首先,作为一项回顾性研究,可能存在选择偏倚和未测量的混杂因素。其次,依赖于电子病历的基线数据可能存在信息缺失或记录不准确。再者,研究未采用基于高级影像的组学方法(如影像组学)来定量分析脂肪组织的分布和代谢活性,这限制了对肥胖表型异质性的更深入刻画。最后,尽管总样本量满足主要分析需求,但在进行特定亚组分析,尤其是评估不同改良TyG指数对不同人群的特异性影响时,样本量可能不足。
结论
本研究开发了一种新型预测模型,该模型融合了多样的机器学习算法与多维数据集,能够有效识别OSA合并高血压患者中具有长期MACCEs高风险的个体。通过结合体型和体脂分布参数对TyG指数进行改良,本研究重新定义了肥胖的评估概念,实现了对胰岛素抵抗和心血管风险更全面的评估与分层。这一框架有助于对高危患者进行及时识别并采取针对性的预防措施。