《Journal of Sport and Health Science》:A machine learning approach predicts improvement of physical exercise capacity based on pulse wave analysis in coronary artery disease patients
编辑推荐:
背景:稳定型冠状动脉疾病(CAD)患者存在不良事件和全因死亡的残余风险。通过心脏康复(CR)期间的体育锻炼训练(ET)增强运动能力是I类A级指南推荐。然而,CR中存在大量ET无反应者(NR)。目的:旨在开发一种机器学习(ML)预测模型,利用基线心肺运动测试(C
背景:稳定型冠状动脉疾病(CAD)患者存在不良事件和全因死亡的残余风险。通过心脏康复(CR)期间的体育锻炼训练(ET)增强运动能力是I类A级指南推荐。然而,CR中存在大量ET无反应者(NR)。目的:旨在开发一种机器学习(ML)预测模型,利用基线心肺运动测试(CPET)和脉搏波分析(PWA)数据早期识别NR。方法:研究对象包括393例心肌梗死和/或经皮冠状动脉介入治疗(PCI)和/或冠状动脉旁路移植术(CABG)后的CAD患者,接受了3-4周的CR;CPET在CR开始和结束时进行。反应者(R)定义为峰值摄氧量(V?O?peak)增加大于典型误差(TE)的患者,其余为NR。仅使用基线数据建模,ML模型包括10种不同监督算法。数据集分为训练集和测试集,采用10折交叉验证。使用递归特征消除(RFE)进行特征选择以降低维度并提高泛化性。在德国和西班牙的2个不同中心对CAD患者数据集(n = 120)进行了独立外部验证。使用模型不可知论SHapley Additive exPlanation(SHAP)方法解释预测结果。结果:数据清洗后,纳入353例患者(20.4%女性),平均年龄55.8 ± 7.1岁,225例(63.7%)被归类为NR。ET参与率相似(R: 93.6% ± 7.5%; NR: 92.6% ± 9.3%; p = 0.76)。对于预测模型,随机森林(Random Forest)分类器提供了最佳的平均平衡准确率77.0%。最具影响力的特征包括呼吸储备/频率、结合脉搏波速度(PWV)的摄氧量、心输出量(CO)和增强时间。值得注意的是,主要诊断和疾病严重程度对模型的影响有限。随机森林模型的外部验证显示准确率为82.8%,在长期结局预测中具有高特异性和中等灵敏度。结论:开发的基于ML的模型能够早期识别ET NR,从而实现个体化的以患者为中心的ET调整以改善CR。
该研究针对冠状动脉疾病(CAD)患者在心脏康复(CR)中对体育锻炼训练(ET)反应的异质性难题展开。现有研究表明,尽管ET能显著降低CAD患者的死亡率,但约有五分之一的患者属于无反应者(NR),且传统线性模型难以捕捉复杂的生理交互作用。为此,研究人员开发了基于机器学习(ML)的预测模型,利用基线心肺运动测试(CPET)和脉搏波分析(PWA)数据,旨在实现早期精准识别。研究最终构建了具有高准确率的预测工具,为个体化康复方案的制定提供了科学依据,相关成果发表在《Journal of Sport and Health Science》上。
在关键技术方法方面,研究人员采用了前瞻性队列研究设计,纳入了德国K?nigsfeld诊所的393例CAD患者数据,并在德国与西班牙的120例患者数据中进行了外部验证。核心技术流程包括:首先,基于典型误差(TE)法定义反应者(R)与无反应者(NR);其次,应用递归特征消除(RFE)进行降维处理,筛选出15个关键特征;随后,利用Python的scikit-learn库比较了10种监督学习算法(如随机森林、LightGBM等),并采用10次重复的10折分层交叉验证评估模型性能;最后,利用SHapley Additive exPlanation(SHAP)方法对模型预测结果进行生理学解释。
研究结果部分详细阐述了以下发现:
一般观察
数据分析显示,在纳入的353例患者中,63.7%被归类为NR。尽管两组在基线人口统计学特征、临床诊断(如心肌梗死病史、左心室射血分数)及PWA参数上无显著差异,但NR组在完成康复期间的总代谢当量小时(MET-hours)显著低于R组,提示其存在运动耐受力下降而非单纯的依从性问题。
ML模型性能
在对比10种算法的表现后,随机森林(Random Forest)模型在预测V?O?peak改善方面表现最优,平均准确率达77.0%,受试者工作特征曲线下面积(AUC)为0.84。当采用更严格的反应阈值(2倍TE)时,模型性能进一步提升。此外,针对亚极量水平(VT1)的预测分析显示,LightGBM分类器表现最佳,平均准确率为81%。
特征重要性
通过SHAP值分析发现,最具预测价值的特征并非临床诊断和用药史,而是源于心肺运动测试(CPET)和脉搏波分析(PWA)的生理指标。其中,峰值摄氧量时的通气量(V?E@V?O?peak)、呼吸储备(BR@V?O?peak)、脉搏波速度(PWV)、心输出量(CO)以及增强时间是影响模型预测的关键变量。这表明血管力学特性(如动脉僵硬度)和通气效率在预测ET反应中扮演着核心角色。
外部验证
在独立的外部数据集验证中,随机森林模型保持了82.8%的整体准确率。虽然模型在识别真正的NR方面表现出高特异性,但在识别真正的R方面灵敏度表现中等,这提示在临床长期管理中,该模型更适合用于筛选可能需要干预调整的潜在NR人群。
讨论部分总结指出,该研究首次成功地将PWA衍生的血管力学参数与CPET数据结合,利用ML的非线性建模能力突破了传统线性回归的解释力限制(既往模型仅能解释约40%的变异)。特征重要性分析揭示了低通气效率和动脉僵硬度(高PWV)是导致ET无反应的重要生理机制,这为未来的精准干预(如针对呼吸肌或血管功能的预处理)提供了靶点。尽管模型存在对长期Phase III CR灵敏度有限的不足,但其临床价值在于能够在CR初期(Phase II)识别出那些看似正常但可能无法从标准方案中获益的患者。结论重申,该ML模型利用常规可用数据实现了对ET反应的早期预测,有助于临床医生实施基于FITT原则的个体化调整,从而优化心脏康复效果并更有效地分配医疗资源。