老年高血压患者术后谵妄风险预测模型：基于机器学习开发与验证

《Frontiers in Psychiatry》：Prediction model for postoperative delirium risk in elderly hypertensive patients: machine learning-based development and validation

【字体：大中小】 时间：2026年06月03日 来源：Frontiers in Psychiatry 3.2

编辑推荐：

　　背景(Background)：术后谵妄(Postoperative Delirium, POD)是老年高血压患者严重并发症，与不良长期预后相关。现有模型常依赖术中数据，限制了术前风险分层。本研究旨在开发一种无创机器学习模型预测POD，并探讨其术前标志物对术后三

背景(Background)：术后谵妄(Postoperative Delirium, POD)是老年高血压患者严重并发症，与不良长期预后相关。现有模型常依赖术中数据，限制了术前风险分层。本研究旨在开发一种无创机器学习模型预测POD，并探讨其术前标志物对术后三年死亡率的影响。方法(Methods)：从1782例患者中采用最小绝对收缩与选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)回归筛选术前变量。训练并验证十种机器学习模型（7∶3划分）。通过受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUC-ROC)和决策曲线分析(Decision Curve Analysis, DCA)评估模型性能。采用SHAP(Shapley Additive exPlanations)值解释最优模型。通过Kaplan-Meier曲线和多因素Cox比例风险回归评估POD队列长期预后。结果(Results)：POD发生率为10.9%。梯度提升机(Gradient Boosting Machine, GBM)表现最佳（AUC = 0.868，95% CI：0.819–0.917）。SHAP分析确定简易智力状态检查(Mini-Mental State Examination, MMSE)评分是最具影响力的预测因子，其次为医院焦虑抑郁量表(Hospital Anxiety and Depression Scale, HADS)评分、年龄、临床衰弱量表(Clinical Frailty Scale, CFS)评分、衰弱(Frailty)评分及匹兹堡睡眠质量指数(Pittsburgh Sleep Quality Index, PSQI)评分。多因素Cox分析显示，较低MMSE联合较高HADS、CFS、Frailty及PSQI评分——而非实际年龄——是POD患者三年死亡率增加的独立预测因子（均P < 0.05）。结论(Conclusion)：研究人员开发了一种稳健的个体化POD预测机器学习工具。认知障碍、心理困扰、衰弱及睡眠质量差是POD发生及长期生存的关键双重预后标志物。这些发现强调了常规多维度术前评估的必要性，以促进脆弱高血压人群的个体化干预。

《老年高血压患者术后谵妄风险预测模型：基于机器学习的开发与验证》论文解读

该研究发表于《Frontiers in Psychiatry》。目前术后谇妄（Postoperative Delirium, POD）是老年手术患者常见且严重的并发症，尤其老年高血压患者因脑血流自动调节受损及神经血管单元功能障碍，对手术应激耐受性差，POD发生率高且与远期预后不良密切相关。然而现有POD预测模型多依赖术中数据，无法在术前进行有效风险分层，且缺乏针对老年高血压这一特定人群、整合多维非线性术前特征的预测工具。为此，研究人员开展了一项回顾性队列研究，拟通过机器学习算法筛选术前独立危险因素并建立高精度的POD风险预测模型，同时探讨关键术前指标对POD患者术后三年全因死亡率的影响，为临床早期识别高危患者及制定个体化干预策略提供依据。

研究人员采用青岛市级医院2020年1月至2022年6月行全身麻醉下择期非心脏手术的65岁及以上确诊高血压住院患者为初始队列（n=2000），排除标准包括急诊手术、术前MMSE<23分（确保可完成主观问卷）、严重神经精神疾病、未控制的心脑血管疾病及精神类药物滥用等，最终纳入1782例。采集人口学、既往史及标准化量表评分〔MMSE、HADS、PSQI、临床衰弱量表(Clinical Frailty Scale, CFS)、Frail量表、主观认知下降(Subjective Cognitive Decline, SCD)、匹兹堡睡眠质量指数(Pittsburgh Sleep Quality Index, PSQI)、雅典失眠量表(Athens Insomnia Scale, AIS)、数值评定量表(Numerical Rating Scale, NRS)、国际体力活动问卷(International Physical Activity Questionnaire, IPAQ)、微型营养评估(Mini Nutritional Assessment, MNA)〕。POD诊断采用谵妄评定方法(Confusion Assessment Method, CAM)于术后1–7天由盲法评估人员判定。关键分析方法包括：①缺失值采用完整病例分析，连续变量Z-score标准化；②在训练集内通过10折交叉验证的LASSO(Least Absolute Shrinkage and Selection Operator)回归筛选非零系数变量；③数据集按7∶3划分为训练集(n=1247)与测试集(n=535)，训练并比较10种机器学习算法〔逻辑回归(Logistic Regression, LR)、支持向量机(Support Vector Machine, SVM)、梯度提升机(Gradient Boosting Machine, GBM)、神经网络(Neural Network, NN)、随机森林(Random Forest, RF)、极端梯度提升(Extreme Gradient Boosting, XGBoost)、K近邻(K-Nearest Neighbours, KNN)、AdaBoost、LightGBM、CatBoost〕，超参数网格搜索结合5折交叉验证调优，以AUC-ROC、准确度、敏感度、特异度、精确度、F1分数、Brier评分及校准曲线、决策曲线分析(Decision Curve Analysis, DCA)评价性能；④采用SHAP(Shapley Additive exPlanations)框架解释最优模型全局及个体特征贡献；⑤基于SHAP筛选的核心变量构建多因素Logistic回归及列线图(Nomogram)，并部署交互式网页工具；⑥对POD亚组进行Kaplan-Meier生存分析及多因素Cox比例风险回归分析三年死亡率独立预测因子。

患者筛选与分组(Patient screening and grouping)

初始筛查2000例，排除218例（不符合纳排标准116例、缺失数据102例），最终1782例纳入分析，其中POD组194例（发生率10.9%），非POD(Non-POD, NPOD)组1588例。组间比较显示POD组年龄更大，NRS、HADS、PSQI、Frailty、CFS评分更高，SCD阳性率更高，糖尿病及冠心病比例更高，营养不良更常见，教育年限更短，MMSE更低，规律体力活动比例更低（均P < 0.05）；性别、吸烟、饮酒、AIS、MET及COVID-19感染史无显著差异。

模型构建与变量选择(Model construction and variable selection)

训练集与测试集基线特征无统计学差异（P > 0.05），保证内部有效性。LASSO回归在训练集中确定λ最小值，筛选出14个非零系数术前预测因子：性别、吸烟史、COVID-19感染史、年龄、冠心病史、糖尿病史、SCD、NRS、AIS、HADS、MMSE、PSQI、Frailty评分、CFS评分，作为后续所有模型的输入特征。

模型性能比较(Model performance comparison)

十种模型测试集ROC分析显示集成模型表现较优，GBM模型AUC最高（AUC = 0.868，95% CI：0.819–0.917），神经网络次之（AUC = 0.867），AdaBoost最低（AUC = 0.736）。DCA显示GBM在临床相关阈值概率范围内具有较高净获益。GBM在最优切点（概率阈值0.15）下准确度0.905、敏感度0.919、特异度0.904、精确度0.539、F1分数0.679，Brier评分为0.076，校准曲线贴近对角线，提示校准良好。

基于SHAP的模型可解释性分析(SHAP-based model interpretability analysis)

对最优GBM模型进行SHAP分析，全局特征重要性排序为：MMSE评分 > HADS评分 > 年龄 > CFS评分 > Frailty评分 > PSQI评分 > 其余变量。SHAP概要图显示MMSE越低、HADS越高对POD风险的正向贡献（增加预测概率）越大，且呈非线性关系；个体力图(Force Plot)示例显示高MMSE（30分）伴低HADS（6分）产生负SHAP值，降低预测风险低于基线。

列线图开发与基于Logistic回归模型的POD应用工具(Nomogram development and logistic regression model-based application for POD)

基于SHAP识别的前6位核心变量（年龄、MMSE、HADS、CFS、Frailty、PSQI）建立多因素Logistic回归模型，测试集AUC为0.835（95% CI：0.776–0.895）。研究人员绘制可视化列线图供个体化POD风险评估，并开发可公开访问的交互式Web应用（https://wangkun.shinyapps.io/make_web/）实现实时风险计算。

生存分析(Survival analysis)

在POD发生亚组（n=194）中行三年随访生存分析。Kaplan-Meier曲线显示较低MMSE（P = 0.002）、较高HADS（P < 0.001）、较高CFS（P = 0.027）、较高Frailty（P < 0.001）及较高PSQI（P < 0.001）分组生存率显著降低，而年龄分层无显著差异（P = 0.13）。调整协变量后多因素Cox回归证实：MMSE _{<26分（HR = 0.250，95% CI：0.083–0.752，P = 0.014）、HADS >7分（HR = 16.014，95% CI：5.181–49.495，P < 0.001）、CFS ≥5分（HR = 2.296，95% CI：1.088–4.847，P = 0.029）、Frailty ≥3分（HR = 2.799，95% CI：1.290–6.071，P = 0.009）、PSQI ≥10分（HR = 4.847，95% CI：1.913–12.280，P < 0.001）为三年死亡独立预测因子；实际年龄无统计学意义（HR = 2.202，95% CI：0.972–4.987，P = 0.059）。}

讨论与结论

研究人员讨论指出，GBM模型因能捕捉复杂非线性交互而表现优异，其AUC优于既往同类研究，且所用14个变量均为常规可及的术前资料，具备临床实用性。SHAP分析符合应激-易感模型(Stress-Vulnerability Model)：低MMSE反映神经储备减少，高HADS提示下丘脑-垂体-肾上腺(Hypothalamic-Pituitary-Adrenal, HPA)轴激活及神经内分泌失调，共同增加POD易感性。值得注意的是，实际年龄并非POD患者长期生存的显著独立预测因子，功能和心理韧性比生物学年龄更具预后价值。认知障碍、心理困扰、衰弱及睡眠质量差构成"高风险表型(high-risk phenotype)"，具POD发生与远期死亡的双重预后意义。局限性包单中心回顾设计缺外部验证、排除MMSE<23分潜在致选择偏倚、未纳入术中动态因素。结论(Conclusion)：研究人员开发了基于GBM的机器学习模型（AUC = 0.868），可准确预测老年高血压患者POD风险。MMSE、HADS、衰弱及PSQI是被确定为POD及三年死亡率的关键独立预测因子。此类功能与心理易损性（形成"高风险表型"）对长期生存的预测价值超过实际年龄。结果强调对该人群开展多维度术前评估以实现个体化风险管理的必要性。

热点排行