《The Lancet Digital Health》:Development, validation, and user-centric evaluation of an interpretable machine learning decision support tool for the preoperative prediction of mild bleeding disorders (MBD-Check): a prospective diagnostic prediction study
编辑推荐:
摘要
背景:轻度出血性疾病(Mild Bleeding Disorders, MBDs)是最常见的遗传性出血性疾病,常导致围手术期出血。由于现有筛查工具有限,术前筛查MBDs仍具挑战性,导致大量患者被转诊接受术前检查。本研究旨在开发、外部验证并实施一款易用、可
摘要
背景:轻度出血性疾病(Mild Bleeding Disorders, MBDs)是最常见的遗传性出血性疾病,常导致围手术期出血。由于现有筛查工具有限,术前筛查MBDs仍具挑战性,导致大量患者被转诊接受术前检查。本研究旨在开发、外部验证并实施一款易用、可解释的基于机器学习(Machine Learning, ML)的决策支持工具,用于预测MBDs。
方法:在两项独立前瞻性队列研究中收集临床和实验室数据,纳入连续入组的≥18岁疑似MBDs患者。训练队列来自瑞士伯尔尼大学医院(Inselspital, Bern University Hospital, Bern, Switzerland)血液科门诊;诊断依据现行指南并由专家小组确诊。训练多种ML算法,最佳模型在卢塞恩州立医院(Cantonal Hospital Lucerne, Lucerne, Switzerland)招募的第二队列中进行外部验证。为评估可用性,研究人员创建调查平台,含4个病例 vignette 及系统可用性量表(System Usability Scale, SUS)。
结果:训练队列555例(女371例[67%],男184例[33%];中位年龄44岁[IQR 29–62])。最终入选预测变量为:活化部分凝血活酶时间(activated Partial Thromboplastin Time, aPTT)、肾上腺素–胶原 cartridges 血小板功能分析(Platelet Function Analysis with an epinephrine–collagen cartridge, PFA-EPI)、性别及简化出血史。外部验证队列(n=217)中,MBDs患者灵敏度90.2%(95% CI 83.1–94.9),非MBDs患者特异度54.3%(95% CI 44.3–64.0),受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve, AUROC)为0.85(95% CI 0.80–0.90)。最终决策支持工具由33名外科医生、29名麻醉科医师及24名血液科医师评估,完成中位时间72 s(IQR 49.0–79.5),中位SUS评分82.5(IQR 72.5–90.0),表明可用性优秀。
解读:MBD-Check是一款可解释的ML解决方案,可简化MBDs的术前预测,有望支持更高效的转诊决策。
资助:瑞士国家科学基金会(Swiss National Science Foundation)。
论文解读:MBD-Check——用于术前预测轻度出血性疾病的可解释机器学习决策支持工具的开发、验证与用户中心评价
本研究发表于The Lancet Digital Health。轻度出血性疾病(Mild Bleeding Disorders, MBDs;包括血小板功能异常、血管性血友病、轻型血友病等)是最常见的一类遗传性出血疾病,患者常在术中发生意料之外的出血并发症。目前术前筛查依赖常规凝血指标如活化部分凝血活酶时间(activated Partial Thromboplastin Time, aPTT)或凝血酶原时间国际化比值(International Normalised Ratio, INR),多项研究表明这些指标无法有效预测MBDs;而血液科常用的国际血栓与止血学会出血评估工具(International Society on Thrombosis and Haemostasis Bleeding Assessment Tool, ISTH-BAT)过于复杂,难以在术前麻醉评估中推广。机器学习(Machine Learning, ML)算法为此提供了新思路,但既往ML模型多因未解决明确临床需求、缺乏外部验证、无透明性解释及难融入临床工作流而未成功落地。因此,研究人员开展此项研究,旨在开发、外部验证并部署一款可解释的ML决策支持工具——MBD-Check,用于疑似MBDs患者的术前MBDs风险预测,全程吸纳临床关键利益相关者参与,以辅助更高效的专科转诊决策。
主要关键技术方法
研究人员采用两项独立前瞻性横断面队列:训练/内部验证队列来自瑞士伯尔尼大学医院(Inselspital, Bern University Hospital;n=555)2012–2017年连续入组的≥18岁疑似MBDs门诊转诊患者;外部验证队列来自瑞士卢塞恩州立医院(Cantonal Hospital Lucerne;n=217)2011–2013年同类患者。金标准诊断由血液科专家小组按指南确立。候选预测变量由多学科焦点小组筛选术前麻醉评估可得项目,最终用Boruta算法从训练集筛选特征,排除高共线变量后确定4个预测因子(简化ISTH-BAT手术史、PFA-EPI、aPTT比值、性别)。缺失值用训练集拟合的袋装树(bagged tree)插补,数值变量中心化、标准化并做Yeo–Johnson变换。比较17种监督ML算法,前5名单独特优调参,以重复十折五次数交叉验证AUROC为主要指标,选径向基核支持向量机(Support Vector Machine with radial kernel, SVM-RBF)为最终模型,阈值依假阴性代价高于假阳性25%设定。可解释性通过置换特征重要性、偏依赖图(Partial Dependence Plots, PDP)及Shapley加性解释(SHapley Additive exPlanations, SHAP)实现。外部验证计算灵敏度、特异度、AUROC(DeLong法)等。工具用R-Shiny部署网页应用,邀请86名临床医师用含病例 vignette 的系统可用性量表(System Usability Scale, SUS)评估。
结果
Study design and participants(研究设计与研究对象)
研究含伯尔尼(训练/内验证)和卢塞恩(外部验证)两独立前瞻性横断面研究,均纳入≥18岁因疑似MBDs转诊患者,遵循TRIPOD+AI报告规范,经伦理委员会批准且所有参与者签署知情同意。训练队列555例,其中288例(52%)确诊MBDs(血小板功能异常118例[41%],血管性血友病因子异常50例[17%]等),人口学及实验室基线见表1。
Model development(模型开发)
训练集(n=445)与验证集(n=110)按8:2随机拆分。ISTH-BAT条目简化为三分类(无出血/无需医疗干预出血/需医疗干预严重出血)。焦点小组初筛候选变量,Boruta算法确认重要性排序前位变量含简化ISTH-BAT手术史(重要性19.89)、PFA-EPI(17.19)、简化ISTH-BAT鼻衄(12.16)、aPTT(8.19)等。剔除与PFA-EPI高相关(Spearman >0.6)的PFA-ADP、与简化皮肤出血重复的易瘀斑及易回忆偏差的口腔出血项,追加性别(因含月经/产后出血条目)。17种模型初筛,弹性网络 Logistic 回归、神经网络、随机森林、SVM-RBF及梯度提升机(Gradient Boosting Machine, GBM)进入调参;内部验证SVM-RBF的AUROC最高(0.77 [95% CI 0.68–0.85]),选为最终MBD-Check模型,操作点阈值0.47(偏向高灵敏度)。
External validation(外部验证)
外部验证队列n=217,MBD-Check的AUROC为0.85(95% CI 0.80–0.90),灵敏度90.2%(95% CI 83.1–94.9),特异度54.3%(95% CI 44.3–64.0),阳性预测值(Positive Predictive Value, PPV)68%,阴性预测值(Negative Predictive Value, NPV)84%。对照工具AUROC分别为:INR 0.49、aPTT 0.63、PFA-EPI 0.73、完整ISTH-BAT 0.79,MBD-Check优于单一常规检验及完整ISTH-BAT。各年度入组亚组、剔除抗凝/系统性疾病患者亚组及不同插补法敏感性分析AUROC均相似(0.76–1.00)。
Implementation and usability(实施与可用性评价)
最终模型部署为R-Shiny网页应用(https://toradi-hit.dbmr.unibe.ch/mbdcheck/),内嵌SHAP值条形图展示单例预测中各特征贡献方向及大小。86名临床医师(外科33、麻醉29、血液24)完成含4个病例 vignette 的在线调查,中位填表用时72.0 s(IQR 49.0–79.5),中位SUS评分82.5(IQR 72.5–90.0),超过"优秀可用性"(≥80分)阈值。
Interpretable machine learning(可解释机器学习分析)
置换特征重要性显示最重要预测因子为简化ISTH-BAT手术史(比值1.32 [95% CI 1.30–1.44]),其次为PFA-EPI(1.21 [1.19–1.32])及简化ISTH-BAT鼻衄(1.18 [1.16–1.22])。偏依赖图显示除月经过多中需急诊/手术者关联略低预测概率外,其余变量值升高均非线性推高预测得分,中心化个体条件期望(Individual Conditional Expectation, ICE)图与累积局部效应(Accumulated Local Effects, ALE)图趋势一致。SHAP分析提供逐例可解释输出供临床查看。
讨论与结论
研究人员指出本研究优势在于:针对明确临床需求、前瞻性设计保障数据质量、目标人群匹配、跨中心外部验证、配套可解释分析及用户可用性测评。局限性包括:队列采集于数年前虽诊断标准稳定但治疗演变可能影响下游;样本量较部分ML研究偏小;模型适用于疑似MBDs人群而非全体择期手术人群,超适应证使用会因特异度有限致过度转诊;仅瑞士两中心数据且缺详细族裔信息,外推需谨慎;将VII因子轻度缺乏归为非MBDs以避免偏倚。
作者提出临床路径建议:术前怀疑出血倾向时用MBD-Check,预测概率<47%认为MBDs可能性低可在临床判断下直接手术,≥47%建议转诊血液科进一步评估。最终结论为:研究人员开发、外部验证并实施了易用、可解释的MBD-Check术前MBDs预测决策支持工具,外部验证AUROC达0.85,灵敏度90.2%,获临床用户优秀可用性评价,有望减少不必要转诊并优化术前评估流程,未来需在多元人群及医疗场景中进一步验证。