一种基于堆叠集成学习的智能辅助诊断系统,用于早期骨质疏松症的筛查
《BMC Medical Informatics and Decision Making》:An intelligent auxiliary diagnostic system for early osteoporosis screening using stacking ensemble learning
【字体:
大
中
小
】
时间:2026年05月07日
来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
摘要
背景
骨质疏松症是老年人中常见的慢性疾病,其特征是骨矿物质密度降低和骨折风险增加。双能X射线吸收测定法是诊断的金标准,但其成本高昂且 availability 有限,这限制了在初级保健和社区护理中大规模筛查的实施。因此,需要使用常规收集的临床数据来识别骨质疏松高风险个体的辅
摘要
背景
骨质疏松症是老年人中常见的慢性疾病,其特征是骨矿物质密度降低和骨折风险增加。双能X射线吸收测定法是诊断的金标准,但其成本高昂且 availability 有限,这限制了在初级保健和社区护理中大规模筛查的实施。因此,需要使用常规收集的临床数据来识别骨质疏松高风险个体的辅助诊断系统。
方法
分析了2017-2020年国家健康与营养调查的数据。纳入了50岁及以上的成年人,这些人在股骨颈或腰椎处有有效的双能X射线吸收测定测量结果。骨质疏松症的定义是任一部位的T值达到或低于-2.5。经过结构化预处理和插补后,使用惩罚逻辑回归方法进行特征选择。然后构建了一个两级堆叠集成学习模型,结合了五种基础学习器(逻辑回归、决策树、梯度提升、极端梯度提升和多层感知器),并以逻辑回归作为元学习器。模型在训练集上使用分层五折交叉验证进行训练,并在独立测试集上评估性能。
结果
共有3,735名参与者被纳入研究,其中390人患有骨质疏松症。患有骨质疏松症的参与者年龄更大,身体质量指数、髋部围度和血清尿酸水平低于没有骨质疏松症的参与者。特征重要性分析表明,年龄、性别、身体质量指数和尿酸是最有影响力的预测因子。在测试集中,堆叠集成模型的准确率为0.96,接收者操作特征曲线下面积为0.95,精确率为0.83,召回率为0.81,F1分数为0.82,性能优于所有单个基础模型,并且假阳性率较低。
结论
基于常规可用的临床和实验室变量的堆叠集成学习在现实世界中的类别不平衡情况下能够有效区分骨质疏松症风险。这种方法可以作为实用且低成本的辅助诊断工具,支持在初级保健和社区护理中针对性地进行双能X射线吸收测定推荐。在广泛临床应用之前,需要在不同人群中进行外部和前瞻性验证。
引言
骨质疏松症的特点是骨矿物质密度(BMD)降低和骨微结构恶化,导致骨骼脆弱性和骨折易感性增加。随着年龄的增长,骨折风险显著增加,尤其是在髋部、脊柱和手腕。此类骨折与疼痛、功能障碍、长期残疾和死亡率风险增加有关[1, 2]。随着全球人口老龄化进程的加速,骨质疏松症的发病率持续上升,成为全球范围内的一个重要公共卫生问题[3]。双能X射线吸收测定法(DEXA)是目前骨质疏松症诊断的金标准,可以提供骨矿物质密度(BMD)的测量结果。然而,由于其高昂的成本、有限的便携性以及对专业操作人员的依赖性,限制了其在社区医院和资源有限环境中的广泛应用,从而限制了大规模筛查和早期发现[4, 5]。此外,测量准确性可能受到设备校准和操作变异性的影响。虽然其他成像技术如基于超声的技术也可以评估骨骼状况,但其灵敏度和准确性有限,不能作为可靠的早期骨质疏松症筛查方法[5, 6]。近年来,人工智能(AI)和机器学习(ML)越来越多地应用于医学诊断,特别是在疾病预测和计算机辅助决策支持方面[7, 8]。先前的研究表明,ML算法能够识别医学数据中的复杂模式,超越了传统的统计方法,可能提高诊断性能[9,10,11]。与单一模型方法相比,堆叠集成学习整合了多种算法,以便更好地适应基于人群的临床数据集中的数据异质性并减少过拟合。
在骨质疏松症研究中,大多数机器学习研究依赖于单一分类器,如支持向量机(SVM)、人工神经网络(ANN)或独立的逻辑回归,来预测特定目标组的骨矿物质密度状态或骨折风险[12, 13]。例如,Tartibian等人在一小队绝经后妇女中使用k最近邻(KNN)算法对正常骨量、骨质减少和骨质疏松症进行分类,并根据预测风险制定运动处方[14]。尽管这些模型在其各自样本中表现出良好的鉴别性能,但它们对异质性人群数据的普适性和常规初级保健环境的适用性仍然不确定。
基于这些考虑,本研究旨在使用堆叠集成学习框架开发和验证一种骨质疏松症的辅助诊断系统,该系统结合了逻辑回归、决策树、梯度提升、极端梯度提升和多层感知器模型,以逻辑回归作为元学习器。通过整合在代表人群NANES数据上训练的多种机器学习算法,这种方法旨在解决基于DEXA的筛查在大规模和资源有限环境中的局限性,并支持早期识别骨质疏松高风险个体。
方法
整体工作流程包括预处理、特征选择、模型开发和评估,如图1所示。
数据预处理和模型构建流程图。NHANES:国家健康与营养调查;SHAP:Shapley加性解释;ML:机器学习;LOG:逻辑回归;DT:决策树;GB:梯度提升;XGB:极端梯度提升;MLP:多层感知器;LR:逻辑回归;AUC-ROC:接收者操作特征曲线下面积;FPR:假阳性率。
研究设计和数据来源
这项横断面分析基于2017-2020年全国健康与营养调查(NHANES)的数据,这是一项针对美国平民非机构化人口的连续性、全国代表性调查。NHANES采用复杂的多阶段概率抽样设计来获得人群水平估计。
最初确定了50岁及以上的参与者(n=4,987人)。排除了那些没有有效双能X射线吸收测定(DEXA)骨矿物质密度(BMD)测量结果的个体(n=1,252人),这是骨质疏松症诊断的参考标准。最终分析样本包括3,735名参与者(图2)。
根据世界卫生组织(WHO)的标准[15],基于股骨颈或腰椎的BMD测量结果定义骨质疏松症。任一部位的T值≤-2.5的参与者被归类为患有骨质疏松症,而T值> -2.5的参与者(正常骨量或骨质减少)被归类为非骨质疏松症。基于此,390名参与者被归类为骨质疏松症,3,345名被归类为非骨质疏松症(图2)。
数据预处理和特征选择
为了应对NHANES数据集中的异质性缺失模式,实施了结构化的预处理程序。首先排除了四个分析相关性较低的预定义人体测量变量(BMIHT、BMILEG、BMIARML和BMIHIP),以及几乎完全缺失的变量。同时,也从分析中移除了候选预测变量中缺失值超过40%的参与者。
缺失数据根据变量类型和缺失机制进行了处理。对于在NHANES编码规范下缺失值对应于“无状况”或“不适用”的分类和二元问卷变量,使用基于规则的分配方法将缺失条目插补为0。对于连续性人体测量和实验室变量,如果缺失值是随机产生的,则应用K最近邻(KNN)插补(k=5)。插补模型在训练数据集上拟合后应用于测试数据集,以避免信息泄露。每个变量的缺失比例在补充表S1中提供。在这种KNN插补框架下,主要评估指标在模型开发过程中保持稳定。
插补后,根据预定义的标准评估和处理极端值。所有连续变量都使用Z分数标准化进行标准化,均值和标准差从训练集中估算后应用于测试集。
特征选择使用最小绝对收缩和选择操作符(LASSO)回归来降低维度[16]。正则化参数(λ)通过交叉验证进行选择[17]。LASSO程序保留的变量被用作所有后续机器学习模型的输入[18]。
模型构建使用堆叠集成学习
实施了两级堆叠集成学习框架。在0级,选择了五个具有不同归纳偏差的基础学习器以提供结构多样性:逻辑回归(LR)、决策树(DT)、梯度提升(GB)、极端梯度提升(XGB)和多层感知器(MLP)。LR作为线性基线模型,而DT、GB和XGB用于捕捉非线性决策边界、交互效应和阈值类型关系。MLP还被纳入以模拟树基方法可能无法完全捕捉的更复杂的、高维的非线性模式。
堆叠过程中,每个基础学习器都在分层训练折叠上进行训练,并为训练集中的所有参与者生成外折叠预测概率。在1级,这些外折叠概率被用作逻辑回归元学习器的输入,生成最终预测。使用外折叠预测确保元学习器在未见过相应结果标签的模型上进行训练,从而避免信息泄露。选择逻辑回归作为元学习器,以提供基础模型输出的稳定、惩罚线性组合,并在聚合来自异质基础模型的预测时保持可解释性。
模型训练、优化和评估
数据集被分层并随机分为训练集(n=2,614;70%)和测试集(n=1,121;30%),以保持骨质疏松症和非骨质疏松症组之间的原始类别分布。经过预处理和特征特定插补后,只有包含最终模型所需完整信息的测试样本被保留用于评估。因此,原始保留测试集中的578个样本构成了最终评估子集。模型开发和超参数调整使用训练集内的分层五折交叉验证进行。
超参数优化结合了网格搜索和贝叶斯优化方法进行。调整的参数包括学习率、最大树深度、估计器数量、基于树的模型的子采样和正则化系数,以及MLP的隐藏单元数量、隐藏层数量和正则化强度。所有模型的完整超参数搜索范围和最终选定值在补充表S2中提供。
鉴于明显的类别不平衡(390例骨质疏松症 vs. 3,345例非骨质疏松症对照组),我们采用了两步策略来处理类别不平衡。首先,在保留的测试集中保留了原始的骨质疏松症患病率,并且没有对评估数据或用于生成堆叠框架的外折叠元特征的交叉验证折叠进行重新采样。其次,为了改善少数类学习,在缩放的训练集上应用了合成少数类过采样技术(SMOTE),生成额外的合成骨质疏松症样本,同时保留所有非骨质疏松症观察结果。训练-测试数据的划分采用了分层抽样方法,以保持训练集和测试集之间的病例-对照组比例相似。这种设计旨在提高对骨质疏松症的敏感性,同时保持现实中的类别比例,并无偏估计模型性能。模型性能通过准确率、精确度、召回率、F1分数以及接收者操作特征曲线下面积(AUC)在保留的测试集上进行评估。接收者操作特征(ROC)曲线用于评估在整个决策阈值范围内的判别性能。为了进一步描述不平衡条件下的类别特定性能,为每个模型生成了混淆矩阵,并计算了各类别的比例(真正例、假正例、假负例)。
**统计分析**
比较了骨质疏松症组和非骨质疏松症组的基线特征。连续变量进行了正态性评估。正态分布的变量以均值±标准差(SD)表示,而非正态分布的变量则以中位数和四分位距(IQR)表示。分类变量以计数和百分比表示。使用Mann-Whitney U检验评估连续变量组间的差异,使用Fisher的确切检验评估分类变量组间的差异。所有统计分析和模型开发均使用Python(版本3.10.8)进行。双侧P值<0.05被认为具有统计显著性。
**结果**
**基线人口统计和临床特征**
如表1所示,无论是男性还是女性,骨质疏松症患者的年龄都显著高于对照组(P<0.001)。此外,骨质疏松症组的BMI普遍较低,男性中位BMI值为24.8对比28.4,女性中位BMI值为25.15对比29.8(P<0.001)。在按性别分层的分析中,骨质疏松症女性的高血压(P=0.002)和糖尿病(P<0.001)患病率低于对照组女性,而这些差异在男性中不具有统计学意义。骨质疏松症女性的体力活动水平较低(P=0.048),而男性中没有观察到显著差异(P=0.308)。酒精摄入和皮质类固醇使用在骨质疏松症组和对照组之间没有显著差异。家族史分析显示,骨质疏松症女性的母亲有骨质疏松症的比率显著较高(P=0.038),而男性中没有这一现象。骨质疏松症男性报告的睡眠障碍频率高于对照组男性(42.9%对比28.1%,P=0.004),而骨质疏松症女性报告的睡眠障碍比率略低于对照组女性(31.7%对比37.9%,P=0.044)。
**代谢和实验室参数**
表2展示了代谢和实验室参数的数据。骨质疏松症男性的贫困指数显著低于对照组男性(P=0.008),而女性组之间没有显著差异。骨质疏松症患者的髋围明显减小(男性P<0.001,女性P<0.001)。骨质疏松症组診断高血压和糖尿病的年龄显著更高,表明这些并发症在受影响个体中发病较晚。多个实验室指标在两组之间存在差异。骨质疏松症患者(无论男性还是女性)的血清尿酸水平显著较低(P<0.001)。男性骨质疏松症患者的甘油三酯水平较低(P=0.003),而女性组中没有显著差异。两种性别的骨质疏松症组的白蛋白与肌酐比值(ACR)略高。炎症标志物也显示出性别差异,骨质疏松症女性的C反应蛋白水平较低(P<0.001)。无论性别如何,血清钙、磷、钠、总胆固醇、肌酐或铁蛋白水平在两组之间没有显著差异。
**特征重要性分析**
经过基于LASSO的特征选择后,保留了16个特征,并使用SHAP分析进行了进一步研究。这些变量之间的相关性结构如图3所示,特征对模型预测的贡献总结在图4中。如图3所示,大多数特征呈现出弱到中等的成对相关性,保留的预测因子之间没有强烈的多重共线性,表明所选特征提供了互补的信息。SHAP汇总结果(图4A)表明BMI、年龄、性别和血清尿酸是最有影响力的预测因子。较高的BMI值主要与负SHAP值相关,对应较低的骨质疏松症风险,而年龄增加和女性性别与正SHAP值相关。血清尿酸和胆固醇(CHO)在个体间的SHAP分布呈双向性,反映了群体内的异质性贡献。按平均绝对SHAP值排序的特征(图4B)进一步确认了性别、BMI和年龄是主要贡献因素,其次是CHO和尿酸。与生活方式相关的变量总体贡献较低,但在个别预测中仍然相关。局部解释图(图4C-D)展示了多个特征如何共同影响个体预测。在一个代表性案例中,女性性别和CHO对预测的骨质疏松症风险有正面贡献,而BMI则产生了负面贡献,体现了模型对人口统计和实验室特征的加性和非线性整合。
**模型性能评估**
五种基础模型和堆叠集成学习方法在骨质疏松症预测方面的诊断性能总结在表3中,总体指标比较显示在图5中,ROC曲线显示在图6中。在所有评估的模型中,堆叠集成模型的AUC为0.95,准确率为0.96,精确率为0.83,召回率为0.81,F1分数为0.82,假阳性率为0.02。各个基础模型的相应性能指标也显示在表3中。在基础学习器中,XGBoost和MLP显示出相对较高的AUC值(分别为0.88和0.89),而逻辑回归和决策树显示出较低的AUC值(分别为0.86和0.79)。梯度提升方法的AUC为0.74。如图6所示,堆叠集成模型的ROC曲线覆盖了更大的区域。在不同假阳性率范围内,各模型的ROC曲线轨迹存在差异。除了AUC外,如表3所示,堆叠集成模型在准确率、精确度、召回率和F1分数方面也优于单个模型。堆叠模型的假阳性率低于基础学习器。
**讨论**
**主要发现**
在这项研究中,我们开发并内部验证了一个基于堆叠集成学习框架的辅助骨质疏松症风险预测系统,使用的是具有代表性的NHANES数据。该模型在多个评估指标上表现出稳定的判别性能,并在类别严重不平衡的情况下保持了较低的假阳性率。重要的是,该系统完全依赖于常规可获取的人口统计、临床和实验室变量,而不是影像学特征,从而解决了基于DEXA的评估在初级保健和社区环境中的某些实际限制[4, 5, 15]。综上所述,这些结果表明,常规收集的指标可以用于构建一个在基于人群的筛查环境中表现良好的数据驱动风险预测系统,并可能补充现有的临床工具[12, 20, 21]。
**关键预测因子和临床相关模式的解释**
基线比较和基于SHAP的特征解释突出了几个临床上合理的预测因子。与现有证据一致,高龄和女性性别与骨质疏松症强烈相关,骨质疏松症组的BMI普遍较低[13, 15, 22]。SHAP汇总图确认年龄、性别和BMI是模型预测的主要贡献因素,较低的BMI使模型输出倾向于更高的预测风险,这与先前的研究一致,这些研究将BMI降低和身体成分改变与骨折和骨质疏松症风险增加以及脂肪-骨骼信号传导的变化联系起来[23, 24]。在女性中,与年龄相关的雌激素下降已知会加速骨质流失,这与我们模型中观察到的性别和年龄的强烈贡献相符[25]。骨质疏松症男性和女性的血清尿酸水平显著较低,并且在SHAP重要性排序中排名较高。这一模式与先前研究和荟萃分析一致,这些研究报道尿酸与骨密度之间存在正相关,并提示其潜在的保护作用[26, 27, 28]。据认为,尿酸的抗氧化特性可能通过调节氧化应激途径来减缓骨质流失[28]。尽管当前的横断面分析无法确定因果关系,但来自组间比较、特征选择和模型解释的一致信号支持尿酸作为人群水平骨质疏松症筛查中补充生物标志物的潜力。其他代谢和炎症标志物在两组之间也存在差异。骨质疏松症组患者的髋围较低,白蛋白与肌酐比值略高,而骨质疏松症女性的C反应蛋白水平较低。这些发现可能反映了身体成分、肾功能、低度炎症和骨骼健康之间的复杂相互作用,应谨慎解释。一些观察结果与某些先前的报告相反。在女性中,骨质疏松症组的糖尿病患病率低于对照组,睡眠障碍的模式也与预期相反,尽管先前的文献将睡眠中断和睡眠时间缩短与不良骨骼结果联系起来[29, 30]。糖尿病对骨骼健康的影响可能是多因素的,可能涉及骨骼形成和吸收的变化、晚期糖基化终产物的积累以及微血管并发症[31]。这些差异可能与治疗暴露、生存偏差、残余混杂因素或未测量的生活方式因素(如饮食和体力活动)有关。在横断面调查数据中,这些变量可能更多地作为整体健康状况或医疗保健参与的标志物,而不是骨骼流失的直接因果决定因素。因此,这些发现不应被过度解读,需要在具有更详细协变量信息的纵向队列中进行确认。值得注意的是,血清钙和磷在两组之间没有显著差异。这与钙稳态受到严格调节的概念一致,即血清水平可能在保持正常范围内,尽管牺牲了骨骼储备[32, 33]。这可能部分解释了为什么传统上认可的骨骼健康标志物(如钙和维生素D)未被数据驱动的特征选择程序保留为有影响力的预测因子。更广泛地说,基于LASSO的变量选择优先考虑那些能够提高观察数据集中整体判别性能的预测因子,并且当生物标志物的短期变异性或共线性降低统计信号时,可能会对其进行降权或排除[16, 17, 34,35,36]。LASSO的这种方法论行为并不否定这些变量的临床相关性,而是反映了横断面生物标志物数据的局限性和正则化回归的预测焦点特性。
模型设计、性能和临床定位
在骨质疏松症预测中的一个主要方法论挑战是类别不平衡:在基于人群的研究中,骨质疏松症患者相对于骨密度正常的人来说是少数。在这项研究中,我们保留了NHANES在保留的测试集中的自然患病率结构,并且没有对评估数据进行任何重采样。为了模型开发,数据集首先通过分层抽样分为训练集和测试集,然后仅对缩放后的训练集应用了合成少数派过采样技术(SMOTE),以生成额外的骨质疏松症样本,同时保留所有原始的非骨质疏松症观测值[19]。这种策略旨在提高少数类学习的稳定性,同时保持性能评估所需的真实类别比例。模型性能使用对筛查有信息量的指标进行评估,包括AUC、召回率、精确度、F1分数和假阳性率,以及在保留的测试集上的混淆矩阵。在这些条件下,堆叠集成模型在大多数指标上表现得优于各个基础模型,并显示出有利的混淆矩阵特征,正确识别的骨质疏松症病例数量相对较多,假阳性数量较少。这些发现与其他研究结果一致,表明与单一模型方法相比,堆叠集成和其他集成学习策略可以提高多因素疾病的预测能力[20, 21, 37,38,39]。
堆叠集成学习整合了逻辑回归、决策树、梯度提升、XGBoost和多层感知器分类器。这些基础学习器在处理线性关系、非线性交互作用和复杂特征空间方面具有不同的归纳偏差和互补的优势[37,38,39]。逻辑回归元学习器汇总了基础模型的概率输出,提供了一种简单透明的机制来权衡它们的贡献,并提高了可解释性,相比更复杂的元模型而言[38, 40]。这种设计旨在在护理点上平衡预测性能和透明度。虽然更灵活的非线性元模型理论上可以捕捉基础模型预测之间的高阶交互作用,但当前配置的选择是为了限制过拟合风险,并保持一个清晰的可传达给临床医生的决策结构。在我们的测试集中,堆叠模型达到了0.95的AUC,这与最近使用风险因素数据进行骨质疏松症预测的机器学习研究的性能相当或略高(AUC范围约为0.76–0.95)[41]。
重要的是,该模型完全依赖于在初级保健环境中容易获得的变量,如年龄、BMI、血压史以及常规实验室检测结果,包括尿酸和血脂[4, 5, 15]。这增强了在DEXA不常规可用或成像访问受限的环境中的可行性。使用SHAP分析进一步提供了个体特征如何在人群和个体层面贡献于风险估计的透明视图,这可能有助于临床接受度,并支持开发可解释的机器学习工具以促进诊断医学的共享决策[7, 11, 12]。
局限性和泛化能力
应承认几个局限性。首先,分析使用了来自NHANES的单一横断面数据集,该数据集主要代表美国人群。种族、身体组成、生活方式和医疗系统的差异可能会限制其在其他地区的泛化能力,包括具有不同骨质疏松症流行病学特征的亚洲人群[3, 12, 22]。因此,需要在独立队列中进行外部验证。此外,由于某些层次内的样本量限制,我们没有按年龄、种族或主要共病情况进行预定义的亚组分析。未来需要在更大和更多样化的人群中进行外部验证研究,以进一步检查所提出模型在临床相关亚组中的性能和稳定性。其次,只有具有可用DEXA测量的参与者被纳入研究,这可能会引入选择偏差,并低估了体弱个体或那些诊断检测机会有限的个体[4, 5, 15]。第三,尽管我们试图纳入广泛的人口统计、生活方式和生化变量,但一些临床相关因素——如详细的糖皮质激素暴露、抗骨质疏松药物以及长期钙或维生素D补充——无法在各个调查周期内完全捕获或协调。因此,我们无法与依赖特定变量定义和骨折史的成熟风险评估工具(如FRAX)进行直接比较[4, 5, 15]。第四,SHAP分析是应用于XGBoost基础模型,而不是整个堆叠集成;目前用于在特征层面分解元模型预测的方法仍有限,所报告的解释应在这一背景下进行解读。最后,仅靠内部验证不能完全排除过拟合,而分析的回顾性质排除了评估时间关系或临床影响的可能性。因此,这些发现应被视为探索性的,在任何广泛的临床应用之前,需要在前瞻性实际研究中得到确认。其他基于人工智能的骨质疏松症研究也注意到了类似的局限性,包括依赖于横断面BMD测量和缺乏前瞻性结果数据[41],这突显了在临床应用前进行纵向验证的必要性。
意义和未来方向
尽管存在这些局限性,本研究表明,将堆叠集成学习方法应用于常规收集的临床数据可以为基于人群的骨质疏松症风险筛查提供一个透明且可扩展的框架,补充了最近基于AI的工作,这些工作主要集中在多类别分类或性别特定模型上[12, 20, 21, 37,38,39]。该系统的目的是支持而不是取代传统诊断途径,通过标记出预测风险较高的个体,他们可能需要进一步评估,包括DEXA和专家转诊[4, 5, 15]。图8展示了一个潜在临床实施的示意图,并已开发出一个本地可部署的基于Web的界面,为临床医生提供实时风险估计和可视化解释。然而,将此类模型整合到常规工作流程和电子健康记录系统中可能会面临多个挑战,包括常规收集数据的异质性和不完整性、信息系统之间的互操作性障碍、需要持续的性能监测和重新校准,以及警报疲劳或过度依赖算法建议的风险[7, 11, 39]。未来的工作应集中在种族多样化的队列和不同的医疗系统中进行外部验证,然后在实际临床环境中进行前瞻性评估,以评估校准能力、临床效用以及对转诊模式和患者结果的潜在影响[3, 12, 15]。与FRAX或其他基于指南的工具在数据集中的直接比较将对于明确增量价值非常重要[4, 5, 15]。同时,进一步完善用户界面并与电子健康记录系统集成可能有助于将这些模型嵌入日常实践中,同时确保适当的临床监督并防止过度依赖算法输出[7, 11, 39]。在初级保健或社区诊所进行试点实施,并分阶段监测模型性能和临床医生反馈,将对改进部署策略至关重要。
结论
在这项研究中,我们使用了具有代表性的NHANES数据来开发和内部验证一个基于堆叠集成的辅助诊断系统,用于骨质疏松症。该堆叠模型结合了逻辑回归、基于树的学习器和多层感知器,在原始类别不平衡的情况下实现了更高的AUC、召回率和F1分数,同时保持了较低的假阳性率。因为它仅依赖于常规可获得的人口统计、临床和实验室变量,这个框架可以在DEXA访问受限的环境中作为可扩展的筛查工具,通过标记出预测风险较高的个体以进行进一步评估和专家转诊。鉴于其回顾性的单数据集设计和缺乏外部或前瞻性验证,这些发现应被视为探索性的,未来的工作应集中在在多样化的群体中验证和校准模型,并在考虑临床应用之前直接将其与FRAX等基于指南的工具进行比较。