编辑推荐:
这篇综述系统回顾了机器学习在诊断髋、膝关节置换术后假体周围感染领域的应用。文章指出,PJI诊断充满挑战,而ML模型通过整合患者人口统计学、临床特征、血清学、影像学等多模态数据,展现出高诊断效能(AUC最高达0.993),有望超越传统诊断标准(如MSIS、ICM),为临床实现更早、更准确的识别和治疗决策提供数据驱动的新途径。
假体周围感染是人工全髋关节置换术和人工全膝关节置换术后一种毁灭性的并发症,发病率为2年内高达1.7%,与显著的发病率、生活质量下降、住院时间延长和医疗费用增加相关。其5年死亡率高达21%,是关节置换术最令人担忧的并发症之一。准确及时的诊断对于确保成功和明确的治疗至关重要,但由于缺乏金标准、培养阴性感染以及不同诊断测试的敏感性和特异性各异,诊断仍然具有挑战性。
机器学习作为一种人工智能子集,能够分析涉及临床体征和症状、实验室研究、微生物学、医学影像学等多模态数据的复杂数据集,为提升PJI诊断准确性提供了充满希望的方法。本系统评价旨在描述利用机器学习诊断PJI的文献。
方法
本研究进行了一项系统文献综述,以识别描述机器学习或人工智能在涉及髋或膝关节的假体周围感染诊断中应用的原始研究。检索于2025年3月17日通过PubMed和Embase进行。两名独立评审员筛选研究,数据由第三名评审员解决分歧后提取并合成。
AUC解读
曲线下面积用于评估模型性能,其解读遵循文献指南:0.5 = 无判别力;0.5-0.7 = 差;0.7-0.8 = 可接受;0.8-0.9 = 优秀;≥0.9 = outstanding。
结果
研究筛选与特征
初始检索共识别583项研究,经筛选后12项研究被纳入数据提取。所有研究均为回顾性设计。数据来源包括本地学术机构、国家数据库、跨国数据库和中心临床实验室。仅有一项研究使用了独立的患者队列进行外部验证。样本量差异很大,最小为20例患者,最大为17,165例手术。
输入特征
研究所用的输入特征类别包括患者人口统计学、临床特征、合并症、血清学研究、放射影像学、诊断标准、微生物学、滑液分析、手术因素、组织病理学和风险分层评分。输入特征数量(不包括仅使用影像或病理学的研究)从22到60不等。大多数研究使用了患者人口统计学和合并症。
机器学习模型与性能
12项研究共描述了23种不同的机器学习算法,包括线性模型、基于树的模型、支持向量机、K近邻、朴素贝叶斯和深度学习模型。所有研究都报告了AUC值。8个机器学习模型的AUC大于0.9,被认为是outstanding;13个模型的AUC在0.8-0.9之间,为优秀;7个模型的AUC在0.7-0.8之间,为可接受。
表现最佳的模型包括:用于翻修术后PJI诊断的元学习器;用于术前和辅助诊断的决策树;用于术中“实时”预测的元学习器;以及用于原发性关节置换术后PJI诊断的深度学习模型。这些结果表明机器学习模型在处理变量间复杂的非线性关系以预测PJI方面具有卓越能力。
诊断时间点与标准
机器学习模型应用于管理PJI的不同临床时间点,包括初次关节置换术后诊断、翻修术前诊断、翻修术后诊断以及术中实时诊断。大多数研究使用共识标准来标记训练数据中的感染或无菌病例,主要是肌肉骨骼感染学会和国际肌肉骨骼感染共识标准。然而,完全依赖共识标准进行训练和评估可能导致性能指标虚高。
质量评估
使用APPRAISE-AI工具对纳入研究进行的质量评估显示,平均得分为49分(满分100分),范围在39至57分之间。
讨论
特征选择与数据质量
输入特征的选择和质量在机器学习模型的性能和可靠性中起着关键作用。临床特征、滑液分析、微生物学数据和影像学技术等都能提供重要信息,提升诊断准确性。然而,大型、高质量数据集的获取仍是一大挑战,全国性数据库的利用率不足。
诊断挑战与机器学习优势
PJI的诊断可能很困难,目前没有金标准诊断标准。机器学习模型通过整合多模态数据类型,显示出比传统标准更高的诊断准确性。其优势还包括前瞻性预测结果的能力、处理缺失或不完整数据的灵活性。例如,有研究报道的元学习器模型在特异性匹配传统标准的同时,灵敏度显著超越。
面临的挑战
机器学习模型面临数据获取、单中心数据局限性、缺乏外部验证以及某些算法的“黑箱”性质等挑战。提高模型的可解释性对于建立临床信任至关重要,例如通过SHAP等特征重要性分析方法。伦理考虑也必须得到解决,以确保负责任地使用机器学习。
结论与未来方向
机器学习模型在改变全髋和全膝关节置换术后PJI诊断方面展现出巨大潜力。未来的研究应优先开展多中心研究,使用标准化、多样化的数据集,进行外部验证,并采用可解释的方法来增强普适性和临床采用度。