一种可解释的端到端人工智能框架,用于通过放射成像图像结合解剖特征工程来诊断腰椎滑脱症

《Meta-Radiology》:An Explainable End-to-End Artificial Intelligence Framework for Lumbar Spondylolisthesis Diagnosis from Radiography Images Using Anatomical Feature Engineering

【字体: 时间:2026年05月07日 来源:Meta-Radiology CS10.2

编辑推荐:

  萨克希·什雷斯塔 | 西蒂萨克·赛楚恩 | 皮帕蓬·万帕诺恩 | 普西特·科埃德萨克·纳·瓦恩诺伊 | 普拉维特·布恩米 | 彭拉瓦特·乔普克 | 谢赫纳兹·谢克 美国田纳西州约翰逊市东田纳西州立大学计算机系 **摘要** 脊椎滑脱是一种常见的脊柱疾病,其诊断过程可

  萨克希·什雷斯塔 | 西蒂萨克·赛楚恩 | 皮帕蓬·万帕诺恩 | 普西特·科埃德萨克·纳·瓦恩诺伊 | 普拉维特·布恩米 | 彭拉瓦特·乔普克 | 谢赫纳兹·谢克
美国田纳西州约翰逊市东田纳西州立大学计算机系

**摘要**
脊椎滑脱是一种常见的脊柱疾病,其诊断过程可能具有主观性和挑战性,因此需要放射学领域中精确、自动化的解决方案。本研究提出了一种综合流程,结合深度学习和机器学习技术,能够准确检测、定位并分类腰椎X光片中的脊椎滑脱。利用BUU-LSPINE数据集(包含3600人的7200张腰椎侧位/前后位X光图像),评估了八种目标检测模型,最终确定U-Net模型在稳健的椎骨标志点分割方面表现最佳,从而避免了因漏检导致的数据丢失。基于这些标志点,为每位患者生成了一组初始的720个生物力学特征,随后将其重构为每个椎骨级别的特征,并精简至85个最显著的特征,以提高分析效率并降低模型复杂性。鉴于存在少量确诊为脊椎滑脱的病例,研究应用了增强类重平衡技术来生成更加平衡的数据集。使用该平衡数据集训练了九种机器学习模型,以根据Meyerding分类标准识别脊椎滑脱的存在及其严重程度。在评估的模型中,XGBoost显示出最高的分类准确率和稳定性(测试集86.7%,交叉验证集86.3%)。最后,通过可解释AI(XAI)技术(如SHapley Additive Explanations (SHAP) 和 Local Interpretable Model-Agnostic Explanations (LIME))评估了AI模型的可解释性,以解释模型的决策过程。XAI分析证实模型学习了具有临床意义的模式,使预测结果透明化,并增强了模型在实际应用中的可靠性。

**1. 引言**
脊椎滑脱是一种脊柱疾病,其特征是某个椎体向前移动到下方椎体的上方,是导致腰痛、腰神经根病和活动能力受损的重要原因。该疾病最常影响承受高机械负荷的L4-L5和L5-S1椎间盘段。随着全球人口老龄化,像脊椎滑脱这样的退行性疾病的发病率正在上升,尤其是60岁以上的女性中,这加剧了对精确高效诊断解决方案的需求。流行病学研究表明,脊椎滑脱在女性中的发病率(8.4%)明显高于男性(2.7%)。
传统的脊椎滑脱诊断依赖于对腰椎图像(如侧位(LA)和前后位(AP)X光片的手动解读。然而,普通X光片的有效性常受图像质量变化的限制,手动解读可能存在主观性、耗时且容易出错。为了解决这些问题,最近的研究集中在开发基于深度学习的自动化计算机辅助诊断(CAD)工具上。包括基于Transformer的架构在内的先进模型,在检测和定位椎体压缩性骨折(VCF)和慢性椎体滑脱等脊柱疾病方面展现出巨大潜力。表1和表2详细总结了这些方法的特点、针对的具体疾病以及存在的局限性。此外,表3将这些先前研究的结果(包括异常等级和位置)与我们的方法进行了对比。

**表1. 脊柱异常检测方法的比较总结**
| 参考数据集 | 方法 | 疾病目标 | 指标 | 局限性 |
| --- | --- | --- | --- | --- |
| Ahmad等[34] | 椎体X光数据集(Kaggle)[35]:338个样本(71个正常,188个脊柱侧弯,79个脊椎滑脱) | 基于CNN的顺序模型:包含最大池化和密集层的8层卷积层 | 1. 脊柱侧弯;2. 脊椎滑脱;3. 病变 | 1. 对无关图像特征的过拟合风险;2. 病变样本分布不平衡;3. 缺乏可解释性(Grad-CAM) |
| Trinh等[4] | 706个样本(真实侧位、屈曲和伸展视图);312个异常样本(包含增强数据) | LumbarNet:U-Net + 特征融合模块(FFM)+ 分段斜率检测(PSD)+ 动态位移(DS) | 1. 腰椎滑脱 | 平均IOU:0.88(U-Net为0.80);准确率:88.83%;敏感性:89.44%;特异性:84.92% | 1. 仅适用于单一医院的数据集;2. X光质量波动;3. 计算成本高(29层卷积层) |
| Klinwichit等[6] | BUU-LSPINE数据集[6]:3600张腰椎X光片(AP和LA视图),由放射科医生标注(脊椎滑脱与正常) | 基线模型:YOLOv5、ResNet152V2、DenseNet201、SVM、ResNet50、EfficientNet、VGG16 | 1. 腰椎滑脱 | 使用YOLOv5的精确度:AP视图81.93%,LA视图83.45%;使用SVM的准确率:AP视图95.14%,LA视图92.26% | 1. 来自泰国某医院的数据集;2. 类别不平衡;3. X光质量波动;4. 无分割/标志点基准 |
| Saravagi等[22] | 腰椎X光数据集(临床来源)[36]:299张X光图像,标注有脊椎滑脱和脊柱侧弯病例 | 基于深度学习的分割方法(图像预处理、边界框定位、混合CNN+分割模型) | 1. 脊椎滑脱;2. 脊柱侧弯 | 使用VGG16的准确率:98%;使用InceptionV3的准确率:96%;使用Compressed VGG16的准确率:96% | 性能优于Varcin等(93%准确率);优于Zebin和Rezvy(VGG16 + TFLite)(90%准确率) | 1. 数据集规模较小;2. X光质量不稳定;3. 计算资源密集 |
| Liu等[37] | 包含28065张腰椎MRI图像和分割掩膜的数据库,标注有多种疾病 | MRI分割+大型语言模型(LLMs)集成成像和临床文本 | 1. 椎管狭窄;2. 椎间盘突出;3. 脊椎滑脱 | 整体分类准确率:92-94%;脊椎滑脱分类准确率:93%;分割Dice得分:椎体87%,椎间盘84% | 1. 需要MRI成像和临床记录;2. 计算成本较高;3. 跨医院泛化能力有限 |
| Prasad和Jana[38] | 腰椎X光片:338个样本(正常 vs 脊椎滑脱) | 优化预训练的CNN模型(AlexNet、GoogLeNet、ResNet18、ResNet50) | 1. 腰椎滑脱 | 使用ResUNet(LW-RUnet)的分割准确率:正常99.28%,脊柱侧弯98.25%,脊椎滑脱98.34% | 1. 数据集规模小且不平衡;2. 数据来源单一;3. 过拟合风险 |
| Ruchi等[39] | 公共和临床来源的腰椎X光数据集[40]:514张图像,分类为正常、脊椎滑脱和其他脊柱疾病 | 增强的CNN模型(包含额外隐藏层和dropout正则化) | 1. 腰椎疾病(重点关注脊椎滑脱) | 多支持向量机(MSVM)准确率96%;随机森林(RF)准确率94%;决策树(DT)准确率93.5%;朴素贝叶斯(NB)准确率91% | 1. 数据集规模有限;2. 过拟合风险;3. 无外部验证;4. 计算成本增加 |

**表3. 脊柱异常检测方法的比较概述**
| 参考数据集 | 方法 | 疾病目标 | 指标 | 局限性 |
| --- | --- | --- | --- | --- |
| Ahmad等[34] | N/A | 脊柱侧弯;脊柱关节炎;病变 | N/A |
| Trinh等[4] | P-Grade | L1-L5区域的脊椎滑脱在真实侧位、屈曲和伸展视图中的表现 | N/A |
| Klinwichit等[6] | Meyerding分类(I级至IV级) | L1-L5区域的脊椎滑脱表现 | N/A |
| Liu等[37] | MRI数据集 | 脊椎滑脱的准确率 | N/A |
| Saravagi等[22] | N/A | 脊椎滑脱的表现 | N/A |
| Prasad和Jana[38] | N/A | 脊椎滑脱的表现 | N/A |
| Ruchi等[39] | Meyerding分类(I级至V级) | L1-L5区域的脊椎滑脱表现 | N/A |

**我们的方法**
尽管深度学习显示出巨大潜力,但许多先前的研究主要集中在定位上,且往往作为“黑箱”运作,缺乏临床所需的透明度。本研究提出了一种端到端的解决方案,不仅能够准确诊断,还能提供可解释的决策过程。我们采用了一种综合的端到端流程,不仅能够检测脊椎滑脱,还能识别其具体类型和等级。该方法结合深度学习进行自动化特征提取、机器学习进行精确分类,以及可解释AI(XAI)进行解剖学和临床验证,确保预测基于生物学上有意义的特征,而非虚假相关性,从而增强临床信任度和实际应用价值。

为了建立临床有效的性能基准,我们的研究使用了BUU-LSPINE数据集[6]——这是一个专门为脊椎滑脱检测而整理的公开腰椎X光数据库。该数据集通过专业放射科医生的细致标注,确定了椎骨定位和诊断的基准。先前的基准测试表明,使用YOLOv5在AP视图上的准确率为81.93%,在LA视图上为83.45%;椎骨角点提取的平均误差距离分别为AP视图4.63毫米和LA视图4.91毫米[6]。通过利用这些专家验证的标签和基准,我们的AI系统达到了86.7%的准确率,证明了模型在放射科医生标注的基准下的表现优异。此外,该数据集通过提供标准化的椎骨位置和验证的异常等级,有效避免了手动X光解读中的主观性和观察者间差异。

在本文中,我们回答了以下关键问题:
- 如何在侧位(LA)和前后位(AP)X光图像中准确定位和识别腰椎椎骨?
- 可以采用哪些方法从定位的椎骨标志点中有效提取相关生物力学特征?
- 如何利用机器学习模型从提取的特征中检测脊椎滑脱和其他异常?
- 哪种机器学习模型在椎骨级别上具有最高的脊椎异常检测准确率?
- 通过可解释性和解释性技术,哪些特征对识别特定病理最为关键?
- 哪些特征在确定椎体退化或滑动的等级方面最为重要?
- 是否可以通过仅从LA视图或AP视图X光中提取的特征子集高效识别特定类型的脊椎滑脱?

本文系统地回答了这些研究问题。首先,我们详细介绍了图像数据预处理、腰椎标志点检测、特征工程以及腰椎异常类型、位置和等级的识别方法。接着,我们展示了机器学习模型比较分析的结果,强调了我们的分类流程的性能,并利用XAI进行了深入分析以解释模型的行为。最后,我们讨论了研究结果及其临床意义,展示了这一透明框架在现实世界诊断中的潜力。

**2. 文献综述**
本文献综述旨在全面概述当前自动脊柱诊断的现状。首先评估了现有的腰椎图像数据集,这些数据集是模型训练的关键基础。第二部分探讨了脊柱标志点检测和图像处理的技术发展,对比了传统计算机视觉与现代深度学习之间的差异。第三部分讨论了腰椎滑脱的自动诊断,特别是高性能架构和模型优化。最后,我们探讨了可解释AI(XAI)的集成,以解决深度学习的“黑箱”问题,重点建立了验证模型决策的机制,确保临床可解释性和信任度。

**2.1. 腰椎图像数据集**
在开发自动脊柱诊断过程中,一个主要障碍是缺乏大规模、高质量的X光数据集。现有数据集(如NHANES II[7])通常缺乏详细生物力学分析所需的精确标志点注释,而其他数据集要么样本量太小,要么专注于特定疾病。此外,大多数数据集未考虑腰椎骶骨过渡椎(LSTV),这可能导致自动检测中出现显著误差。
BUU-LSPINE数据集[6]填补了这一空白,包含3600张标注了详细临床信息的腰椎X光片。该数据集提供了精确的椎骨位置,并由三位专业放射科医生验证了脊椎滑脱的诊断结果,确保了诊断的客观性。它包含了腰椎骶骨过渡椎(LSTV)的特定标签,如骶化(L4)和腰椎化(L6)。使用YOLOv5[8]、ResNet152V2[9]、DenseNet201[10]和SVM[11]进行评估时,该数据集在椎骨检测和脊椎滑脱预测方面展现了高准确率。LSTV标签的加入突显了其对检测模型的影响,为推进自动脊柱诊断和构建临床决策支持系统提供了坚实的基础。

**2.2. 脊柱标志点检测和图像处理**
在静态图像中进行目标检测是计算机视觉的基本任务,性能高度依赖于检测方法和图像特征。常用的算法(如SURF[12]、BRISK[13]、MSER[14]和ORB[15])已被广泛用于特征提取,但效果因应用场景而异。研究[16]在具有不同直方图分布的灰度图像上评估了这些方法,发现图像预处理技术(包括直方图均衡化、强度归一化到指定范围和滤波)显著提高了图像质量和检测准确率。此外,在标准算法最初失败的情况下,一种自定义的像素调整方法提高了性能,这突显了图像准备在检测结果中的关键作用。手动测量腰骶部放射学参数通常耗时且容易受到观察者差异的影响,限制了其在临床环境中的可靠性。为此,最近的研究探索了深度学习模型来自动化这些任务,从而提高了效率和准确性。一种最近的方法[17]使用1240张腰椎侧位放射图像开发了一个模型,能够自动识别关键的椎骨点并计算关键参数,如腰椎前凸(LL)、骶骨水平角(SHA)和腰椎滑脱百分比(PLS)。该模型与专家标注的高度一致,具有强相关性及类内一致性(ICC > 0.90),并且误差 margin 很低。这些发现表明,深度学习可以提供一致可靠的替代手动脊柱测量的方法,在临床应用和大规模放射学分析中具有巨大潜力。

2.3. 腰椎滑脱的检测和自动化诊断
腰椎滑脱是一种慢性椎体滑脱疾病,需要早期和准确的检测以避免外科手术。深度学习模型在利用X光图像自动化这一过程中显示出了潜力。人工智能(AI)和机器学习(ML)在脊柱成像中的应用快速发展,在特定图像分类任务中表现得几乎接近人类水平。最近的研究[18]涵盖了包括退行性疾病、创伤、畸形和肿瘤在内的各种脊柱状况,展示了AI/ML模型在支持临床决策方面的潜力。虽然目前大多数成功案例仅限于狭窄的任务和特定的数据集,但正在进行的发展表明,AI和ML将在未来的脊柱外科手术和诊断中发挥越来越重要的作用。在一项最近的研究[19]中,这些模型在椎管狭窄(VCF)和腰椎滑脱的检测中取得了0.97的高AUC分数,比现有的端到端方法高出超过20%。这些发现强调了变换器网络在提高诊断准确性和减少临床工作量方面的有效性。其中一种方法,LumbarNet[4],整合了U-Net以及特征融合、分段斜率检测和动态位移等附加模块。它展示了高分割性能(mIOU = 0.88)和88.83%的滑脱检测准确性,超越了标准的U-Net模型。这些发现支持LumbarNet作为可靠的计算机辅助诊断工具的潜力,适用于各种X光视图中的腰椎滑脱检测。

最近的研究探索了基于CNN的架构,如VGG16[20]和InceptionV3[21]用于分类任务,这些架构通常通过数据增强和模型优化得到改进。一种最近的方法[22]通过应用TensorFlow Lite(TFLite)[23]优化,使用VGG16实现了98%的准确性,使用InceptionV3实现了96%的准确性。TensorFlow Lite优化通过减少深度学习模型的复杂性和内存占用,使得它们能够在资源受限的硬件上快速、高效地运行,从而能够在小型设备上部署模型。量化后的模型进一步提高了性能,优于Varcin等人[24]和Zebin与Rezvy[25]之前的方法。这种优化过程涉及将模型的数值精度从32位浮点数(FP32)转换为更高效的格式,如16位浮点数(FP16)、8位整数(INT8)或甚至4位表示。这些结果突显了优化后的深度学习模型在腰椎滑脱检测中的有效性,以及它们在显著减少内存占用和推理延迟的同时不牺牲诊断准确性方面的潜力。然而,更广泛的临床应用仍然面临与泛化能力、数据质量和集成到工作流程相关的一些挑战。

人工智能(AI)通过提高诊断准确性、工作流程效率和个性化护理,正在快速改变脊柱成像领域。AI技术[26]在改善图像质量、自动化解剖测量和分割脊柱结构方面显示出潜力。模型现在在检测骨折、狭窄、感染和肿瘤方面达到了专家级别的性能。除了诊断之外,AI还通过合成计算机断层扫描(CT)生成[28]、增强现实[29]和机器人引导[30]等工具支持手术计划。它还通过将成像与临床数据结合起来辅助结果预测。尽管取得了这些进展,但仍然存在诸如泛化能力有限、可解释性和数据可用性等问题。通过大规模、多中心合作来解决这些问题对于更广泛的临床应用至关重要。

2.4. 在腰椎影像分析中使用XAI的模型可解释性
将人工智能(AI)整合到医疗保健中在过去几十年里迅速扩展,提供了先进的临床决策支持、医学图像解释和诊断分析能力。深度学习、机器学习和联邦学习等技术在疾病管理中表现出强大的性能;然而,它们的“黑箱”特性仍然是一个主要限制。这种缺乏透明性的问题引发了关于信任、责任和临床安全性的担忧,这些都是医疗决策和患者结果的关键因素。为了解决这些问题,可解释人工智能(XAI)作为一个重要的框架出现,旨在使AI决策过程对人类用户透明和可解释。随着深度学习在医学图像分析中变得越来越普遍,对XAI的需求也在增长,特别是在高风险的临床应用中。XAI技术的目标是通过提供模型推理的见解来提高信任度和可用性,使临床医生能够更好地理解、验证并依赖AI辅助的诊断。最近的调查[31]根据结构化框架和解剖应用领域对XAI方法进行了分类,强调了它们在增强临床决策支持和可解释性方面的作用。最近的研究进一步展示了XAI在医学诊断中的实际影响。例如,一些研究[32]展示了在保持可解释性的同时实现高预测准确性的XAI驱动的癌症诊断模型。这些模型在大型医学影像数据集上训练,性能优于传统方法,并提供了对临床医生有意义的解释。这些发现强调了可解释性在临床环境中的重要性,并展示了XAI如何提高诊断的可靠性、信任度和责任感。此外,系统评价[33]强调XAI与深度学习和联邦学习的日益融合,作为医疗保健数字化转型的关键组成部分。这些研究凸显了XAI作为关键研究和应用领域的地位,吸引了越来越多研究人员、临床医生和政策制定者的关注,他们希望提高透明度、决策质量以及AI驱动的医疗系统的安全应用。这一不断增长的工作体系强调了XAI的必要性,特别是在复杂和多因素条件下,模型预测必须得到临床和解剖学意义上的特征的支持。

3. 方法论
我们提出的方法论遵循一个结构化的端到端流程,旨在通过四个主要阶段将原始放射图像转换为可解释的临床诊断,如图9所示。
下载:下载高分辨率图像(920KB)
下载:下载全尺寸图像
图9. 提出的端到端AI脊柱诊断流程

- **地标检测阶段**利用深度学习定位腰椎椎骨,并从原始X光图像中识别精确的解剖学角点,有效地隔离相关的脊柱节段。
- **特征工程阶段**将这些坐标转换为生物力学测量值,如滑脱百分比和椎骨倾斜度,以量化脊柱位移的程度。
- **疾病诊断阶段**通过机器学习模型处理这些特征,以确定每个椎骨水平的特定类型的腰椎滑脱。
- **模型优化和可解释性阶段**专注于通过量化来提高模型效率,同时整合可解释人工智能(XAI)技术,以确保模型的决策过程保持临床透明性。本节的其余部分详细介绍了每个阶段的技术实现,从数据预处理和地标检测开始,接着是特征工程和分类框架,最后是我们的优化和可解释性协议。

3.1. 第0阶段:数据预处理
为了启动数据处理流程,原始X光图像要经过严格的预处理阶段,以确保仅使用符合研究纳入标准的有效图像。该过程涉及将输入维度标准化为统一的分辨率,通常为640 × 640像素,以保持模型层的一致性,确保在各种临床放射图像中的稳定数值处理。

3.2. 第1阶段:地标检测
在数据处理的第一个阶段,将深度学习模型应用于X光图像,以识别五个腰椎L1-L5的每个椎骨的四个角点,以及顶部骶骨S1的两个上角点。为此,我们使用了Saechueng等人[41]建立的框架,特别是基于他们的方法来定位X光图像中的腰椎椎骨角点。为了准确识别这些地标,他们的方法利用了经过改进的YOLOv5模型来应对常见的临床成像挑战,如解剖结构重叠、图像噪声和视觉伪影,这些通常会导致误检。通过集成高级预处理和关键的两步后处理阶段来消除异常值,提高了模型性能。首先通过移除位于主要椎体边界外的检测到的角点来过滤外部异常值。随后,使用欧几里得距离来选择与真实解剖学角点距离最短的候选点。通过应用这些预处理和后处理,作者实现了显著的精度,平均精度(mAP)为97.7%,平均定位误差为3.51毫米[41]。在当前研究中,我们使用了Saechueng等人[41]描述的方法,并用各种深度学习模型评估了它们在检测腰椎椎骨角点方面的性能。评估的八个模型包括YOLOv5[42]、YOLOv8[43]、YOLOv12[44]、Faster R-CNN[45]、RetinaNet[46]、CenterNet[47]、Cascade R-CNN[48]和U-Net[49]。论文的后续部分提供了这些模型架构的简要描述以及观察到的指标。第1阶段处理后的中间输出是L1-L5腰椎视角22个角点的X和Y坐标集,以及AP视角20个角点的坐标集。

3.3. 第2阶段:特征工程
第1阶段处理后的中间结果在第二个阶段进一步处理,以计算更多特征,具体细节在论文的后续部分提供。除了人口统计特征和椎骨地标X和Y坐标外,还为给定患者的AP和LA视角中的每个角点计算了17个生物力学特征。一些工程特征包括椎体高度、距离、宽度、滑脱百分比、Meyerding分类等级等。这一阶段的中间输出是从患者的AP和LA视角X光图像中提取和计算总共720个特征。

3.4. 第3阶段:疾病诊断
第2阶段特征工程生成的特征向量用于训练多个机器学习模型,以识别特定的病理和异常等级。比较了九个机器学习模型的性能,包括逻辑回归、K-最近邻、支持向量机、朴素贝叶斯、决策树、随机森林、梯度提升、XGBoost和CatBoost。论文的后续部分详细讨论了结果和观察结果。

3.5. 第4阶段:模型优化和可解释性
使用SHAP和LIME等可解释性工具来确定特定特征在识别病理中的重要性。SHAP Waterfall和LIME解释图用于检查各个解剖学和生物力学特征如何贡献于每个患者级别的预测。论文的最后部分包括了几项案例研究的讨论。

4. 实施
4.1. 数据集
本研究使用的是由泰国Burapha大学医院的三位专业放射科医生整理的BUU-LSPINE数据集[6]。为了减少主观诊断偏见,通过在专家共识的基础上建立了真实标注。该数据集包含了来自3600名个体的7200张腰椎X光图像。每张图像包含患者的腰椎前后(AP)视图和侧位(LA)视图,如图1和图2所示。每张图像都用五个标签之一进行标注,表示异常情况为正常、左滑脱、右滑脱、前滑脱或后滑脱。此外,每张图像还包括关于异常位置的信息,如L1、L2、L3、L4、L5或S1椎骨,以及根据Meyerding分类的异常等级,如I级、II级、III级、IV级或V级。请注意,本研究仅限于识别X光图像中的腰椎滑脱异常。两种特殊情况LSTV(称为腰椎化(L4)和骶骨化(L6)不在本研究范围内。因此,在数据预处理阶段移除了BUU-LSpine数据集中代表这些情况的X光图像,不再纳入进一步分析。总之,本研究包含的所有图像都有五个可以单独识别的腰椎椎骨。

下载:下载高分辨率图像(236KB)
下载:下载全尺寸图像
图1. 腰柱的前后(AP)图像:快照
下载:下载高分辨率图像(217KB)
下载:下载全尺寸图像
图2.腰椎的侧位(LA)图像概览:为确保最高的临床相关性和数据完整性,实施了两个阶段的过滤和划分过程:
- 临床隔离和过滤:从144名患者的X光图像中隔离出代表L4和L6异常的图像,并将其从进一步分析中移除。这些病例虽然具有临床意义,但被单独处理以保持主要诊断流程中椎骨范围的一致性(L1-S1)。这种隔离导致了一个由3456名患者组成的主要研究组,共计6912张AP/LA图像。这些细节在表4中进行了总结。
- 按患者划分的数据:为了防止数据泄露并确保模型能够很好地泛化到未见过的解剖结构,数据集是按患者而非图像进行划分的。BUU-LSpine数据集主要队列中的6912张X光图像被分为训练集、测试集和验证集,比例为70/20/10,如下表5所示:
- 训练集(70%):2420名患者(4840张图像)。
- 测试集(20%):691名患者(1382张图像)。
- 验证集(10%):345名患者(690张图像)。
表4. 数据集摘要
数据集详情:
- 总患者数:3600
- 数据集中的总X光图像数:7200
- 患有L4/L6病例的患者数:144
- 具有L4/L6病例的X光图像数:288
- 本研究中的总患者数:3456
- 本研究中的总X光图像数:6912

表5. 用于模型训练/测试/验证的数据集子集
空单元:百分比划分
- 患者数量:70%:2420
- 图像数量:4840
- 测试集:20%:691
- 图像数量:1382
- 验证集:10%:345
- 图像数量:690

这种划分确保了属于同一患者的AP和LA视图图像始终位于同一集合中,防止了数据泄露,并提供了系统在实际临床环境中性能的可靠衡量标准。

4.2. 数据集增强
在开发诊断模型时面临的主要挑战是训练集中的类别极不平衡,表示“正常”情况的数据样本数量明显多于病理情况的数据样本,如表6所示。我们实施了一种“智能增强”策略。该方法利用了一个特定的“疾病配额”系统,旨在确保深度学习的数据集的稳健性,同时平衡机器学习模型的分布。这个多阶段过程将最初不平衡的数据转换为每个视图(LA和AP)4800张标准化训练图像的池,总共9600张增强后的X光图像。

表6. 增强前的基于病理的图像分布。(图例:NA-不适用)
空单元:
- 正常:2335
- 左侧滑脱:243
- 右侧滑脱:2420
- 前突:312
- 后突:139
- 总计:960

战略性重新平衡目标:与仅针对少数类别的标准方法不同,我们的增强流程应用于整个数据集,以确保所有类别的解剖特征的均匀密度。

基于异常的增强:首先增强少数病理类别,使其达到深度学习模型所需的统计显著阈值。这确保了后续机器学习模型的训练数据分布平衡,从而实现所有病理类别的一致和无偏诊断性能。具体的增加强度如下表7和表8所示。
- LA视图:3_前突类别的样本从312张增加到1000张,4_后突类别的样本从139张增加到1000张。
- AP视图:1_左侧滑脱类别的样本从42张增加到500张,2_右侧滑脱类别的样本从43张增加到500张。

表7. 增强过程中添加的每种病理类别的图像数量。(图例:NA-不适用)
空单元:
- 正常:1465
- 左侧滑脱:2800
- 右侧滑脱:831
- 前突:458
- 后突:688
- 总计:4800

表8. 增强后的基于病理的图像分布。(图例:NA-不适用)
空单元:
- 正常:3800
- 左侧滑脱:2800
- 右侧滑脱:831
- 前突:458
- 后突:688
- 总计:4800

正常类别增强:将“正常”类别的样本数量增加到4800张,以确保训练集的标准化分布。更多详细信息请参阅表7和表8。
- LA视图:正常类别的样本数量增加到2800张。
- AP视图:正常类别的样本数量增加到3800张。

最终训练集分布:这种策略导致每个视图有4800张标准化的图像,总计9600张X光片,如表8所示。这种分布旨在在两个层面上提高性能:增加的数据量提高了深度学习模型对解剖边界的泛化能力,以便精确识别标志点,而“疾病配额”确保了类别分布的平衡。这种平衡对于后续机器学习模型实现高诊断准确性且无偏见至关重要,提供了比传统重采样方法更可靠的临床数据集。

增强技术和临床限制:为了保持X光图像的解剖完整性,应用了以下图像转换技术:
- 几何调整:包括控制的旋转和移动,以模拟X光检查过程中患者位置的变化。
- 光度调整:包括亮度和对比度的变化,以考虑X光硬件校准和曝光水平的差异。
- 临床排除:关键的是,没有对图像进行翻转(水平或垂直镜像)。这是一个重要的临床限制,因为翻转图像会导致左侧的病理情况与右侧的病理情况混淆,从而导致医学上不准确的训练数据。

5. 数据处理流程 第一阶段:标志点检测
为了识别检测BUU-LSpine数据集中腰椎角点的最佳模型,我们实现了并评估了八个深度学习模型的性能:YOLOv5s、YOLOv8s、YOLOv12s、Faster R-CNN、RetinaNet、CenterNet、Cascade R-CNN和U-Net。本节简要描述了每个模型的架构以及从评估中观察到的指标。为了确保公平的性能比较,本研究中的所有深度学习模型都使用了一致的配置进行训练。选择了每个模型的“小(s)”变体,并训练了200个周期;图像被调整到640 × 640像素的分辨率。这种统一的设置作为评估不同架构和视图模态的模型性能的基准。表9总结了模型训练所需的关键参数。

表9. 用于标志点分割任务的所有深度学习模型的训练配置
模型 | 值
|----|------|
| YOLOv5s | 4800 | 周期:200 | 图像大小:640 |
| Mask | 来自coco.json格式的边界框关键点,如图3和图4所示 | 下载:下载高分辨率图像(390KB) |
| 下载:下载全尺寸图像 |
图3. AP图像中的标志点检测掩码 |
| 下载:下载高分辨率图像(355KB) |
| 下载:下载全尺寸图像 |
图4. LA图像中的标志点检测掩码 |

5.1. YOLOv5s(2020)
YOLOv5[42]是一个轻量级的对象检测模型,以其在CPU和GPU上的低延迟而闻名,特别适合实时医学图像分析,尤其是在硬件资源有限的情况下。它使用CSPDarknet53作为主干网络。对于我们的数据集,该模型在侧位(LA)视图中的平均精度(mAP)为0.973,在前后(AP)视图中的平均精度(mAP)为0.967,如表10和表11所示。

表10. LA视图数据集上的模型评估结果
模型 | 年份 | mAP 50-95 | mAP 50 | 精确度 | 召回率 |
|----|------|--------|--------|---------|
| 1YOLOv5s | 2020 | 0.63 | 10.97 | 3 | 0.949 |
| 2YOLOv8s | 2023 | 0.60 | 5 | 0.972 | 0.952 |
| 3YOLOv12s | 2024 | 0.62 | 10.96 | 4 | 0.943 |
| Faster R-CNN | 2018 | 0.52 | 3 | 0.920 | –0.628 |
| RetinaNet | 2017 | 0.51 | 9 | 0.929 | –0.632 |
| CenterNet | 2019 | 0.58 | 8 | 0.951 | –0.687 |
| Cascade R-CNN | 2019 | 0.56 | 3 | 0.941 | –0.606 |

5.2. YOLOv8s(2023)
YOLOv8[43]是一个重要的架构升级版本,它集成了一个新的C2f模块和SimOTA标签分配,使得LA视图的平均精度(mAP)达到0.972,AP视图的平均精度(mAP)达到0.967,与前一版本相比延迟仅有轻微增加。其准确性和高效性的平衡使其成为实时放射学解释的强大候选者。

5.3. YOLOv12s(2024)
YOLOv12[44]采用了基于Transformer的主干网络来提高上下文理解能力,在比较的模型中实现了最高的准确率,LA视图的平均精度(mAP)为0.964,AP视图的平均精度(mAP)为0.951。尽管其GPU推理速度略低于其他YOLO版本,但其先进的性能非常适合需要高精度的专业应用,如检测细微的椎体错位。

5.4. Faster R-CNN(2018)
Faster R-CNN[45]是一个两阶段对象检测架构,在定位精度方面表现出色,但速度较慢。该模型在LA视图中的平均性能(mAP)为0.920,在AP视图中的平均性能(mAP)为0.900。其推理时间明显高于单阶段模型,因此不太适合实时应用。它在离线分析中具有价值,因为检测精度优于延迟要求。

5.5. RetinaNet(2017)
从我们的评估来看,RetinaNet[46]的性能非常依赖于视图,在LA视图中的表现较为适中,mAP为0.929,但在更复杂的AP视图中的性能显著降低,mAP降至0.909。

5.6. CenterNet(2019)
CenterNet[47]模型在LA和AP视图中都展示了 robust 和高精度的检测能力,优于之前提到的一些架构。它在LA视图中的mAP为0.951,在AP视图中的mAP为0.938,是一个非常有前途的实时腰椎放射学分析架构。

5.7. Cascade R-CNN(2019)
Cascade R-CNN[48]在LA视图中的检测能力出色,平均精度(mAP)为0.941,但在AP视图中的性能较低,mAP为0.925。该模型在速度和精度之间提供了有吸引力的平衡,特别是在LA视图中的评估中。

5.8. U-Net(2015)
U-Net[49]是一个专为图像分割设计的卷积神经网络架构,特别是在医学成像任务中。其名称来源于其U形结构,由一个收缩路径(编码器)和一个扩展路径(解码器)组成。U-Net通过五个主要步骤处理输入图像以实现像素级分割。
- 输入图像预处理:模型的初始输入是一个640 × 640像素的灰度图像。在处理之前,该图像会经过标准化步骤,将其像素值缩放到0到1的标准范围内。
- 收缩路径(编码器):在U-Net架构中,收缩路径或编码器旨在捕获输入图像的上下文信息。这是通过一系列操作实现的,首先进行3×3卷积以提取局部特征,然后应用ReLU激活函数引入非线性。每个序列以2×2的最大池化操作结束,有效地将特征图的空间维度减半,同时将特征通道的数量翻倍。此路径的最终输出是对图像的越来越抽象的表示,捕获高级特征。
- 瓶颈:瓶颈是U-Net架构中最深的部分,位于“U”结构的底部。它通过捕获输入图像中最抽象、最高级的特征和全局上下文发挥着关键作用,因为它在网络中具有最宽的接受域。功能上,它作为连接收缩路径(编码器)和扩展路径(解码器)的关键桥梁,传递学习到的上下文信息以实现精确的定位。
- 扩展路径(解码器):扩展路径(解码器)使用转置卷积逐步上采样特征图。然后通过跳跃连接将这些特征与编码器的相应特征连接起来,并通过两次3×3卷积细化合并的特征,生成最终输出。
- 最终输出层:最终输出层使用1×1卷积将特征映射到输出类别的数量,接着是一个Sigmoid或softmax激活函数。这个过程生成最终的分割图,其分辨率与原始输入图像完全匹配。

5.8.1. U-Net:性能分析
当在足够的数据上训练时,尤其是对于像X光的LA视图这样视觉上清晰的图像,U-Net架构表现出良好的泛化能力。图5展示了使用U-Net分割的AP视图和LA视图的四个示例X光图像。
U-Net在分割任务中的性能指标分别在表12和表13中提供。
表12. AP视图图像的U-Net图像分割性能
| 骨椎 | IOU | 精确度 | 召回率 |
|----|------|---------|--------|
| L1 | 0.85 | 3 | 0.857 |
| L2 | 0.84 | 9 | 0.852 |
| L3 | 0.87 | 2 | 0.994 |
| L4 | 0.86 | 3 | 0.985 |
| L5 | 0.81 | 6 | 0.821 |
| S1 | – | – | – |
| 总计 | 0.85 | 6 | 0.991 |

表13. LA视图图像的U-Net图像分割性能
| 骨椎 | IOU | 精确度 | 召回率 |
|----|------|---------|--------|
| L1 | 0.90 | 8 | 0.915 |
| L2 | 0.91 | 7 | 0.923 |
| L3 | 0.92 | 2 | 0.990 |
| L4 | 0.92 | 0 | 0.925 |
| L5 | 0.92 | 8 | 0.939 |
| S1 | 0.84 | 0 | 0.851 |
| 总计 | 0.90 | 6 | 0.913 |

真实图像是BUU-LSpine数据集生成过程中专家标记的X光图像中椎体角点的注释图像。预测图像是U-Net模型生成的带注释图像。图6展示了四个样本X射线图像,这些图像以AP视图展示,并标有真实标注(Ground Truth annotations)以及U-Net模型识别的结果。图7则展示了LA视图下图像的类似信息。此外,在使用U-Net进行评估过程中还收集了一些性能指标。表14和表15分别提供了AP视图和LA视图下这些指标的概览。

下载:下载高分辨率图像(234KB)
下载:下载全尺寸图像

图6. AP视图下X射线图像的真实标注与U-Net预测的椎骨角点的对比。
下载:下载高分辨率图像(183KB)
下载:下载全尺寸图像
图7. LA视图下X射线图像的真实标注与U-Net预测的椎骨角点的对比。

表14. 使用AP视图图像的U-Net在椎骨角点检测方面的性能指标
坐标指标
MAE:12.496像素(2.187毫米)
MSE:2059.704像素
2RMSE:45.384像素(7.942毫米)
R2:0.9799
欧几里得距离指标
平均距离:20.245像素(3.543毫米)
中位数距离:10.792像素(1.889毫米)
标准距离:60.906像素(10.659毫米)

表15. 使用LA视图图像的U-Net在椎骨角点检测方面的性能指标
坐标指标
MAE:8.942像素(1.565毫米)
MSE:540.788像素
2RMSE:23.255像素(4.070毫米)
R2:0.9957
欧几里得距离指标
平均距离:13.857像素(2.425毫米)
中位数距离:7.731像素(1.353毫米)
标准距离:29.825像素

5.8. U-Net:掩码预测正确性分析
我们对U-Net的输出进行了后处理,以评估腰椎的边界框和角点是否被正确且完全地识别出来,或者这些部分是否被错误地识别为重叠的部分,或者被标记了重复的标签等等。下面描述了一种基于检测完整性和正确性对模型输出进行分类的方法,并将每个图像归类为三种类型之一:完整(Complete)、重复(Duplicate)或不完整(Incomplete)。图8.1展示了一些属于这三类的AP视图和LA视图下的X射线图像示例。

重复检测
• 碎片检查:系统检查每个椎骨,以确定它是否显示为多个分离的部分而不是一个单一的固体解剖结构。
• 大小比率评估:如果一个椎骨被分割成多个大小相似度超过80%的组件,则该图像被归类为重复(Duplicate)。这一标准用于识别模型对单个解剖结构生成多个大型预测的情况,从而确保提取的地标坐标的可靠性。
• 结果:被归类为重复的图像会被分离到标记为“Duplicate”的文件夹中,并不会被纳入下一阶段的进一步处理。

完整性验证
• 解剖计数:系统将检测到的椎骨数量与每个脊柱视图预期的解剖标准进行比较:
- AP视图:需要恰好五个椎骨(L1-L5)。
- LA视图:需要恰好六个椎骨(L1-S1)。
- 最终验证:如果检测到的椎骨数量与预期数量相符,并且没有发现与碎片相关的重复错误,则该图像被归类为完整图像。

不完整检测
• 缺失数据:任何未能满足所需椎骨数量的图像(例如,一个或多个椎骨缺失或未被检测到)且没有重复错误的图像被归类为不完整图像。
• 结果:被归类为不完整图像的图像会被分离到标记为“Incomplete”的文件夹中,并不会被纳入下一阶段的进一步处理。

下载:下载高分辨率图像(141KB)
下载:下载全尺寸图像

图8. AP视图和LA视图下完整、重复和不完整X射线图像的预测总结

正如表16所总结的,对AP视图图像的U-Net输出进行后处理分析显示,大多数预测被归类为完整(Complete),其中691张图像中有545张(78.9%)满足五个腰椎椎骨且没有重复的要求。剩余的146张图像(21.1%)由于椎骨预测的碎片化或重叠而被归类为重复(Duplicate),没有AP视图图像被归类为不完整(Incomplete)。类似地,LA视图图像的相应分析结果显示在表17中。在处理的691张LA视图图像中,538张(77.9%)被归类为完整,152张(22.0%)被识别为重复,只有1张(0.1%)被归类为不完整。这些观察结果表明,所提出的后处理程序成功保留了大部分临床可用的椎骨分割结果,同时在后续的特征工程阶段排除了不可靠的地标预测。

表16. AP视图图像的U-Net掩码预测正确性分析结果
总处理图像数:691张
完整预测:545张(78.9%)
不完整预测:0张(0.0%)
重复预测:146张(21.1%)

表17. LA视图图像的U-Net掩码预测正确性分析结果
总处理图像数:691张
完整预测:538张(77.9%)
不完整预测:1张(0.1%)
重复预测:152张(22.0%)

6. 数据处理流程第二阶段:特征工程
第一阶段处理得到的中间结果是L1-L5五个椎骨的每个椎骨的四个角点以及S1椎骨的两个顶部角点。例如,图10展示了LA视图X射线图像的22个不同解剖地标的表示。这些数据项被用作输入,并在第二阶段进一步处理以计算额外的特征,本节将详细介绍这些处理过程。虽然在第一阶段评估了多种对象检测架构,但最终选择了U-Net作为诊断流程的主要地标检测引擎。与标准对象检测模型可能偶尔无法定位特定角点不同,U-Net的逐像素分割确保了LA视图和AP视图中的所有22个和20个解剖地标都能在每张图像中得到表示。这种完整性对于第二阶段的特征工程至关重要,因为该阶段依赖于精确且不缺失的坐标对来计算每个椎骨水平的距离、角度和滑移百分比。

下载:下载高分辨率图像(308KB)
下载:下载全尺寸图像

图10. LA视图下腰椎椎骨的22个不同解剖地标

在第一阶段完成地标识别后,第二阶段从椎骨坐标计算了关键的生物力学特征。虽然开发了一个从YOLO系列模型生成的预标准化文本文件中提取特征的流程,但最终的诊断数据集是使用U-Net分割模型提供的更完整的坐标数据构建的。为此,一个专用脚本处理了coco.json文件,其中包含来自U-Net标注的绝对像素坐标。这一特征提取过程产生了最终的数据集,每个患者的一行包含720个特征的完整向量。每个患者的完整特征集是通过对AP视图和LA视图中的每个角点计算17个生物力学特征来构建的。此外,还从AP视图和LA视图图像文件名中提取了三个人口统计特征:“Age”(年龄)、“Gender_F”(性别_男性)和“Gender_M”(性别_女性)。因此,对于每个患者,总共有42个角点——AP视图20个,LA视图22个,总共42 * 17 = 714个特征。加上上述提到的6个人口统计特征,每个患者的AP视图和LA视图X射线图像总共生成了720个特征。每一行将来自LA视图和AP视图的特征合并成一个包含720个数据点的向量。

这些特征基于LA视图和AP视图下的22个不同腰椎解剖地标计算得出,如图11所示。

下载:下载高分辨率图像(102KB)
下载:下载全尺寸图像

图11. 基于LA视图X射线图像的22个腰椎解剖地标的特征提取

6.1. 特征1:ClassID
每个图像中的角点都被分配了一个唯一的标识符。例如,在图11中,角点使用数字0-21进行唯一标识。除了这个数值之外,classID还包含了额外的信息,以确定该角点是从AP视图还是LA视图图像中提取的,例如19-LA表示从LA视图X射线图像中提取的角点19。

6.2. 特征2-5:X_Center、Y_Center、Height、Width
这些值对应于我们正在讨论的解剖地标(椎骨角点)的X和Y坐标。特征Height和Width的计算方式如图11所示。

6.3. 特征6-7:Distance、Angle
这些特征是从同一椎骨段上的地标对计算得出的(例如,L1_a和L1_b之间的距离,其中下标a,b,c,d用于表示椎骨L1的四个角点)。Distance:如图11所示计算的欧几里得距离。Angle:由两个点的向量与水平轴形成的角度,反映了每个椎骨的方向。

6.4. 特征8:Body Height
椎骨段上下点之间的距离(例如,L1的下点与L1的上点之间的距离),用于测量椎体的高度,如图11所示的垂直体高度。

6.5. 特征9:Horizontal Length
同一椎骨段前后点之间的距离(例如,图11中L5椎骨上的角点15和16之间的距离),用于计算椎体的宽度,如图11所示的水平距离。

6.6. 特征10-11:Slip-left和Slip-right
分类特征,表示椎骨位移的方向(左或右),如图11中的滑移距离所示。

6.7. 特征12:Slip Percentage
滑移距离是计算较低椎骨的上点与较高椎骨的下点之间的X坐标差值(例如,xL2_top和xL1_bottom)。然后通过将其除以较低椎骨的水平长度并乘以100来标准化这个值,这个值被称为滑移百分比。它表示椎骨滑移相对于下方基础椎骨长度的比例。公式如下:
其中,
- Slip的距离:是指上方椎骨的后缘相对于下方椎骨的前移距离。
- 下方椎体的长度:是指下方椎体的总长度(水平测量)。

6.8. 特征13-17:Meyerding分类
表19提供了基于椎骨滑移百分比的标准化Meyerding分类方法,用于将椎骨异常分级为Meyerding I级/I级/II级/III级/IV级/V级。我们将这些信息编码为二进制特征,分别为Grade-I、Grade-II、Grade-III、Grade-IV和Grade-V。例如,如果观察到椎骨L2的滑移百分比为60%(如前文所述),则将L2归类为Meyerding分类III级,并为这五个相应的分类特征分别赋值0,0,1,0,0。

表19. Meyerding分类
滑移百分比
Grade I:0-25%
Grade II:26-50%
Grade III:51-75%
Grade IV:76-100%
Grade V:>100%(脊椎滑脱)

6.9. 人口统计特征:Age、Gender-Male、Gender-Female
在移除所有其他可识别信息以保护患者数据隐私和一致性后,数据集中仅保留了年龄和性别这两个患者特定属性。源数据集中的患者年龄范围从6岁到97岁。这些信息编码在FileName或File_ID中,例如ID ‘0011-F-063Y’ 包含了性别(‘F’)和年龄(‘063Y’)的标记。每个AP/LA视图图像提取的三个人口统计特征如下:
- Age:数值范围从6岁到97岁。
- Gender_M:如果患者是男性则设置为1,否则设置为0。
- Gender_F:如果患者是女性则设置为1,否则设置为0。

7. 数据处理流程第三阶段:疾病诊断
7.1. 诊断数据集创建
在提取生物力学坐标和特征之后,开发了一个结构化的诊断数据集,以弥合深度学习输出和机器学习分类之间的差距。这一阶段的重点是将来自主要研究患者及其增强对应数据的所有初始数据整合到一个统一的档案中,确保为后续的详细病理分析准备了一个充足的样本量。

7.1.1. 特征整合和视图合并
这一阶段的主要目标是将AP视图和LA视图中的生物力学信息整合到一个统一的档案中。该过程首先从重新结构化的数据集中开始,该数据集共有8181个个体,是从最初的8216个案例中筛选出来的,排除了35个不一致的U-Net预测结果,以确保数据的最大准确性和完整性。•坐标提取:从U-Net分割模型生成的coco.json文件中提取了绝对像素坐标。•向量构建:对于每个患者,沿着LA视图中的22个类别和AP视图中的20个类别,计算了每个椎骨角点的17个生物力学特征。此外,还为每个患者的AP和LA视图添加了3个人口统计特征:“Age”(年龄)、“Gender_F”(女性)和“Gender_M”(男性),从而形成了每个个体共计720个数据点的完整特征向量。•视图映射:系统使用Patient_ID作为主键来匹配相应的LA和AP视图,确保初始数据集中的每一行都代表单个患者的完整脊柱几何结构(矢状面和冠状面)。7.1.2. 从真实数据中提取和合并疾病数据诊断提取过程系统地处理原始CSV文件,通过以下流程建立椎骨级别的基线。•系统化视图处理:系统处理存储在单独的LA和AP视图库中的所有临床记录。•椎骨级别提取:对于每条记录,系统提取分配给每个椎骨级别的特定疾病代码,从L1到S1。•统一患者合并:使用Patient_ID作为主要链接键,整合来自两个成像平面的记录,以确保完整的解剖表示。•增强数据映射策略:对于不匹配的视图或增强样本,系统通过将增强图像与同一患者的另一个视图的原始图像配对来生成新的数据行(例如,原始LA视图与增强AP视图配对),从而显著提高了数据集的多样性。•一致诊断逻辑:如果任一视图被标记为无症状(代码0),或者两个视图得出相同的诊断结果,则使用该具体代码作为该椎骨级别的最终值。•处理重叠病理:在多个视图中发现不同病理情况时,系统会记录一个连接的字符串(例如“3,2”),并在“Duplicate_Disease”列中标记条目,以便在最终数据集构建中进行后续处理。7.1.3. 数据重构和每个椎骨的转换为了便于进行详细的诊断分析,数据集从患者级别结构转换为每个椎骨级别结构。•扩展:最初的8181个个体数据集(每个患者1行)被重构为“每个患者6行”,代表从L1到S1的每个椎骨级别。这一扩展使数据实例总数增加到49086行,成为用于模型训练的广泛原始数据池。随后将对其进行降采样,以实现平衡的数据集。•维度调整:除了增加实例数量外,特征数量也被减少到每行132个特征。这种调整使模型能够专注于每个椎骨的局部生物力学特征。7.1.4. 处理矛盾和重叠的病理在临床实践中,单个椎骨级别可能表现出多种共存的异常情况,如同时存在前滑脱和后滑脱。•重复方法:在视图合并过程中发现重复的疾病代码时,系统采用了“重复”策略来隔离每种情况。共识别出314个重复实例,使数据集大小从49086行增加到49400行。•逻辑:对于与多个诊断相关的单个椎骨,流程为每种情况生成不同的数据行。虽然每行都保留相同的132个特征生物力学向量,但会为其分配一个独特的Target Disease_Code。这使模型能够有效学习每种存在的病理特征,而不会损失数据丰富性。7.1.5. 最终数据集大小和统计从预处理的49400个实例中,通过降采样程序构建了最终平衡的6000行的诊断数据集:•原始数据优先策略:为了确保最大的临床有效性,系统优先使用来自原始放射数据的患者行;只有在原始案例不足以满足类别配额时才引入增强样本。•正常类别:包括完全来自原始放射数据的3000个椎骨样本,以提供高保真的基线。•侧视图(LA):该组包括前滑脱(441个原始样本,559个增强样本;总计1000个)和后滑脱(190个原始样本,810个增强样本;总计1000个)。•前后视图(AP):该组包括左侧后滑脱(59个原始样本,441个增强样本;总计500个)和右侧后滑脱(68个原始样本,432个增强样本;总计500个)。7.2. 疾病诊断模型构建7.2.1. 数据划分在任何数据重构或增强之前,数据划分是在单个患者级别进行的。通过将特定患者的所有椎骨级别(L1–S1)和两种成像视图保持在同一折叠中,我们消除了模型“记住”患者特定生物力学特征的风险。这种80/20的分割在整个5折交叉验证过程中保持不变,以确保性能指标的有效性。7.3. 数据划分在建立平衡的6000个样本池后,数据集使用基于Patient_ID的分层K-Fold方法进行划分。这种方法为模型训练和评估建立了严格的框架:•训练-测试比例:在整个5折交叉验证过程中保持80/20的比例,以确保性能指标的统计可靠性和有效性。•数据泄露预防:通过使用Patient_ID作为分组键,系统确保同一患者的所有六个椎骨级别(L1–S1)和任何增强行严格包含在同一折叠中,防止乐观偏差。•临床一致性:这种分组策略防止模型“记住”患者特定的解剖特征。相反,它鼓励学习可泛化的病理特征,同时在所有折叠中保持疾病类别的分层分布。7.3.1. 使用机器学习模型进行疾病分类和评估在分类任务中,训练和评估了机器学习模型,以识别给定个体的正常或特定异常类别及其等级,基于其特征向量。训练和比较了九种机器学习模型:逻辑回归[50]、K-最近邻(KNN)[51]、支持向量机(SVM)[52]、朴素贝叶斯[53]、决策树[54]、随机森林[55]、梯度提升[56]、XGBoost[57]和CatBoost[58]。图12展示了各种ML模型的性能指标概览。下载:下载高分辨率图像(109KB)下载:下载全尺寸图像图12. 模型测试准确性比较8. 结果8.1. U-Net在标志点检测中的优越性如表10和表11所示,某些YOLO变体(如YOLOv5s和YOLOv12s)在侧视图和前后视图中分别展示了具有竞争力的或略高的mAP50?95分数。然而,在表18中,U-Net在IOU均值、精确度和召回率方面取得了最平衡的整体表现。更重要的是,选择使用U-Net的原因是其对漏检的鲁棒性。对于涉及720个工程特征的详细生物力学分析,U-Net提供的高保真分割掩膜确保了整个患者群体的绝对坐标数据的完整性,这一要求超过了YOLO系列的边际速度或边界框精度优势。使用U-Net的决定是基于其防止漏检标志点的能力,从而确保特征工程的数据完整性。表18. U-Net模型的LA和AP视图评估yearMean IOUPrecisionRecallU-NETLA20150.9060.9130.989U-NETAP20150.8510.8560.9918.2. XGBoost在疾病诊断中的高准确性和稳定性在训练所有九种模型后,基于集成方法的方法表现出优于传统机器学习模型的性能。按平均交叉验证(CV)准确性排名时,XGBoost、CatBoost和梯度提升获得了最高的性能,表明了强大的泛化能力。•在数据增强平衡后,XGBoost获得了最高和最平衡的性能,测试准确率为86.7%,交叉验证准确率为86.3%,CV准确率标准差为0.006,如图20所示,反映了验证折叠中的高稳定性。CatBoost和梯度提升表现相当,而传统模型如KNN和朴素贝叶斯则表现出较低的准确性。这些结果证实,在当前实验设置下,集成学习方法是最有效的疾病诊断方法。表20. 疾病诊断模型性能结果排名ModelTest AccuracyCV Accuracy MeanCV Accuracy Std1XGBoost0.8670.8630.0062CatBoost0.8510.8570.0043Gradient Boosting0.8470.8450.0044Random Forest0.8200.8440.0105SVM0.8110.8150.0116Logistic Regression0.7810.7870.0227Decision Tree0.7720.7780.0128KNN0.7600.7700.0119Naive Bayes0.4800.4760.013•模型表现出高特异性,如图13中的混淆矩阵所示,其中600个正常案例中有565个被正确识别。下载:下载高分辨率图像(134KB)下载:下载全尺寸图像图13. XGBoost混淆矩阵•迭代特征选择确认了当使用基于互信息(MI)得分的前85个特征时,模型性能达到峰值。8.2.1. 特征选择结果-维度、复杂性和模型鲁棒性在特征工程的初始阶段,最初的132个特征集经过冗余过滤,去除了高度相关的变量,将数据集简化为112个特征。这一步确保了数据质量并减少了模型噪声,然后应用统计选择方法。随后,基于互信息(MI)得分的XGBoost模型的迭代特征选择表明,当使用大量特征时,模型性能达到峰值,而当特征数量低于85个时,性能开始下降,如表22所示。表22. 迭代特征选择结果显示使用基于MI得分排名前85个特征时,测试准确率为0.867。当使用85到112个特征之间时,模型性能相对稳定,如一致的交叉验证准确性(CV准确性≈0.860)所示。这表明112个提取的特征中有相当一部分有效贡献了模型的预测能力。然而,进一步减少特征数量会导致性能显著下降,表明过于积极的特征选择限制了模型捕捉关键区分信息的能力。8.2.2. 正常和4_后滑脱案例之间的视觉重叠从图13和表21中的XGBoost模型的混淆矩阵和分类报告可以看出,大多数误分类集中在正常和4_后滑脱类别之间。特别是,68个后滑脱案例被错误地预测为正常,这比任何其他类别对之间的混淆都要多。这个问题主要不是由XGBoost分类器本身的限制引起的,而是由于源数据在图像层面的固有限制。在许多轻微的后滑脱案例中,后椎骨的位移很小,导致X光图像中的脊柱解剖结构与正常案例非常相似。结合有限的图像质量和获取噪声,这会导致U-Net模型在分割不准确,特别是在识别椎骨边界和关键标志点时。表21. XGBoost模型的分类报告诊断名称PrecisionRecallF1-ScoreSupportNormal0.860.960.915911 Left_Laterolisthesis0.790.970.87862 Right_Laterolisthesis0.810.930.871023_Anterolisthesis0.920.820.872094_Retrolisthesis0.930.600.73211Accuracy––0.871199Macro Avg0.860.850.851199Weighted Avg0.880.870.861199这些分割错误传递到特征提取阶段,导致某些后滑脱案例的几何描述符与正常实例更加接近,而不是病理实例。因此,XGBoost分类器学习的决策边界在正常和后滑脱类别之间重叠,使得可靠的分离变得困难。这种行为反映在4_后滑脱类别的性能指标中,其精确度很高(0.93),但召回率较低(0.60),表明虽然预测的后滑脱案例通常是正确的,但有相当一部分真正的后滑脱案例被错误分类为正常。图14进一步说明了这种视觉模糊性,展示了正常案例和4_后滑脱案例的代表性X光图像,以及用于特征提取的L4-L5水平的椎骨标志点和几何参考线。下载:下载高分辨率图像(197KB)下载:下载全尺寸图像图14. (a) 正常情况 (b) 4_后滑脱情况在L4–L5水平上,带有地面真实标志点总体而言,后滑脱类别的性能下降并不表示XGBoost分类器的缺陷。相反,它反映了正常和后滑脱在椎骨结构层面的固有视觉重叠,并且这种重叠由分割到特征工程的错误传播加剧。这是X光成像特性本身造成的基本限制,而不是分类方法本身的问题。9. 数据处理阶段4:通过SHAP和LIME实现临床可解释性使用SHAP(Shapley Additive Explanations)可以透明地深入解释XGBoost黑盒模型。SHAP不仅能够识别全局重要特征,还能让我们以有方向性的方式检查各个生物力学和解剖变量如何贡献于每个预测。在这项研究中,使用可解释人工智能(XAI)不仅是为了提高透明度,还为模型的推理提供解剖学和临床验证。通过分析不同放射视图(AP和LA)的特征如何贡献于特定疾病类型,我们可以评估模型的行为是否与已建立的脊柱生物力学和放射学原理一致。•方向性逻辑:SHAP显示,模型系统地强调AP视图特征用于侧向位移(后滑脱),以及LA视图特征用于矢状面异常(前滑脱和后滑脱),反映了具有临床意义的解剖平面。•人口统计因素:患者年龄和性别对模型的决策有显著影响。例如,较年轻的年龄始终将预测结果偏向“正常”类别,这与年轻患者中退行性不稳定性较低的普遍情况一致。• 个案透明度:瀑布图和力图提供了局部可解释性,使得可以追踪特定生物力学值如何推动预测结果趋向或偏离某个诊断。这些全局和局部的解释为评估模型是否依赖于具有生物力学意义的特征而不是虚假相关性奠定了框架,这将在后续的类别分析中进一步探讨。9.1. 类别特征重要性分析分析每种疾病类别的SHAP摘要图揭示了不同特征如何影响每种疾病的预测:• 正常:- 正常病例的预测主要受表明无病理位移的特征的影响。AP和LA视图中的低滑动百分比,特别是slip_percentage-3_AP和slip_percentage-3_LA,对正常分类有很强的贡献。年龄也起到了显著作用,年轻患者被分类为正常的可能性更高。其他稳定指标包括一致的椎体水平尺寸(horizontal_length-0_AP)、保持的椎间距离(distance-2_LA)以及LA视图中的相对较小的角度偏差(例如angle-2_LA和angle-3_LA),这些共同反映了结构对齐和生物力学稳定性,如图15所示。•1左侧滑脱(椎体向左移动):- 左侧滑脱的预测主要由AP视图的特征驱动。其中,slip_percentage-2_AP是最具影响力的区分因素,其次是明显的角度偏差,如angle-3_AP和angle-2_AP。来自椎间距离测量的额外贡献(distance-1_AP和distance-2_AP)进一步突出了冠状平面中的侧向位移模式。LA视图中的支持特征,包括distance-2_LA和重心偏移(y_center-2_LA),起到了次要作用,加强了基于AP的特征在识别椎体向左移动中的主导作用,如图16所示。•2右侧滑脱(椎体向右移动):- 右侧滑脱的分类同样依赖于AP平面的特征,角度异常是最强的指标。特别是angle-2_AP和angle-3_AP显示出最高的贡献,强调了它们对椎体向右移动的敏感性。与滑动相关的升高特征(slip_percentage-3_AP和slip-right-2_AP)和基于距离的指标(distance-3_AP和distance-0_AP)进一步塑造了模型预测。尽管LA视图的特征如distance-2_LA对决策过程有所贡献,但整体模式证实,通过AP视图测量最有效地捕捉到了右侧的位移,如图17所示。•3前滑脱(椎体向前移动):- 前滑脱的预测主要由LA视图的角度参数主导,反映了矢状面的不稳定性。angle-2_LA和angle-3_LA的降低值是最决定性的特征,共同解释了模型的大部分解释能力。前向滑动的测量值,特别是slip_percentage-3_LA,以及增加的椎间距离(distance-3_LA)进一步强化了前向位移模式。AP视图中的滑动百分比和患者年龄的次要贡献表明,矢状对齐和人口统计因素影响了椎体前向滑动的可能性,如图18所示。•4后滑脱(椎体向后移动):- 后滑脱的预测主要与LA视图中的角度变化相关,angle-3.LA和angle-2_LA显示出最强的影响。后方的较低滑动百分比(slip_percentage-3_LA)和減小的椎间距离(distance-2_LA)进一步有助于分类。额外的AP视图距离指标(distance-1_AP和distance-3_AP)和水平椎体尺寸(horizontal_length-0_AP)提供了后移的支持证据。年龄也显示出适度的贡献,表明后滑脱相关结构模式可能存在人口统计差异,如图19所示。9.2. 局部解释(个案预测)使用SHAP瀑布图和LIME解释图来检查个别解剖和生物力学特征如何贡献于每个患者的预测。通过分析具有代表性和临床挑战性的案例,这些图揭示了年龄、角度测量和椎体位移等特定变量是如何支持或反对某一诊断的。这种个案级别的可视化使得可以追踪模型的内部推理,并验证每个预测是否由具有临床意义的生物力学模式驱动,这对于建立医疗专业人员之间的信任至关重要。下载:下载高分辨率图像(282KB)下载:下载全尺寸图像图15. “正常”类别的SHAP摘要图下载:下载高分辨率图像(287KB)下载:下载全尺寸图像图16. “1左侧滑脱”类别的SHAP摘要图下载:下载高分辨率图像(307KB)下载:下载全尺寸图像图17. “2右侧滑脱”类别的SHAP摘要图下载:下载高分辨率图像(296KB)下载:下载全尺寸图像图18. “3前滑脱”类别的SHAP摘要图下载:下载高分辨率图像(290KB)下载:下载全尺寸图像图19. “4后滑脱”类别的SHAP摘要图9.3. 临床意义• 模型验证:SHAP赋予AP视图特征对后滑脱的最高重要性,以及LA视图的角度和滑动特征对前滑脱和后滑脱的重要性,这证实了模型正在学习解剖学和生物力学上有意义的模式,而不是虚假相关性。• 错误分析:当出现不正确或模糊的预测时,SHAP和LIME使我们能够识别错误是由于AP-LA证据冲突、异常的生物力学值还是人口统计效应引起的,为模型改进提供了可操作的见解。• 建立临床信任:通过明确显示X光测量值(如滑动百分比、角度和椎间距离)如何驱动每个诊断,模型的预测可以用熟悉的临床术语来解释,支持其在实际放射学实践中的采用。9.4. 案例研究演示:使用SHAP和LIME进行个案预测分析为了展示模型的深度分析能力和透明度,我们对代表每个诊断类别的样本患者进行了局部解释分析,利用SHAP瀑布图来检查实际特征值并通过SHAP值量化它们的影响,同时利用LIME解释提供每个案例的具体规则条件和方向权重,进一步使用SHAP力图来可视化驱动因素和反对因素的相互作用,以评估模型推理中是否存在任何内部混淆——这是一种对建立临床信心和验证与医学原则一致性的关键方法。为了解决黑盒模型的可解释性限制并提高临床信任度,本节展示了五个代表性的案例研究,涵盖正常和病理脊柱状况,包括正常、左侧滑脱、右侧滑脱、前滑脱和后滑脱。选择这些案例是为了证明所提出的模型不依赖于单一主导特征,而是以互补的方式整合了来自AP和LA投影的多视图信息和多个解剖特征。模型解释是使用SHAP和LIME生成的,其中SHAP用于揭示特征贡献的总体结构和驱动因素与反对因素之间的平衡,而LIME用于验证个别案例层面的决策行为。通过在这个框架内展示案例研究,我们旨在弥合模型预测与临床可解释推理之间的差距,证明尽管模型具有内在复杂性,但其决策仍然符合解剖学上的合理性并且临床上是合理的。10. XAI驱动案例研究的叙述分析I. 验证主要分类中的临床推理(案例1、2和4)10.1. SHAP和LIME – 案例1:正常(L3)在这个案例中,图20中的年轻患者年龄(22岁),模型以非常高的信心(confidence = 0.99)将样本分类为正常。预测不是由单一主导特征驱动的,而是由反映脊柱结构稳定性的多个指标的综合效果造成的。根据SHAP分析,AP和LA视图中的滑动百分比都很低(例如,slip_percentage-3_LA = 2.55%和slip_percentage-3_AP = 1.67%),同时椎体角度保持在正常范围内(angle-3_LA = 104.51°和angle-3_AP = 84.52°),如图21所示。椎间距离没有显示出异常膨胀或压缩,年轻患者的年龄(22岁)进一步支持了正常分类。下载:下载高分辨率图像(173KB)下载:下载全尺寸图像图20. 正常案例样本1181的AP和LA视图下载:下载高分辨率图像(284KB)下载:下载全尺寸图像图21. 正常案例样本1181的SHAP瀑布图在LIME的个案特定解释层面,图22中显示的数字规则支持正常分类。AP视图中的椎间距离超过了最小阈值(distance_1_AP > 48.33),而LA视图的距离在参考区间内(47.53 < distance_2_LA ≤ 69.68和22.03 < distance_3_LA ≤ 38.32)。此外,AP视图中的椎体角度超过了参考临界值(angle_3_AP > 84.10),而AP视图中的滑动百分比保持在低范围内(0.18–3.11%和0.26–2.63%),再加上年龄小于52岁。这些条件都没有表明异常。下载:下载高分辨率图像(194KB)下载:下载全尺寸图像图22. 正常案例样本1181的LIME解释SHAP分析表明多个特征一致地朝同一方向贡献,没有任何一个特征施加了不成比例的影响,如图23所示,而LIME在局部层面确认没有任何特征具有足够的权重将预测推向异常类别。因此,这个案例说明模型通过多因素推理而不是基于阈值的决策规则来识别正常性,增强了其预测的可解释性和可靠性。下载:下载高分辨率图像(63KB)下载:下载全尺寸图像图23. 正常案例样本1181的SHAP力图10.2. SHAP和LIME – 案例2:左侧滑脱(L2)在这个案例中,模型以极高的信心(confidence = 1.00)将样本分类为左侧滑脱。预测是由多个特征的综合作用造成的,主要来自AP视图,这与临床定义的侧向位移一致,如图24所示。根据SHAP分析,观察到AP视图中的高滑动百分比(slip_percentage-2_AP = 12.39%和slip_percentage-3_AP = 15.29%),伴随着明显的角度偏差(angle-3_AP = 179.98°)和AP平面中增加的椎间距离(distance-2_AP > 48.70和distance-1_AP > 48.33),如图25所示。这些特征一致地支持将其分类为异常的侧向位移类别。下载:下载高分辨率图像(204KB)下载:下载全尺寸图像图24. 左侧滑脱案例样本1260的AP和LA视图下载:下载高分辨率图像(262KB)下载:下载全尺寸图像图25. 左侧滑脱案例样本1260的SHAP瀑布图在LIME的个案特定解释层面,图26中显示的数字规则直接支持左侧滑脱分类。AP视图中的滑动百分比超过了参考阈值(slip_percentage_2_AP > 7.47和slip_percentage_3_AP > 7.06),伴随着AP(angle_3_AP > 84.10和angle_1_AP > 87.78)和LA视图(angle_3_LA ≤ ?26.81)中的明显角度偏差。此外,AP视图中的椎间距离超过了最小临界值(distance_2_AP > 48.70和distance_1_AP > 48.33),加上左侧滑动和高度严重的情况(例如,slip_left_3_AP > 5.00和GradeIV_3_LA > 6.00),共同反映了明显的侧向位移模式。下载:下载高分辨率图像(175KB)下载:下载全尺寸图像图26. 左侧滑脱案例样本1260的LIME解释SHAP分析表明基于AP的特征是预测的主要驱动力,而LA衍生的特征,如angle-3_LA和bodyheight-1_LA,提供了反映次要对齐变化的补充信息,如图27所示,而LIME在局部层面确认这些基于AP的条件对左侧滑脱类别具有最强的影响。这个案例表明模型的决策与临床推理很好地对齐,通过系统地整合多视图特征。下载:下载高分辨率图像(66KB)下载:下载全尺寸图像图27. 左侧滑脱案例样本1260的SHAP力图10.3. SHAP和LIME – 案例4:前滑脱(L4)在这个案例中,图28中的样本案例被分类为前滑脱,置信度非常高(confidence = 0.9990)。这个预测不是由单一主导特征驱动的,而是由反映脊柱矢状面错位的多个指标的综合效果造成的。下载:下载高分辨率图像(190KB)下载:下载全尺寸图像图28. 前滑脱案例样本4313的AP和LA视图根据SHAP分析,观察到LA视图中的椎体角度有明显变化(angle-2_LA = 71.86°和angle-3_LA = 51.10°),以及相邻层面上的其他角度偏差(例如,angle-1_LA = 171.43°和angle-0_LA = 120.16°),表明矢状面向前位移。同时,多个层面上的滑动百分比保持在低到中等范围内(例如,slip_percentage-3_AP = 0.48%和slip_percentage-2_AP = 1.55%),伴随着AP和LA视图中的相应椎间距离变化(例如,distance-2_AP = 21.50和distance-2_LA = 63.28),如图29所示。这些特征共同支持了前向滑动的模式,而不是侧向位移。下载:下载高分辨率图像(279KB)下载:下载全尺寸图像图29. 前滑脱案例样本4313的SHAP瀑布图在LIME的个案特定解释层面,图30中显示的数字规则支持前滑脱分类。AP视图中的椎体角度超过了参考临界值(angle_3_AP > 84.10),而AP视图中的滑动百分比保持在低范围内(0.18 < slip_percentage_2_AP ≤ 3.11和0.26 < slip_percentage_3_AP ≤ 2.63)。此外,AP视角下的椎间距离落在较低到中等的范围内(13.64 < distance_1_AP ≤ 34.42 和 7.68 < distance_2_AP ≤ 33.29),同时LA视角下的角度和距离条件也支持这一结果(例如,94.68 < angle_0_LA ≤ 122.93 和 47.53 < distance_2_LA ≤ 69.68)。下载:下载高分辨率图片(221KB)下载:下载全尺寸图片

图30. 样本4313的LIME解释(前滑案例)
SHAP分析表明,多个LA和AP视角的特征以一致的方向做出了贡献,如图31所示,而LIME在局部层面上证实了这些数值条件共同支持了前滑类别的判断。因此,这个案例说明了该模型是通过多因素推理来解释椎体前移的,而不是依赖于单一指标。

下载:下载高分辨率图片(65KB)下载:下载全尺寸图片

图31. 样本4313的SHAP力量分析(前滑案例)

II. 解释主导病理指标(案例3)
10.4. SHAP和LIME – 案例研究3:右侧后滑
在这个案例中,模型将样本分类为右侧后滑,置信度很高(confidence = 0.9992)。这一预测不是由单一主导特征决定的,而是由多个反映脊柱侧向移位的指标共同作用的结果。

下载:下载高分辨率图片(214KB)下载:下载全尺寸图片

图32. 样本3612的AP和LA视角(右侧后滑案例)
根据SHAP分析,AP视角下的滑移百分比较高(slip_percentage-2_AP = 8.39%),同时AP和LA视角下的椎体质心位置都向右侧移动(例如,x_center-1_AP = 686.08 和 x_center-0_LA = 245.04),表明存在系统性的侧向位移。椎体角度特征显示出不对称对齐(angle-2_AP = 40.07 和 angle-1_LA = 48.65),而椎间距离保持在相对较高的范围内(例如,distance-2_AP = 43.73 和 distance-1_LA = 43.52),表明侧向位移但没有明显的椎间盘塌陷,如图33所示。

下载:下载高分辨率图片(260KB)下载:下载全尺寸图片

图33. 样本3612的SHAP瀑布图(右侧后滑案例)
在案例特定的解释层面上使用LIME时,图34中显示的数值规则支持右侧后滑的分类。AP视角下的滑移百分比超过了参考阈值(slip_percentage_2_AP > 7.47),而其他AP视角下的滑移值落在中等范围内(2.63 < slip_percentage_3_AP ≤ 7.06 和 2.46 < slip_percentage_1_AP ≤ 5.34)。此外,LA视角下的椎体质心位置条件仍在参考范围内(x_center_1_LA ≤ 796.74 和 761.72 < y_center_1_LA ≤ 996.25),年龄条件在52至63岁之间。

下载:下载高分辨率图片(181KB)下载:下载全尺寸图片

图34. 样本3612的LIME解释(右侧后滑案例)
SHAP分析表明,多个特征以一致的方向做出了贡献,而不是依赖于单一主导指标,如图35所示,而LIME在局部层面上证实了AP视角下的滑移相关条件对右侧后滑类别的影响最大。因此,这个案例说明了该模型是通过多因素推理来解释侧向异常的,而不是通过单一视角的启发式方法。

下载:下载高分辨率图片(62KB)下载:下载全尺寸图片

图35. 样本3612的SHAP力量分析(右侧后滑案例)

10.5. SHAP和LIME – 案例研究5:后滑(L3)

III. 解决复杂的/冲突的生物力学信号(案例5)
在这个案例中,模型将样本分类为后滑,置信度很高(confidence = 0.9978)。这一预测不是由单一主导特征决定的,而是由多个反映脊柱后移的指标共同作用的结果,其中包含部分冲突的解剖学信号。根据SHAP分析,几个LA视角的特征对后滑有很强的正面影响,尤其是显著的矢状角增加(angle_3_LA = 177.49°,SHAP = +2.43)和较高的LA视角滑移百分比(slip_percentage_3_LA = 32.99%,SHAP = +0.69),反映了脊柱的后移,如图37所示。

下载:下载高分辨率图片(209KB)下载:下载全尺寸图片

图36. 样本2361的AP和LA视角(后滑案例)

下载:下载高分辨率图片(296KB)下载:下载全尺寸图片

图37. 样本2361的SHAP瀑布图(后滑案例)
同时,多个AP视角的特征则表现出相反的方向,包括保持或增加的椎间距离(distance_3_AP = 73.31,SHAP = ?0.46;distance_2_AP = 44.71,SHAP = ?0.15)和非常低的AP视角滑移(slip_percentage_2_AP = 0.08,SHAP = +0.15),表明存在抵抗后移的模式。这些相反的SHAP贡献表明,预测结果源于冲突的解剖学信号,而不是连贯的位移特征,如图37和图38所示。

下载:下载高分辨率图片(58KB)下载:下载全尺寸图片

图38. 样本2361的SHAP力量分析(后滑案例)
在案例特定的层面上使用LIME时,这种不一致性变得更加明显。几个AP视角的规则对后滑类别有负面权重,包括极低的滑移(slip_percentage_2_AP ≤ 0.18)、最小的侧向滑移(slip_left_3_AP ≤ 1.00)和适中的AP视角距离(13.64 < distance_1_AP ≤ 34.42;33.29 < distance_2_AP ≤ 48.70)。相比之下,只有少数LA视角的条件支持后移,例如适中的到较高的LA视角滑移(7.09 < slip_percentage_1_LA ≤ 13.08)和较高的分级严重性(GradeII_1.LA > 7.00),如图39所示。

下载:下载高分辨率图片(218KB)下载:下载全尺寸图片

图39. 样本2361的LIME解释(后滑案例)
总体而言,这个案例展示了一个高置信度的预测结果,是由解剖学平面上相互冲突的SHAP和LIME证据驱动的,表明分类结果可能不稳定且不可靠。

11. 手工特征方法:理由和临床意义
在这项研究中,选择使用手工制作的生物力学特征而不是纯端到端的深度学习(DL)方法是一个战略性的设计决策,旨在优先考虑临床可解释性和透明度。手工特征的优势包括:
- **可解释性和信任度**:通过设计滑移百分比和椎体角度等特征,模型的输入直接对应于放射科医生使用的既定临床指标。这使得模型摆脱了端到端CNN的“黑箱”性质,增强了在实际临床应用中的信任度。
- **降维**:手工制作720个特征使机器学习模型(如XGBoost)能够专注于已知的病理标记,与从数百万像素中学习特征相比,减少了计算开销和训练数据需求。通过每节椎体的重构和特征选择,最终将最具区分性的信息提炼成一组85个关键特征,同时不牺牲诊断准确性。
- **明确的临床逻辑**:使用这些特征,并结合SHAP和LIME分析,可以准确地识别出哪些解剖学位移(例如,侧向 vs. 矢状)导致了特定的诊断结果,模仿了人类专家的演绎推理。

与端到端深度学习的比较:虽然端到端深度学习模型在捕获X射线图像中的潜在特征、微妙纹理或模式方面表现出色,这些可能无法被肉眼察觉,但它们往往缺乏高风险评估所需的解释性。我们的方法承认在这些潜在信号上可能存在一定的风险,但换来了一个基于临床的实际框架。通过基于诊断及其产生的生物力学关系,我们确保每个预测都基于可测量的脊柱几何结构,而不是不可识别的像素相关性。

然而,值得注意的是,直接将卷积神经网络(CNN)应用于X射线图像的端到端方法可能会捕捉到预设计几何特征未能明确表示的微妙或潜在的放射学模式。这些模式可能包括关节突间区域的细微骨纹变化、早期椎间盘退变,或与微结构骨变化相关的局部图像强度分布,这些变化可能先于可观察到的椎体位移或几何错位。因此,这些影像线索有可能提供额外的信息,而这些信息可能无法仅通过几何特征完全反映。

11.1. 未来实现
未来的研究将致力于克服当前研究的局限性,并加强其临床相关性。尽管提出的模型取得了显著的诊断性能,但依赖于手工制作的特征及其黑箱性质限制了可解释性和广泛的临床信任度。为了解决这个问题,我们计划整合更先进的可解释AI方法,以提供对模型决策过程的更清晰见解。我们还将优先在多机构和人口多样化的数据集上进行验证,以提高泛化能力并减少潜在偏见。此外,未来的工作将扩展框架,以分析特定椎体的异常,特别是L4和L6,这些在现有研究中代表性不足。此外,我们将通过改进特征工程过程和针对后移特征的模型超参数优化来提高疾病诊断模型的准确性。这些计划中的改进旨在提高诊断准确性和提出系统在现实临床环境中的转化适用性。

这项研究的发现目前是基于BUU-LSPINE数据集[6]得出的,其中数据样本的真实值基于放射科医生的共识。将我们模型在测试集上的预测与独立放射科医生的解读进行比较将有助于提供更准确的评估。然而,由于本研究的范围有限,未能进行此类直接比较。与放射科医生的直接比较是本研究的一个局限性。在未来多中心研究中,实施与放射科医生的直接比较将加强临床验证。

BUU-LSPINE数据集[6]提供了一个来自单一机构的稳健但具有地理特异性的队列。尽管该数据集的专家级注释提供了高质量的“人类基准”,但我们认识到X射线成像协议、硬件校准和患者人口统计在整个全球范围内可能存在显著差异。这些因素可能会影响椎体标志的可见性和生物力学特征的基线分布。

为了提高未来的适用性,我们可以采取以下策略:
- **多机构验证**:在多个医院的数据集上测试流程,有助于确认U-Net标志检测和XGBoost分类在不同图像质量和放射学设置下的稳定性。
- **人口多样性**:扩展训练集,包括更广泛的种族群体和特殊人群(例如,儿童或老年人队列),以确保所有患者的年龄和性别相关特征分布的准确性。
- **联邦学习集成**:联邦学习方法允许在不同医疗中心之间进行协作模型训练,而无需共享敏感数据,从而提高模型对多样化临床案例的适应能力,同时保持严格的隐私。
- **疾病范围的扩展**:未来的迭代将扩展框架,以分析更多椎体的异常,并纳入其他脊柱疾病,如骨折或狭窄,提供更全面的诊断工具。具体来说,我们打算细化XGBoost模型结果,以更好地区分轻微的后滑病例与正常的矢状对齐情况。

12. 结论
本研究成功开发了一个用于自动分析腰椎滑脱的集成框架,直接解决了模型选择、特征重要性和临床可解释性等核心研究目标。我们的比较评估确定U-Net架构是最适合椎体定位的方法,因为其逐像素的分割显示了解剖标志的数据完整性,而基于边界框的模型表现不一致。在诊断阶段,XGBoost分类器表现最佳,特别是在实施了针对病理和正常类别的定向数据增强策略之后。系统达到了86.7%的测试准确性,证明了使用集成机器学习进行自动筛查的可行性,尽管还需要进一步改进以提高对细微条件(如后滑)的敏感性。

此外,XAI技术(SHAP和LIME)的整合通过识别滑移百分比和椎体倾斜作为最具意义的特征,提供了必要的临床验证,这与标准放射学实践一致。虽然当前的性能是迈向自动化放射学协助的有希望的一步,但未来的工作将专注于扩展数据集的多样性并改进特征工程,以弥合剩余的准确性差距。这项研究证实,所提出的系统是一个可靠且透明的工具,具有显著提升临床诊断效率的潜力。

### RediT作者贡献声明
Shehenaz Shaik:撰写 – 审查与编辑、撰写 – 原始草稿、可视化、验证、监督、软件、资源、项目管理、方法论、调查、形式分析、数据管理、概念化。
Prawit Boonmee:撰写 – 审查与编辑、撰写 – 原始草稿、可视化、验证、监督、资源、方法论、调查、形式分析、概念化。
Sakshi Shrestha:撰写 – 审查与编辑、撰写 – 原始草稿、可视化、软件、方法论、形式分析、数据管理。
Sittisak Saechueng:撰写 – 审查与编辑、撰写 – 原始草稿、可视化、验证、方法论、数据管理、概念化。
Piphatpong Wannapanon:撰写 – 审查与编辑、撰写 – 原始草稿、可视化、软件、方法论、形式分析、数据管理。Phusit Koedsak 的工作内容包括:写作(审稿与编辑、撰写初稿)、验证、软件开发、方法论研究、形式化分析以及数据整理。Ponlawat Chophuk 的工作领域包括:写作(审稿与编辑、撰写初稿)、数据可视化、验证、项目指导、方法论研究、调查研究及概念化工作。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号