基于放射组学的模型在检测腰椎光子计数探测器CT图像中Modic 1型改变方面的比较

《Skeletal Radiology》:Comparison of radiomics-based models for detection of Modic type 1 changes in photon-counting detector CT images of the lumbar spine

【字体: 时间:2026年05月10日 来源:Skeletal Radiology 2.2

编辑推荐:

  摘要 目标:比较四种基于放射组学的机器学习模型在检测光子计数探测器(PCD)-CT图像中腰椎Modic 1型变化的诊断性能,以MRI作为参考标准。 材料与方法:在这项回顾性的单中心研究中,分析了60名患者在同一周内接受了腰椎PCD-CT和MRI检查并显示出Modic 1型变化的

  摘要
目标:比较四种基于放射组学的机器学习模型在检测光子计数探测器(PCD)-CT图像中腰椎Modic 1型变化的诊断性能,以MRI作为参考标准。

材料与方法:在这项回顾性的单中心研究中,分析了60名患者在同一周内接受了腰椎PCD-CT和MRI检查并显示出Modic 1型变化的病例。从360个分割的椎体中提取了105个放射组学特征,其中348个在质量控制后纳入最终分析。使用嵌套交叉验证训练并评估了最小绝对收缩选择算法(LASSO)、随机森林(Random Forest)、极端梯度提升(XGBoost)和支持向量机(SVM)。通过接收者操作特征曲线下面积(AUC)来评估模型的鉴别性能。使用DeLong检验和Benjamini–Hochberg校正来比较AUC值,以调整多重检验的影响。通过计算每个模型的敏感性、特异性和F1分数来评估诊断准确性。

结果:LASSO获得了最高的AUC(0.842,95% CI 0.793—0.891),模型间的成对比较没有显示出显著差异(p ≥ 0.337)。LASSO的敏感性最高(0.756,95% CI 0.662—0.846),而SVM的特异性最高(0.929,95% CI 0.896—0.958)。LASSO的F1分数最高(0.605,95% CI 0.521—0.679)。

结论:四种基于放射组学的机器学习模型在检测PCD-CT图像中的Modic 1型变化方面表现出相似的高鉴别性能,但在诊断准确性上存在差异。这些结果支持放射组学在视觉检查之外评估病理学的可行性,尽管需要进一步验证以确定其临床适用性。

引言:Modic变化在腰椎的MRI图像中常见,最初由Modic等人在1988年描述[1]。根据骨髓信号模式,这些变化被分为三类:1型变化(MC-1)表现为骨髓水肿样病变,在T1加权图像上呈低信号,在T2加权图像上呈高信号;2型变化(MC-2)含有脂肪骨髓,在T1加权图像上呈高信号,在T2加权图像上呈高信号或等信号;3型变化(MC-3)在T1和T2加权序列上都呈低信号[1, 2]。Modic变化在腰痛患者中更为普遍,症状性患者的累积患病率约为43%,而无症状人群中约为6%[3]。在各亚型中,MC-1与腰痛的关联最强[4]。此外,Modic变化与椎间盘退变和/或突出有关[5, 6],并且在脊柱椎体融合术后似乎起着重要作用[7]。对椎体活检的组织形态学研究表明,Modic变化中骨和骨髓部分之间存在动态交互作用,MC-1中骨转换增加,MC-2中骨形成减少,MC-3中出现骨硬化[8]。虽然一些作者使用CT来检测骨硬化性Modic变化[7, 9]或根据Hounsfield单位区分Modic亚型[10],但其检测MC-1变化的价值仍然非常有限。

放射组学作为计算机辅助医学图像分析的一个扩展应用,利用了横截面图像中通过像素的空间分布和灰度强度嵌入的大量定量信息,可能捕捉到视觉评估之外的成像模式[11]。改进的空间分辨率、较低的电子噪声、更高的对比度噪声比以及光子计数探测器(PCD)-CT扫描仪的固有能量分辨成像能力,可能促进放射组学在医学图像分析中的更广泛应用,早期证据表明放射组学特征的稳定性有所提高[12, 13]。然而,尚未有研究专门研究放射组学检测CT图像中MC-1变化的潜力,尤其是使用PCD-CT的情况。

患者特征:这项回顾性的单中心研究得到了当地伦理委员会的批准,并且免除了知情同意的要求。研究对象为2023年1月至2025年12月期间在一周内接受了PCD-CT和腰椎MRI检查的18岁以上患者,通过机构图像存档和通信系统(PACS)连续识别出这些患者。纳入标准是在MRI上L1和S1之间存在MC-1变化,并且在MRI和/或CT图像上没有脊柱感染或转移性疾病的证据。符合这些标准的患者共有60名,被纳入最终队列。患者选择过程如图1所示。

图像评估:PCD-CT的获取和重建参数在表1中总结,而MRI的获取参数在附录1中提供。对于植入了金属假体的患者,使用专门的金属伪影减少协议进行MR检查,而PCD-CT协议在整个队列中是一致的。图像评估由一名经过培训的肌肉骨骼放射科医生(AAM)执行。

图像分割:腰椎椎体在矢状PCD-CT重建上使用基于深度学习的TotalSegmentator(v2.5.0)工具自动分割,Wasserthal等人报告称该工具在此任务上的平均Dice相似系数为0.94[14]。随后使用3D Slicer(v5.8.1[15])进行椎体标记,并进行手动质量控制以修复分割错误。在放射组学特征提取和模型训练之前,排除了具有分割错误或不完整可视化的椎体。

放射组学特征提取:使用SimpleITK[16]和PyRadiomics[17]提取了总共105个放射组学特征。对于每个椎体,源CT被读取为三维DICOM系列,并加载相应的椎体掩模并进行二值化。掩模被重采样到原始CT图像的几何结构,使用最近邻插值确保体素级对应。提取器配置为启用所有PyRadiomics特征类别,计算了一阶统计量(n=18)、三维形状特征(n=15)和多种纹理特征家族(n=72),包括灰度共生矩阵(GLCM)、灰度长度矩阵(GLRLM)、灰度大小区矩阵(GLSZM)、灰度依赖矩阵(GLDM)和相邻灰度差异矩阵(NGTDM)。灰度离散化在感兴趣区域强度范围内使用了固定的32个bin计数,没有应用bin宽度。几何容差为一个体素,用于基于网格和形状的计算。

放射组学建模:放射组学建模在R(v4.5.0,奥地利维也纳的R Foundation for Statistical Computing)中进行。比较了四种监督学习算法:最小绝对收缩选择算法(LASSO)逻辑回归、随机森林(Random Forest)、极端梯度提升(XGBoost)和带径向基核的支持向量机(SVM)。通过LASSO中的逆频率加权、随机森林中的类别级权重、XGBoost中的正例增加权重以及SVM中的类别特定权重来解决类别不平衡问题。在训练之前,所有特征都通过居中和缩放进行了标准化。

模型性能评估:使用嵌套交叉验证框架评估模型性能。外循环包含五个分层折叠以保持类别平衡。在每个外训练集中,使用内部五折交叉验证进行递归特征消除。折叠在患者级别构建,以确保给定患者的所有椎体都被分配到相同的折叠中。候选特征子集的大小从5到20,以5为增量。在内循环中通过网格搜索优化超参数,使用接收者操作特征曲线下面积(AUC)作为选择指标。这个过程在所有外折叠中重复进行,并保留聚类的样本外预测以供后续分析。分析单位是椎体;为了考虑患者内的聚类,在患者级别构建折叠,确保给定患者的所有椎体都被专门分配到训练集或测试集中。

模型性能量化:使用AUC和95%置信区间(CIs)进行量化,通过2000次分层自助重采样得到总体和每个椎体(L1-S1)的CIs。CIs是从聚类的样本外预测中得出的,没有明确考虑患者内的聚类。此外,还计算了敏感性、特异性、精确度(阳性预测值)和F1分数(精确度和敏感性の调和平均值)。使用Brier分数(预测概率与观察结果之间的平均平方误差)进行校准。校准曲线是根据嵌套交叉验证外部折叠部分的汇总样本外预测得出的,并对这些汇总预测应用了自助法乐观偏差校正,以考虑潜在的过拟合问题。统计分析使用R(版本4.5.0,R统计计算基金会,维也纳,奥地利)进行。模型之间的AUC成对比较使用DeLong检验进行。为了控制多重比较,我们使用Benjamini-Hochberg程序将假发现率控制在5%。校正后的统计显著性设置为p<0.05。

特征重要性是分别为每个模型推导出来的:对于LASSO,提取了在最优惩罚参数下的非零回归系数;对于随机森林,通过平均准确度降低来量化重要性;而对于XGBoost,则通过最终模型的“增益”指标来计算重要性。由于SVM不产生可解释的特征重要性,因此没有直接报告重要性测量结果。

研究队列包括60名患者(男性34名/60 [56.7%];女性26名/60 [43.3%]),平均年龄为64.0±16.1岁(范围19.4–84.4岁)。在所有360个椎骨(L1–S1)中,MC-1变化在82例(22.8%)中普遍存在。按椎骨划分的MC-1变化 prevalence 如下:L1 n=5(8.3%),L2 n=13(21.7%),L3 n=9(15.0%),L4 n=14(23.3%),L5 n=23(38.3%),S1 n=18(30.0%)。35名患者(58.3%)植入了金属植入物。

经过手动质量控制后,排除了7个有分割错误的椎骨和5个可视化不完全的椎骨,最终得到348个腰椎数据的进一步分析。LASSO获得了最高的AUC(0.842,95% CI 0.793–0.891),其次是XGBoost(0.841,95% CI 0.793–0.890),SVM(0.841,95% CI 0.794–0.888),以及随机森林(0.811,95% CI 0.761–0.860)。所有模型的接收者操作特征曲线显示在图4中。成对比较未发现模型之间的AUC有显著差异(p≥0.337,表2)。所有模型的每个椎骨的AUC显示在表3中,范围从L1(XGBoost)的0.722(95% CI 0.399–1.000)到L3(SVM)的0.964(95% CI 0.920–1.000)。模型的诊断性能总结在表4中:LASSO获得了最高的敏感性(0.756,95% CI: 0.662–0.846),而随机森林获得了最低的敏感性(0.378,95% CI: 0.275–0.482)。相反,SVM获得了最高的特异性(0.929,95% CI 0.896–0.958),LASSO的特异性最低(0.771,95% CI 0.721–0.819)。精确度范围从LASSO的0.504(95% CI 0.414–0.589)到SVM的0.672(95% CI 0.547–0.789)。LASSO获得了最高的F1分数(0.605,95% CI 0.521–0.679)。Brier分数的范围从SVM的0.128(95% CI 0.108–0.151)到XGBoost的0.155(95% CI 0.127–0.185,表4)。模型的校准图显示在图5中。

图4
该图像的替代文本可能是使用AI生成的。
完整大小的图像

接收者操作特征(ROC)曲线是根据嵌套交叉验证的汇总预测得出的。曲线下面积(AUC)以及95%置信区间分别为:LASSO为0.842(0.793–0.891),XGBoost为0.841(0.793–0.890),SVM为0.841(0.794–0.888),随机森林为0.811(0.761–0.860)。LASSO代表最小绝对收缩和选择算子;XGBoost代表极端梯度提升;SVM代表支持向量机。

表2
不同机器学习模型接收者操作特征曲线(AUC)差异的DeLong检验。给出了未经调整和经过Benjamini-Hochberg调整的p值,以控制多重检验,假设假发现率为5%。

表3
不同机器学习模型每个椎骨的接收者操作特征曲线(AUC)以及95%置信区间。

表4
不同机器学习模型的诊断性能指标和Brier分数。

图5
该图像的替代文本可能是使用AI生成的。
完整大小的图像

LASSO(a)、随机森林(b)、XGBoost(c)和SVM(d)的偏置校正校准曲线(实线)和未校正的曲线(虚线)显示出来。对角线表示完美校准。曲线是通过带有自助法乐观偏差校正的逻辑校准得到的。x轴代表预测概率,y轴代表观察概率。轴线上的短刻度标记表示预测风险的分布。LASSO代表最小绝对收缩和选择算子;XGBoost代表极端梯度提升;SVM代表支持向量机。

特征重要性
跨模型的最重要特征主要与椎体内的低衰减信号成分和纹理异质性相关。特别是,强调较低灰度强度的存在和空间分布的特征在各个模型中始终排名最高。虽然具体特征排名在不同算法间有所变化,但一个共同的模式是反映低密度区域的重要性的特征。每个模型的详细特征重要性排名显示在图6中。

图6
该图像的替代文本可能是使用AI生成的。
完整大小的图像

跨模型的特征重要性。所有模型中最具有信息量的特征主要反映了椎体内的低衰减信号特征和纹理异质性。这些特征捕捉了低灰度强度的分布和空间组织。LASSO(a):条形图显示了在最优λ下最终惩罚逻辑模型中的非零系数。条形图长度反映了在对数几率尺度上的绝对效应大小;符号表示关联方向(正=预测风险较高,负=预测风险较低)。随机森林(b):条形图显示了根据森林的杂质基于的重要性缩放的相对变量重要性,因此最高特征=100,其他特征成比例。XGBoost(c):条形图显示了从使用某个特征的分割中获得的损失函数平均改善;较高的增益表示对该模型的较大贡献。

讨论
本研究比较了不同的机器学习模型,在PCD-CT图像中基于放射组学的Modic 1型(MC-1)变化的检测,以MRI作为参考标准。从PCD-CT图像中提取的放射组学特征显示出了高区分性能,用于检测MC-1变化,不同机器学习模型之间的性能相当。接收者操作特征曲线下的面积(AUC)达到了0.81—0.84,概率估计的校准也是可接受的,其中最小绝对收缩和选择算子(LASSO)和极端梯度提升(XGBoost)的校准最低。

据我们所知,之前没有基于机器学习的研究调查过CT上MC变化的检测。我们的研究结果提供了新的见解,表明基于纹理的放射组学方法可以识别MC-1变化,尽管通过视觉评估在CT上探测这些病变的能力非常有限。在这个背景下,我们的研究结果证实了放射组学能够提取出超出人类视觉感知范围的定量成像特征。最具信息量的特征是GLDM小依赖低灰度强调(LASSO)、GLRLM长运行低灰度强调(随机森林)和第一阶十分位数(XGBoost)。这些描述符对强度敏感,因为它们权衡了直方图的低衰减尾部(第十百分位数)以及低灰度体素的普遍性和空间组织。重要的是,这些特征捕捉了异质性和局部模式,不同于仅表示平均Hounsfield单位的感兴趣区域方法。因此,放射组学特征在CT上MC-1变化的椎骨的视觉衰减不明显的病例中可能特别有用。尽管MC-1变化的病理机制仍有争议[18],但我们的研究发现的纹理变化可以通过组织病理学发现来解释,这显示了终板破坏和纤维血管化肉芽组织的生长以及相邻骨髓内的血管增加[18, 19]。我们模型的整体良好区分性能与越来越多的文献一致,这些文献表明基于CT的放射组学特征在脊柱的各种病理中是有用的。例如,在CT上进行的机会性骨质疏松症筛查、区分急性与慢性以及良性与恶性椎体压缩性骨折的任务中,基于CT的放射组学AUC范围从0.78到0.92[20,21,22]。

为了改进模型比较,本研究采用了嵌套交叉验证策略。对于较小的数据集,这种方法比单一保留或非嵌套k折方案更可取,因为它提供了几乎无偏的性能估计[23, 24]。这是通过在独立的外部折叠上评估来实现的,同时将特征选择、超参数调整、类别加权以及任何概率校准限制在内部循环中,从而最小化选择偏差和数据泄露。鉴于所有椎骨中MC-1变化的患病率约为23%,在模型训练期间应用了逆频率类别加权。这可能有助于通过减少由不平衡引起的预测概率偏差来观察到的可接受模型校准。然而,这些模型并未针对临床决策阈值进行优化,也没有进行基于阈值的决策分析。

从临床角度来看,可以考虑几种基于放射组学的MC-1变化检测的临床实施途径。一个现实的应用是在进行其他用途CT检查的患者中进行机会性筛查,或者在MRI禁忌的情况下。未来的研究包括与放射科医生评估的直接比较,可能有助于进一步说明基于放射组学的方法相对于视觉CT解释的附加值。然而,临床实施仍存在几个障碍。需要跨机构和扫描仪类型进行外部验证,以确保普遍性,特别是考虑到放射组学特征依赖于采集和重建参数。重要的是,在考虑常规临床使用之前,需要获得监管批准和在真实世界临床环境中的前瞻性评估;然而,目前大多数放射组学工具仍处于临床前或研究阶段。鉴于模型之间的性能相似,模型选择可能取决于是优先考虑敏感性还是特异性。

应承认本研究的以下局限性:首先,这是一项回顾性单中心分析,MRI和CT之间有一定时间间隔。其次,尽管对所有患者应用了专门的金属伪影减少协议,但在某些情况下,残余伪影可能仍影响了分割精度或放射组学特征的提取。第三,我们将分析限制在MC-1变化上,未评估其他Modic亚型。这种关注是有意的,因为MC-1病变是与症状性腰痛最一致相关的亚型[4]。然而,其他Modic变化也可能作为潜在的混杂因素,因为它们也可能影响被分类为MC-1阴性的椎骨中的CT衍生放射组学特征。第四,分析了每个患者的多个椎骨,这可能通过患者内的相关性的剩余影响了性能估计的精确度。通过使用患者级别的交叉验证来减轻这种潜在偏差,确保来自给定患者的所有椎骨仅被分配到训练集或测试集中。在计算置信区间或AUC比较时没有明确建模聚类,这可能导致统计精确度的略微乐观估计。第五,未评估PCD-CT的光谱能力,包括虚拟单能成像。未来的研究可以使用这些技术,因为它们可能提高放射组学特征的稳定性,如之前在幻影研究中所示[13]。第六,没有进行外部验证,这限制了我们发现的普遍性。最后,仅包括MC-1变化的患者可能会引入选择偏差,这可能会限制对未选群组的普遍性并影响依赖于普遍性的性能指标。然而,通过在椎骨级别进行分析来解决这些问题,包括受影响的和未受影响的椎骨,并在模型训练期间应用类别加权来考虑类别不平衡。

总之,本研究表明,从PCD-CT图像中提取的放射组学特征能够在内部验证环境中跨多个机器学习模型实现MC-1终板变化的良好区分性能。结果表明,基于CT的放射组学可以捕捉到仅通过视觉检查不易察觉的Modic变化的纹理和强度特征。需要进一步的外部验证来评估观察结果的普遍性和潜在的临床实用性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号