基于双层探测器光谱CT影像组学特征的机器学习模型在区分Luminal与非Luminal型乳腺癌中的应用价值研究

《Frontiers in Oncology》：Machine learning model based on dual-layer detector spectral CT radiomics features for differentiating luminal and non-luminal breast cancer

【字体：大中小】 时间：2026年02月05日 来源：Frontiers in Oncology 3.3

编辑推荐：

　　本研究创新性地将双层探测器光谱CT（DLCT）影像组学与机器学习算法相结合，构建了用于区分Luminal与非Luminal型乳腺癌的预测模型。研究结果显示，高斯朴素贝叶斯（GNB）模型在测试集上表现最佳，AUC达0.778，准确率82.1%，为乳腺癌分子分型提供了新的无创辅助诊断思路。该研究为DLCT影像组学在精准医疗领域的应用提供了重要参考。

1 引言

乳腺癌（BC）是全球女性最常见的恶性肿瘤之一，尤其好发于30-45岁女性群体。根据圣加仑国际乳腺癌专家共识，乳腺癌可基于四种免疫组化标记物分为四种亚型。其中Luminal A型和Luminal B型被归类为Luminal型乳腺癌，约占全部病例的60%-70%，通常对内分泌治疗反应良好。而HER2过表达（HER2-OE）型和三阴性（TNBC）型被归类为非Luminal型乳腺癌，往往需要靶向治疗或更强化治疗方案，且预后较差。由于这两种类型在治疗选择和预后方面存在显著差异，准确的术前亚型鉴别对于制定个体化治疗方案至关重要。

近年来，影像组学因其无创性和强可重复性成为术前乳腺癌分型的研究热点。然而，MRI检查成本高、耗时长且易受运动伪影影响，其多参数扫描特性影响了影像组学特征的稳定性。超声检查对小病灶的鉴别能力有限，且操作者依赖性的图像采集导致提取的影像组学特征可重复性和生物学一致性较差。因此，迫切需要更高效、精确的影像组学方法来优化术前乳腺癌分型。

双层探测器光谱CT（DLCT）作为一种新兴成像技术，具有高分辨率并提供多谱图像，从而拓展了影像组学研究可能性。初步研究已证明DLCT影像组学在预测恶性肿瘤方面的有效性，但其在乳腺癌分子分型中的应用尚未探索。

2 方法

2.1 患者

本研究回顾性分析了2021年10月至2024年7月在江苏省肿瘤医院乳腺外科治疗的乳腺癌患者。纳入标准包括：经组织病理学检查确诊为乳腺癌；术前接受对比增强DLCT胸部检查。排除标准包括：既往接受过手术/放疗/化疗治疗；影像学检查与病理确诊间隔时间超过1周；图像质量不佳影响ROI勾画；临床病理资料不完整。经过筛选标准后，最终128例患者符合分析条件。

2.2 临床和病理分析

我们分析了所有患者的临床和病理数据，包括年龄、BMI、绝经状态和免疫组化（IHC）结果。根据2013年圣加仑国际乳腺癌专家共识，使用四种IHC标记物将患者分为四种分子亚型：雌激素受体（ER）、孕激素受体（PR）、人表皮生长因子受体2（HER2）和Ki-67增殖指数。分类标准为：Luminal A型：ER阳性或PR阳性，HER2阴性，Ki-67＜20%；Luminal B型：ER阳性或PR阳性，HER2阴性，Ki-67≥20%；或ER阳性或PR阳性，HER2阳性，任意Ki-67；HER2-OE型：ER阴性，PR阴性，HER2阳性，任意Ki-67；TNBC型：ER阴性，PR阴性，HER2阴性，任意Ki-67。为后续分析，将Luminal A和B亚型归为Luminal型乳腺癌，而HER2-OE和TNBC归为非Luminal型乳腺癌。

2.3 DLCT图像采集

所有患者术前均使用IQon光谱CT扫描仪进行对比增强DLCT胸部检查。患者取仰卧位，扫描范围从肺尖至膈肌角水平。对比增强成像时，以2.5-3.0 mL/s的注射速率静脉注射非离子型碘对比剂，随后以2.5 mL/s速率注射20 mL生理盐水冲洗。注射后延迟50秒启动扫描。扫描参数如下：管电压120 kVp，自动管电流调制，探测器配置64×0.625 mm，螺距0.900，旋转时间0.50 s，矩阵大小512×512，视野372 mm，扫描层厚5 mm，重建层厚1 mm。

2.4 图像分割和影像组学特征提取

本研究基于55 keV图像进行影像组学特征提取。先前研究表明该keV水平图像具有良好的图像质量和最佳对比噪声比。两位经验丰富的放射科医师在不知晓临床和病理结果的情况下，使用3D-Slicer软件在55 keV单色图像上逐层手动勾画病灶轮廓的兴趣区（ROI）。ROI勾画中的任何差异均通过协商一致解决。ROI勾画后，图像重采样至1×1×1 mm体素，使用PyRadiomics包进行特征提取。提取的特征包括：原始特征：14个形状特征，18个一阶统计特征和75个纹理特征；通过小波变换和拉普拉斯高斯滤波获得的变换特征。

2.5 影像组学特征选择和模型构建

数据集按7:3比例随机分为训练集和测试集。仅对训练集数据应用Z-score标准化，并采用合成少数类过采样技术（SMOTE）实现Luminal与非Luminal样本1:1比例。在训练集中进行单变量分析，随后进行相关性检验去除冗余特征，当r＞0.7时仅保留一个特征。然后应用Lasso算法（5折交叉验证）消除系数为零的特征。最后基于模型系数按重要性对选定特征排序以识别稳定关键特征。测试集在整个特征选择过程中完全隔离，仅用于最终性能评估。

使用七种机器学习算法构建影像组学模型：逻辑回归（LR）、极限梯度提升（XGBoost）、轻量梯度提升机（LightGBM）、自适应提升（AdaBoost）、随机森林（RF）、高斯朴素贝叶斯（GNB）和支持向量机（SVM）。通过受试者工作特征（ROC）曲线、ROC曲线下面积（AUC）及其95%置信区间（95% CI）、准确率、敏感性和特异性评估模型性能。模型通过10折交叉验证评估，并使用测试集数据进一步验证。对于最佳性能模型，生成混淆矩阵图和学习曲线图，并使用SHAP可解释性分析方法进行可视化解释。

2.6 统计分析

使用SPSS Statistics 27.0进行统计分析。Shapiro-Wilk检验用于评估数据正态性。正态分布连续数据以均值±标准差表示，采用独立样本t检验比较。非正态分布连续数据以中位数（四分位数间距）表示，采用Mann-Whitney U检验比较。分类数据以频数（百分比）表示，采用卡方检验比较。P值＜0.05认为有统计学意义。

3 结果

3.1 参与者特征

本研究最终纳入128例乳腺癌患者（均为女性），包括33例（25.8%）非Luminal型，平均年龄56.4±10.4岁，平均BMI 24.2±3.3 kg/m²；95例（74.2%）Luminal型，平均年龄53.9±11.7岁，平均BMI 24.6±3.1 kg/m²。40例（31.3%）为绝经前患者，88例（68.7%）为绝经后患者。两组在年龄、BMI或绝经状态方面均无统计学显著差异。

3.2 影像组学特征提取和选择

基于128例患者的55 keV对比增强DLCT胸部图像，从每位患者病灶勾画的兴趣区中共提取1037个影像组学特征。按7:3比例随机将数据集分为训练集和测试集，训练集89个样本，测试集39个样本。应用SMOTE后，训练集包含130个样本。通过单变量分析和相关性分析初步选定39个特征，使用Lasso算法进一步缩减至18个特征，最优正则化参数为0.026。最终选择13个相关性低但判别力强的特征用于后续建模分析。

3.3 七种模型的诊断性能

使用13个影像组学特征和3个临床特征，我们构建了七种机器学习算法的预测模型。XGBoost、LightGBM、AdaBoost和RF模型在训练集和验证集上表现出色，但在测试集上性能显著下降，提示可能存在过拟合。GNB模型在训练集和验证集的AUC值分别为0.900和0.869。在测试集上，该模型AUC为0.778（95% CI：0.582-0.974），准确率0.821，敏感性0.833，特异性0.778，优于其他六种模型。从GNB模型的敏感性和特异性可见，两者数值相当，未显示原始样本不平衡导致的严重性能偏差。

3.4 模型解释

使用SHAP方法对性能最佳的GNB模型进行可视化分析。GNB模型中贡献度最高的五个影像组学特征分别为waveletHHH_firstorder_Skewness、waveletHLL_firstorder_Kurtosis、waveletHHH_glszm_GrayLevelNonUniformityNormalized、waveletHLH_glcm_Imc2和waveletHHL_firstorder_Median。waveletHHH_firstorder_Skewness特征值越低，模型越倾向于将肿瘤分类为Luminal型；waveletHLL_firstorder_Kurtosis特征值越低，越倾向于预测为Luminal型；waveletHHH_glszm_GrayLevelNonUniformityNormalized特征值越高，越倾向于预测为Luminal型；waveletHLH_glcm_Imc2特征值越低，越倾向于预测为Luminal型；waveletHHL_firstorder_Median特征值越高，越倾向于预测为Luminal型。

4 讨论

本研究首次提出基于DLCT胸部增强成像影像组学特征的机器学习模型用于区分Luminal与非Luminal型乳腺癌。结果显示，结合13个影像组学特征和3个临床特征的GNB模型表现出良好的预测性能（AUC=0.778）。这些发现为Luminal与非Luminal型乳腺癌的早期诊断和精准治疗提供了有价值的参考，为未来分型研究提供了新的影像学证据。

在构建的七种机器学习模型中，XGBoost、LightGBM、AdaBoost和RF模型在训练集和验证集上表现出卓越的预测性能，但在独立测试集上性能显著下降，强烈提示存在过拟合。我们将过拟合的发生主要归因于本研究面临的高维小样本挑战。尽管在一些复杂模型中观察到过拟合，但我们最终选择的GNB模型在训练集、验证集和测试集上表现出最小的性能差距。我们假设在高维小样本场景下，GNB模型的强独立性假设可以在一定程度上防止模型拟合高维数据中的噪声和复杂特征交互，从而增强其泛化能力。

影像组学将医学图像转化为定量、客观的特征，以无创方式探索肿瘤异质性和特征。据我们所知，尚无先前研究利用DLCT影像组学特征区分Luminal型与非Luminal型乳腺癌。我们基于DLCT影像组学的GNB模型在测试集上AUC、准确率、敏感性和特异性分别为0.778、0.821、0.833和0.778，表现出良好性能。在最终用于建模的13个影像组学特征中，三个来自原始图像的形状特征和一阶统计量，其余十个均为小波变换后的一阶统计和纹理特征，占比最大。这些发现表明小波特征在乳腺癌中可能具有预测价值，与我们的结果一致。

本研究开发的基于DLCT影像组学的GNB模型为术前乳腺癌分型提供了一种快速、客观、无创工具的概念验证。我们设想了以下临床整合路径：该模型设计作为辅助诊断工具，整合到乳腺癌影像学检查的后处理阶段。在患者接受胸部对比增强DLCT扫描后，放射科医师或技师可在PACS工作站或专用影像组学分析平台上调用此模型。通过输入55 keV图像并进行勾画，模型将自动从ROI提取影像组学特征并执行预测算法。系统将在几秒钟内生成包含预测概率值、置信区间和关键判别特征可视化等信息的结构化报告。

5 结论

基于DLCT影像组学特征，本研究初步探索并构建了七种机器学习模型。其中，GNB模型在内部测试中表现出相对优越且稳定的预测性能。研究结果表明，DLCT影像组学可能为区分Luminal与非Luminal型乳腺癌提供潜在的辅助工具，从而有助于早期诊断和治疗策略的初步讨论。本研究为该领域提供了初步证据和假设，但其临床转化前景迫切需要未来通过大规模、前瞻性、多中心研究进一步验证和推进。

热点排行

新闻专题