基于ADC影像组学的可解释机器学习模型在肝细胞癌与肝内胆管癌鉴别诊断中的价值

《Frontiers in Oncology》：Interpretable ADC-based radiomics models for differentiating hepatocellular carcinoma and intrahepatic cholangiocarcinoma

【字体：大中小】 时间：2026年02月03日 来源：Frontiers in Oncology 3.3

编辑推荐：

　　本综述系统阐述了基于表观扩散系数（ADC）影像组学的可解释机器学习（ML）模型在肝细胞癌（HCC）与肝内胆管癌（ICC）鉴别诊断中的应用。研究通过LASSO回归筛选8个关键特征，构建包括逻辑回归（LR）在内的五种ML模型，其中LR模型表现最优（训练集AUROC 0.95，外部验证AUROC 0.85）。SHAP分析揭示wavelet-LLL-firstorder-RootMeanSquared为最具影响力特征，显著提升模型可解释性。该研究为肝癌术前无创分型提供了创新工具。

基于ADC影像组学的可解释机器学习模型在肝细胞癌与肝内胆管癌鉴别诊断中的研究

引言

肝细胞癌（HCC）和肝内胆管癌（ICC）是两种常见的原发性肝脏恶性肿瘤，但其病理起源、临床表现、治疗策略及预后存在显著差异。HCC起源于肝细胞，而ICC起源于肝内胆管上皮细胞。外科手术是主要的治疗手段，但HCC基于肝段进行切除，ICC因侵袭性更强需基于肝叶切除，因此术前准确鉴别至关重要。然而，传统影像学方法如超声、计算机断层扫描（CT）和磁共振成像（MRI）在鉴别诊断方面准确性和可靠性有限。

近年来，影像组学技术迅速发展，已有研究探索利用CT和MRI鉴别HCC与ICC。CT深度学习模型如卷积神经网络（CNN）应用于动态增强序列，自动提取高维特征，区分恶性与良性/不确定病变的曲线下面积（AUROC）可达0.92。MRI方面，基于多期相（动脉晚期、门静脉期、延迟期）的CNN深度学习系统对HCC的识别总体准确率可达92%。其他影像组学研究利用T2加权成像（T2WI）、对比增强T1加权成像（T1WI）和扩散加权成像（DWI）序列，量化信号强度变化和组织微观结构以区分两者，报道的AUROC最高达0.94。但这些方法存在局限性：CT存在辐射暴露风险且软组织对比度较差；MRI序列中，T2WI扫描时间长，部分患者无法耐受T1WI对比剂，DWI信号强度受T2透射效应影响，可能降低特征提取的准确性。

表观扩散系数（ADC）图通过量化组织微观结构（如细胞密度）限制的水分子扩散，克服了上述部分缺点。ADC值直接反映组织水分子扩散能力，受微观结构影响。肿瘤与正常组织在细胞密度、排列和细胞间隙方面的差异会改变ADC值，为肿瘤分化提供丰富的微观结构信息。与T2WI和T1WI相比，ADC通常具有更高的空间分辨率，能更清晰地显示微观结构。此外，ADC成像无需对比剂，减少了侵入性、患者不适感和风险，比增强T1WI或T2WI更适合长期监测或重复扫描。与DWI相比，ADC受T2透射效应的影响较小，能更真实地反映组织扩散情况。因此，从ADC图像中提取的影像组学特征可能更准确、更可靠。然而，现有的基于影像组学的机器学习研究普遍存在可推广性受限或可解释性不足的问题。

研究方法

本研究旨在开发并验证基于ADC影像组学的可解释机器学习模型，用于区分HCC和ICC。

研究人群

内部回顾性队列纳入了129例未经治疗的病理确诊肝脏恶性肿瘤患者（83例HCC，46例ICC），来自本机构和癌症影像档案（TCIA）公共数据库（2020年1月至2025年12月）。纳入标准包括：病理确诊HCC或ICC；主要病灶直径≥2厘米；无既往抗肿瘤治疗史；具备可用于ADC图重建的DWI序列MRI；影像运动伪影最小。排除标准包括：临床或影像数据不完整；合并其他原发性恶性肿瘤；严重肝肾功能不全无法行MRI检查；图像质量差影响特征提取。HCC组中位年龄60岁，男性为主（81.9%）；ICC组中位年龄62岁，性别分布更均衡（52.2%男性）。内部队列按分层抽样随机分为训练队列（n=103, 80%）和内部验证队列（n=26, 20%）。外部验证队列来自TCIA，包含40例患者（20例HCC，20例ICC），遵循相同标准以最小选择偏倚。

MRI采集

内部机构MRI使用3.0T Siemens MAGNETOM Trio扫描仪，DWI序列参数：b值0和800 s/mm2；重复时间/回波时间（TR/TE）= 5200/75 ms；采集矩阵112×112；视野（FOV）= 380×380 mm；层厚6 mm；层间距7.2 mm；激励次数（NEX）= 2。TCIA外部队列DWI数据以DICOM格式获取，关键参数与内部队列一致。为保持队列间一致性，使用训练集计算的均值和标准差对内部队列所有样本及外部TCIA队列进行z-score标准化，防止信息泄露。

特征提取

使用3D Slicer预处理ADC图（DICOM格式），通过PyRadiomics提取影像组学特征。由两位经验丰富的放射科医生双盲进行病灶分割。界限清晰病灶采用半自动分割（区域生长算法）；界限不清病灶手动逐层勾画。多发病灶选择最大病灶作为感兴趣区域（ROI）。评估观察者间可靠性，组内相关系数（ICC）>0.75表明重现性好。分割差异通过第三位放射科医生协商一致解决。共提取1131个特征，包括一阶统计、形态特征、二阶纹理特征（如灰度共生矩阵GLCM）和高阶特征（如小波变换）。

特征选择与降维

首先对放射科医生1提取的特征进行单变量分析，筛选HCC与ICC组间有判别潜力的特征（p < 0.05）。随后计算皮尔逊相关系数，若特征间相关系数>0.8，则保留p值最小的特征以消除多重共线性。然后使用LASSO逻辑回归进行进一步特征选择，通过3折交叉验证确定最优正则化参数λ（值为0.07537688），选择非零系数特征作为关键预测因子。

模型开发与验证

开发了五种机器学习模型：逻辑回归（LR）、随机森林（RF）、高斯朴素贝叶斯（GNB）、支持向量机（SVM）和k近邻（kNN）。通过10折交叉验证在训练集上优化超参数。在锁定的模型上（不再重新训练）使用内部验证集和外部TCIA队列评估性能。模型区分度通过AUROC量化。进一步通过校准图评估预测概率与观察结果的一致性，并通过决策曲线分析（DCA）评估临床效用。同时计算准确率、敏感性、特异性、F1分数等混淆矩阵指标。选择最佳模型后，使用Python的SHAP包解释模型，显示各参数重要性及关系。p < 0.05认为有统计学意义。

研究结果

患者人口统计学和肿瘤特征显示，HCC和ICC组中位年龄无显著差异（60岁 vs. 62岁，p=0.321）。性别分布有显著差异，HCC组男性为主（81.9%），ICC组更均衡（52.2%男性，p=0.002）。ICC肿瘤倾向于更大（中位直径5.1厘米 vs. HCC的4.2厘米），但差异不显著（p=0.15）。血管侵犯在ICC中更常见（47.8% vs. HCC的21.7%，p=0.003），主要由ICC微血管侵犯率更高驱动（41.3% vs. 18.1%，p=0.005）。

特征提取一致性良好，放射科医生1提取特征的组内ICC范围在0.871-1.000之间，放射科医生1与2间的组间ICC范围在0.921-1.000之间，均大于0.75，表明特征提取重复性好。

LASSO回归从150个显著差异特征中最终筛选出8个有意义的特征：性别、original-firstorder-Kurtosis、wavelet-LLL-firstorder-90Percentile、wavelet-LLL-firstorder-RootMeanSquared、wavelet-LLH-firstorder-Skewness、wavelet-LHL-glcm-Correlation、log-sigma-3-0-mm-3D-firstorder-90Percentile、original-shape-Sphericity。

五种机器学习模型在训练队列中AUROC为0.84-0.95，内部验证队列中AUROC为0.78-0.91。其中LR模型表现最优：训练集AUROC 0.95（95%置信区间CI: 0.91-0.99），内部验证集AUROC 0.91（95% CI: 0.83-0.99）。校准图显示LR模型具有最低的Brier评分（0.100），表明预测概率与观察结果差异最小，校准最优。DCA证实所有模型在阈值概率范围内均比"全治疗"或"全不治疗"策略具有净临床收益，其中LR模型净收益最高。

在训练队列中，LR模型的总体准确率为0.87，诊断HCC的敏感性0.92、特异性0.88；诊断ICC的敏感性0.88、特异性0.92，F1分数0.85。在验证队列中，LR模型保持优异性能：总体准确率0.84，诊断HCC敏感性0.90、特异性0.89；诊断ICC敏感性0.89、特异性0.90，F1分数0.78。通过Youden指数确定LR模型的最佳概率阈值为0.34。

在TCIA外部验证队列（n=40）中，LR模型再次展示了最佳泛化能力：AUROC 0.85，总体准确率0.84，诊断HCC敏感性0.83、特异性0.86；诊断ICC敏感性0.86、特异性0.83。成对比较显示LR模型AUROC显著优于其他算法（均p < 0.05）。

模型解释

SHAP分析揭示了LR模型中8个特征的重要性排序及其对区分HCC和ICC的影响。wavelet-LLL-firstorder-RootMeanSquared是最关键的特征，其较高值对应较高的SHAP值和HCC可能性增加。类似地，wavelet-LLH-firstorder-Skewness、性别和log-sigma-3-0-mm-3D-firstorder-90Percentile也呈现正相关，较高值对应较高SHAP值和HCC可能性升高。相反，original-firstorder-Kurtosis和wavelet-LLL-firstorder-90Percentile与较高SHAP值和ICC可能性升高呈正相关。SHAP力图展示了个体化诊断案例，例如输入某HCC患者的四个特征值（wavelet-LLH-firstorder-Skewness: 0.10, log-sigma-3-0-mm-3D-firstorder-90Percentile: 262.98, wavelet-LLL-firstorder-RootMeanSquared: 4264.77, original-firstorder-Kurtosis: 3.80），模型预测HCC风险概率为0.57，超过诊断阈值0.34，提示该患者HCC可能性较高。

讨论

本研究开发并验证了基于ADC影像组学的可解释模型用于区分HCC和ICC。主要发现包括：ADC影像组学对此任务有效；LR模型表现出较高的内部（AUROC 0.91）和外部（TCIA AUROC 0.85）性能；SHAP确定wavelet-LLL-firstorder-RootMeanSquared为最具影响力特征，增强了可解释性。该研究解决了术前区分HCC和ICC这一关键临床挑战，影响了手术规划。它提供了一种新颖、非侵入性的工具，利用ADC图的定量微观结构信息，克服了操作者依赖性、辐射（CT）以及对比剂/T2效应（其他MRI）的限制。重要的是，使用TCIA数据进行稳健的外部验证证明了强大的泛化能力。SHAP解释的整合通过使模型决策透明化培养了临床信任。

与先前使用CT和多期相MRI的研究相比，本研究的创新点在于利用ADC图以及结合SHAP增强可解释性。ADC图提供比T2WI/T1WI更高的空间分辨率，无需对比剂或辐射，并且与DWI相比最小化T2透射效应，从而实现更稳健的特征提取。

LR模型利用的八个判别预测因子从不同但互补的角度捕捉了潜在的病理生物学特征。wavelet-LLL-firstorder-RootMeanSquared测量整体肿瘤密度：ICC致密的细胞/纤维组织降低水扩散（降低该值），而HCC较松散的结构增加它。original-firstorder-Kurtosis补充了这一点，HCC常见的坏死/出血导致不规则信号峰值（较高值），而ICC的均匀纤维化则否。信号分布不对称性（wavelet-LLH-firstorder-Skewness）可能指示如纤维化模式的不均匀屏障。同时，wavelet-LLL-firstorder-90Percentile和log-sigma-3-0-mm-3D-firstorder-90Percentile揭示了水分子自由移动的区域，突出了水肿/微血管区域的差异。通过wavelet-LHL-glcm-Correlation进行的纹理分析显示ICC有组织的纤维带产生规则模式（较高值），与HCC因坏死/血池导致的混沌结构（较低值）形成对比。形态上，original-shape-Sphericity证实ICC的不规则、浸润形状（较低值）与HCC的更圆形结节（较高值）。最后，性别纳入了流行病学因素：HCC男性主导（病毒/酒精风险），ICC女性倾向（胆道疾病）。这些特征协同作用，通过更致密组织、均匀结构、不规则形状和女性关联检测ICC，同时通过更松散组织、内部异质性、混沌纹理、球形形态和男性优势识别HCC——其中肿瘤密度是主要判别因素。

该可解释的基于ADC的LR模型具有显著的临床潜力，它提供了一种快速（例如<5分钟）、非侵入性、客观的工具，可直接从常规MRI序列进行术前HCC与ICC鉴别。其高性能和泛化能力支持其在分流不确定病灶（≥2厘米）中的应用，特别是在活检风险高或先进影像不可用的情况下。重要的是，SHAP解释增强了多学科肿瘤委员会中的信任和沟通。值得注意的是，LR模型对HCC和ICC的个体诊断均表现出平衡且稳健的性能。对于HCC，敏感性达到0.92（训练）、0.90（内部验证）和0.83（外部验证），表明识别真实HCC病例的效率高，最小化假阴性——这对于避免漏诊需要肝段切除的HCC至关重要。对于ICC，敏感性为0.88（训练）、0.89（内部验证）和0.86（外部验证），特异性为0.92（训练）、0.90（内部验证）和0.83（外部验证），确保了准确识别需要肝叶切除的ICC，并减少假阳性。这种对两种恶性肿瘤的平衡诊断性能满足了精确术前鉴别的临床需求，因为误分类任一种肿瘤类型都可能导致不适当的手术策略。通过利用现有的ADC图而不需要对比剂或辐射，该模型降低了成本，消除了对比剂相关风险，并最大限度地减少了不必要的手术，使得能够基于无创预测优化手术规划（例如，HCC行肝段切除，ICC行肝叶切除）。使用标准DICOM数据初步整合到临床工作流程是可行的，但建议对概率阈值进行本地验证。

局限性

本研究存在若干局限性。首先，排除了直径<2厘米的病灶， due to 影像组学特征提取的技术困难——而这些小病灶恰恰是临床诊断中最具挑战性的场景，这可能限制模型对早期肝脏恶性肿瘤的适用性。其次，尽管z-score归一化减轻了技术异质性，但不同MRI扫描仪（如内部Siemens与多机构TCIA系统）供应商特定的ADC计算算法可能会影响特征可重复性，突出表明需要在更统一的成像平台上进行进一步验证。最后，本研究采用单中心回顾性设计，可能引入固有的选择偏倚，并限制研究结果在更广泛人群中的泛化能力。

结论

本研究开发并外部验证了基于ADC图影像组学的可解释机器学习模型，用于HCC和ICC的鉴别诊断。逻辑回归模型表现出高且可泛化的性能（内部AUROC 0.91，外部TCIA AUROC 0.85）。SHAP分析提供了关键的可解释性，确定wavelet-LLL-firstorder-RootMeanSquared为最重要特征。该研究确立了ADC影像组学作为一种稳健、无辐射、无对比剂的方法，用于无创区分这两种常见的原发性肝癌。经过验证的模型可作为一种可靠的诊断辅助工具，为临床管理规划提供关键客观信息。

热点排行

新闻专题