基于乳腺超声的可解释深度学习系统用于中国人群乳腺癌早期检测

《Insights into Imaging》：An interpretable ultrasound-based deep learning system for early breast cancer in a Chinese population

【字体：大中小】 时间：2026年06月06日 来源：Insights into Imaging 4.5

编辑推荐：

　　目的：当前用于乳腺癌早期的深度学习（Deep Learning, DL）模型缺乏可解释性及多模态整合，限制了其临床接受度。本研究旨在开发并评估一种自动化乳腺超声评估的深度学习系统（BrcaDetect），以支持临床评估中的早期乳腺癌检出。材料与方法：研究人员开

目的：当前用于乳腺癌早期的深度学习（Deep Learning, DL）模型缺乏可解释性及多模态整合，限制了其临床接受度。本研究旨在开发并评估一种自动化乳腺超声评估的深度学习系统（BrcaDetect），以支持临床评估中的早期乳腺癌检出。材料与方法：研究人员开发了BrcaDetect，其整合了基于超声影像的深度学习预测值、乳腺影像报告和数据系统（Breast Imaging Reporting and Data System, BI-RADS）评估及人口学因素。回顾性收集五家医院3048名女性的共24,762张超声图像，其中2017年1月至2020年12月三家三级医院的2399例患者19,340张图像用于模型训练与内部验证，2021年1月至2023年8月另两家医院的649名女性5422张图像用于外部验证。所有病灶均经活检或3年随访确诊。评估模型性能及其对5名放射科医师诊断准确率的影响。结果：BrcaDetect优于单纯影像深度学习模型及人口学模型，曲线下面积（Area Under the Curve, AUC）分别为0.989（95%置信区间[Confidence Interval, CI]: 0.979–0.999）、0.851（95% CI: 0.819–0.884）和0.826（95% CI: 0.804–0.848），对应敏感度分别为98.8%、93.0%和71.8%。阅片研究中，受BrcaDetect辅助的放射科医师诊断准确率显著高于无辅助阅片（0.977 [95% CI: 0.967–0.986] vs. 0.919 [95% CI: 0.900–0.935]; p < 0.001）。结论：作为影像层面决策支持模型，BrcaDetect在受控阅片条件下可提高放射科医师诊断性能并提供可解释性，减少假阳性，为临床评估工作流中决策支持的的概念验证（proof-of-concept）提供依据。

论文解读：基于乳腺超声的可解释深度学习系统用于中国人群乳腺癌早期检测

该研究发表于Insights into Imaging，针对当前乳腺超声人工智能（Artificial Intelligence, AI）辅助诊断领域普遍存在的"黑盒"不可解释性及单一依赖影像特征、忽略临床常用BI-RADS（Breast Imaging Reporting and Data System，乳腺影像报告和数据系统）分级与人口学危险因素的问题展开。现有深度学习（Deep Learning, DL）模型多为单中心、仅基于影像的良恶性二分类，缺乏外部验证且无法向临床医生展示决策依据，加之乳腺超声特异性较低、判读存在观察者间差异，限制了AI在临床的实际落地。为此，研究人员开发并验证了一款名为BrcaDetect的多模态、可解释DL框架，将DL影像预测概率、放射科医师判定的BI-RADS分类及年龄、体质指数（Body Mass Index, BMI）、良性乳腺疾病史、乳腺癌家族史四项人口学因素整合入随机森林（Random Forest, RF）分类器，并通过梯度加权类激活映射（Gradient-weighted Class Activation Mapping, Grad-CAM）热图和沙普利值（Shapley values）提供影像区域及特征贡献度的解释，以探讨多模态融合并辅助放射科医师阅片能否提升早期乳腺癌检出性能。

主要关键技术方法：

研究人员回顾性纳入河北医科大学第一/第四医院、河北省胸医院（训练/内部验证/内部测试，2017—2020年，2399例19,340幅图）及石家庄市人民医院、邢台市人民医院（外部验证，2021—2023年，649例5422幅B超及彩色多普勒图）共五家中心3048名女性数据，恶性经穿刺/手术病理确诊，良性经病理或≥3年影像学稳定随访确认。按受试者而非图像分层随机划分，防止数据泄漏。影像DL基模型采用ResNet34/50/101、EfficientNet-b5/b6、DenseNet121/169/201八种卷积神经网络（Convolutional Neural Network, CNN）ImageNet预训练后微调，平均输出得DL评分；BrcaDetect以RF融合DL评分+BI-RADS+四项人口学因素（六维向量）训练；对照仅为四项人口学因素的"人口学模型"。可解释性由Grad-CAM生成病灶关注区热图及Shapley Additive exPlanations（SHAP）量化各输入特征边际贡献。阅片者研究招募5名具5—10年经验的放射科医师，在盲法、2周洗脱期前后分别独立阅片200例内/外部测试病例，记录无辅助与BrcaDetect给出恶性概率辅助后的BI-RADS及诊断指标，用DeLong检验比较AUC（Area Under the receiver operating characteristic Curve，受试者工作特征曲线下面积），Cohen's κ评估观察者间一致性。

研究结果

Baseline information（基线信息）：

研究最终纳入3048名女性（平均年龄55.21±8.40岁，40—74岁），内部开发集2399例19,340幅图像，外部验证集649例5422幅图像，各数据集良恶性分布及BI-RADS分级详见原文表。所有病灶金标准经病理或3年随访确定。

Performance of the demographic model（人口学模型性能）：

仅含年龄、BMI、良性乳腺疾病史、乳腺癌家族史的RF模型在内部测试集AUC为0.794（95% CI: 0.766–0.822），敏感度86.2%，特异度65.6%；外部验证集AUC降至0.674—0.698，说明单纯人口学因素判别力有限且泛化性差。

Performance of DL predictions（影像深度学习模型性能）：

八模型集成CNN在内部测试集AUC达0.953（敏感86.9%，特异99.6%），外部验证集AUC为0.803—0.809（敏感62.0%—67.4%，特异84.0%—89.7%），单独影像DL优于人口学模型但在外部略有下降。

Performance of BI-RADS（BI-RADS评分性能）：

五位放射科医师归一化BI-RADS平均AUC内部为0.919，外部分别为0.751和0.670，说明BI-RADS本身受中心及人群影响存在变异。

Performance of the BrcaDetect（BrcaDetect系统性能）：

BrcaDetect内部测试集AUC达0.989（95% CI: 0.979–0.999，敏感98.8%），显著优于人口学模型（p < 0.001）和单纯DL集成模型（p < 0.001）；外部验证SJZ队列AUC 0.826（95% CI: 0.804–0.848），XT队列AUC 0.851（95% CI: 0.819–0.884），亦持续高于人口学模型（均p < 0.001）及不低于DL模型，证实多模态融合提升判别力并保持跨中心稳定性。全局Shapley值显示DL预测贡献最大，依次为BI-RADS、乳腺癌家族史、年龄、BMI、良性乳腺疾病史；Grad-CAM热图中恶性病灶高激活区（hotspot）检出率（外部56.54%—73.24%）明显高于良性（10.32%—36.15%），提示可解释可视化与病理相符。

Reader study（阅片者研究）：

无辅助时五名放射科医师平均AUC内部0.891—0.943、外部较低；BrcaDetect辅助后内部AUC提升至0.969—0.989（p < 0.001），平均假阳性率由17.25%降至2.47%，不同年资医师均有获益，经验较少者提升更明显。Cohen's κ由无辅助时0.735—0.825升至辅助后内部0.801—0.890、外部0.760—0.847，提示AI辅助缩小了观察者间差异、提高一致性。

讨论与结论（翻译浓缩）：

本研究表明，将DL衍生影像特征与放射科BI-RADS评估及人口学危险因素整合，可在影像层面辅助乳腺癌风险估计，BrcaDetect在各数据集上均优于单模态模型，印证多模态互补价值。外部验证AUC略降反映域偏移（domain shift）影响，需更大样本与域适应策略。阅片研究显示BrcaDetect在受控条件下提升诊断性能、降低观察者变异，尤裨益低年资医师，但属概念验证，尚需前瞻性真实场景验证。Grad-CAM与Shapley值揭示模型关注区大致符合可疑恶性形态/血流特征，应理解为相对注意力而非精确定位。局限性含回顾性、地域局限、外部集较小且类别不平衡、设备异质性与排除低质图的潜在选择偏倚。结论：BrcaDetect通过整合DL影像预测、BI-RADS及人口学因素在中国人群中展现跨内部与外部数据集的稳定性能，Grad-CAM热图与Shapley值为模型推理提供洞察；虽在受控条件下可提升放射科医师表现并降低假阳性，仍需前瞻性多中心验证后方可考虑临床部署，未来应探索联合钼靶及自动乳腺超声等多模态并扩大人群评估鲁棒性。

热点排行