SwinCNN+OE：融合Swin Transformer与CNN的乳腺癌病理分类新架构及其可解释性与OOD检测集成研究

《IEEE Access》：SwinCNN+OE: A Swin Transformer and CNN Architecture for Breast Histopathology Classification With OOD and Grad-CAM Integration

【字体：大中小】 时间：2026年01月12日 来源：IEEE Access 3.6

编辑推荐：

　　本研究针对乳腺癌病理诊断中模型可解释性差、对分布外样本识别能力不足的问题，开发了SwinCNN+OE混合架构。该模型结合EfficientNet-B0的局部特征提取能力与Swin Transformer的全局表征优势，集成Grad-CAM可视化与基于能量的OOD检测。实验结果显示，模型总体准确率达97.83%，AUC为99.49%，并能完美识别未知样本（AUC=1.00）。该研究为临床病理AI应用提供了兼具高精度、可解释性与安全性的解决方案。

在全球范围内，乳腺癌是女性中最常见且致死率较高的恶性肿瘤之一。据统计，2024年全球新发病例约230万，导致67万人死亡。尽管高收入国家在乳腺癌的检测与治疗方面取得了显著进展，但在低收入和中等收入国家（LMICs），尤其是撒哈拉以南非洲（SSA）地区，由于诊断延迟、筛查项目覆盖率低以及治疗资源有限，乳腺癌死亡率依然居高不下。以加纳为例，乳腺癌是该国最常见的癌症，2020年成为癌症相关死亡的第二大原因。约70%的加纳女性患者在就诊时已处于癌症晚期，这主要归因于健康意识薄弱、文化信仰以及筛查服务可及性差。加纳缺乏全国性的乳腺癌筛查计划，主要依赖机会性筛查，且仅有约41%的医院提供乳腺癌病理服务，导致诊断准确性和时效性面临严峻挑战。

面对医疗资源分布不均和病理专家短缺的现实困境，利用人工智能（AI）技术辅助乳腺癌诊断已成为研究热点。卷积神经网络（CNN）和视觉Transformer（ViT）等深度学习模型在乳腺X线摄影、组织病理学和磁共振成像（MRI）等医学影像分析中展现出强大潜力。然而，现有模型往往存在计算成本高、可解释性差以及对分布外（Out-of-Distribution, OOD）样本（即模型训练时未见过的异常或无关输入）识别能力不足等问题，这限制了其在临床环境，特别是资源有限场景中的安全部署。

为了应对这些挑战，来自加纳大学教育系和克瓦米·恩克鲁玛科技大学的研究团队在《IEEE Access》上发表了题为“SwinCNN+OE: A Swin Transformer and CNN Architecture for Breast Histopathology Classification With OOD and Grad-CAM Integration”的研究论文。该研究旨在设计并评估一种融合深度学习架构（SwinCNN+OE），用于实现鲁棒且可解释的乳腺癌组织病理学图像分类。该模型的创新之处在于将CNN擅长捕捉局部特征（如细胞纹理、核形态）的能力与Swin Transformer善于建模全局上下文信息（如组织架构）的优势相结合。更重要的是，研究集成了异常暴露（Outlier Exposure, OE）训练策略和基于能量的OOD评分机制，以提升模型在面对未知或异常样本时的安全性。同时，通过梯度加权类激活映射（Grad-CAM）提供视觉解释，使模型的决策过程对临床医生透明可溯。

研究人员开展了一项系统的实验研究，利用公开的乳腺癌组织病理学图像数据集（源自Spanhol等人的工作，主要使用400X放大倍率的图像），经过严格的数据预处理（包括颜色归一化、图像尺寸调整至224x224像素、以及数据增强如随机翻转、旋转等），构建了包含良性、恶性和“未知”类别的数据集。模型采用双路径架构，一路使用EfficientNet-B0进行局部特征提取，另一路使用Swin Transformer Tiny进行全局特征提取，最后将两条路径的特征融合后进行分类。训练过程中采用了Adam优化器，并引入了加权交叉熵损失以应对类别不平衡问题。

本研究采用了几项关键技术方法：其一，构建了SwinCNN+OE混合架构，有效融合了CNN的局部特征提取和Swin Transformer的全局上下文建模能力；其二，引入了基于能量的OOD检测方法，通过计算Logits的负对数求和指数（-log∑exp(f_i(x))）作为能量分数，设定阈值以区分分布内和分布外样本；其三，应用了Grad-CAM技术，生成热力图以可视化模型决策所依据的关键图像区域，增强模型的可解释性；其四，采用了异常暴露（OE）训练策略，通过在训练集中引入“未知”类样本（来自非医学图像或其他器官医学影像），提升模型对异常输入的识别能力。实验数据集源于Spanhol等人发布的组织病理学图像公开库。

VII. EXPERIMENTAL RESULTS

A. TRAINING CONFIGURATION

模型训练配置统一，使用Adam优化器（学习率0.0005），批量大小为16，训练45个周期。训练和验证损失曲线及准确率曲线显示模型收敛稳定，未见明显过拟合。最终模型在测试集上取得了优异性能。

B. TRAINING CONFIGURATION

模型在测试集上达到了97.83%的总体准确率，精确度、召回率和F1分数分别为97.88%、97.64%和97.68%。接收者操作特征曲线下面积（AUC）为99.37%。统计检验表明，SwinCNN+OE的性能显著优于单独的EfficientNet-B0（95.12%）和Swin Transformer Tiny（96.43%）模型。

C. CLASS-WISE PERFORMANCE

分类报告显示，模型在良性、恶性和未知三个类别上均表现良好。良性类别的精确度、召回率和F1分数均为0.96；恶性类别均为0.98；未知类别的三项指标均达到1.00，表明模型能完美识别OOD样本。

D. COMPARATIVE ANALYSIS

与近期其他乳腺癌检测模型相比，SwinCNN+OE的准确率（97.83%）优于表中列出的所有基线模型，例如Garia和Hariharan的CNN预训练模型（96.25%）、Wadhwa和Kaur的DenseNet-201（95.58%）以及Chaieb等人提出的Swin Transformer与交叉注意力结合模型（97.40%）。

E. GRAD-CAM VISUALIZATION AND ENERGY SCORE FOR ODD

Grad-CAM可视化结果证实，模型在预测恶性肿瘤时，其注意力集中在与恶性肿瘤相关的生物学特征区域，如密集的细胞核和 irregular tissue structures。例如，对一例经病理确认的恶性样本，Grad-CAM热图高亮了细胞核密集区域，模型预测置信度为0.9987，能量分数为-4.6151（表明属于分布内样本）。对于OOD样本（如自然风景图），模型能正确将其归类为“Unknown”，其能量分数显著高于分布内样本（更接近-3.5阈值），且Grad-CAM未显示异常激活。

能量分数分布图进一步验证了OOD检测的有效性。真实组织病理学图像的能量分数集中在-15至-5之间，而伪造/未知样本的能量分数主要在-7至-3之间。设定-3.5为阈值后，所有未知样本均被正确识别。

F. RECEIVER OPERATING CHARACTERISTIC(ROC) CURVE AND CONFUSION MATRIX ANALYSIS

ROC曲线显示，模型对所有类别（良性、恶性、未知）的AUC均达到1.000，表明其具有极佳的区分能力。混淆矩阵分析表明，模型正确分类了54个良性样本中的54个，125个恶性样本中的123个，仅出现4例误分类。所有5个未知样本均被正确识别，无误分为良性或恶性，凸显了能量OOD检测和OE训练的有效性。

VIII. LIMITATIONS

研究也存在一些局限性。模型仅在Spanhol数据集上进行评估，其泛化能力有待在其他数据集（如BreakHis）或成像模态（如超声）上进一步验证。存在少数恶性样本被误判为良性的情况，可能与核对比度变异或罕见形态有关。此外，模型的计算资源需求可能限制其在低资源环境下的部署。

IX. CONCLUSION

本研究成功开发并验证了SwinCNN+OE混合深度学习模型，用于乳腺癌组织病理学图像的鲁棒、可解释分类。该模型通过融合EfficientNet-B0和Swin Transformer的优势，并结合Grad-CAM可视化和基于能量的OOD检测，在保持高分类精度（准确率97.83%，AUC 99.49%）的同时，显著提升了模型的透明度（通过热图解释决策依据）和安全性（能可靠识别并拒绝OOD样本，AUC达1.00）。与现有“黑箱”模型相比，该框架为临床病理诊断提供了可解释且值得信赖的AI工具，通过可视化验证和不确定性量化，有助于避免在错误输入上产生过度自信的预测，这对于医疗AI应用至关重要。未来工作可探索模型在其他数据集上的性能，整合多模态信息（如基因组数据），并优化模型以适应资源受限的硬件环境。

热点排行

新闻专题