《IEEE Access》:SwinCNN+OE: A Swin Transformer and CNN Architecture for Breast Histopathology Classification With OOD and Grad-CAM Integration
编辑推荐:
本研究针对乳腺癌病理诊断中模型可解释性差、对分布外样本识别能力不足的问题,开发了SwinCNN+OE混合架构。该模型结合EfficientNet-B0的局部特征提取能力与Swin Transformer的全局表征优势,集成Grad-CAM可视化与基于能量的OOD检测。实验结果显示,模型总体准确率达97.83%,AUC为99.49%,并能完美识别未知样本(AUC=1.00)。该研究为临床病理AI应用提供了兼具高精度、可解释性与安全性的解决方案。
在全球范围内,乳腺癌是女性中最常见且致死率较高的恶性肿瘤之一。据统计,2024年全球新发病例约230万,导致67万人死亡。尽管高收入国家在乳腺癌的检测与治疗方面取得了显著进展,但在低收入和中等收入国家(LMICs),尤其是撒哈拉以南非洲(SSA)地区,由于诊断延迟、筛查项目覆盖率低以及治疗资源有限,乳腺癌死亡率依然居高不下。以加纳为例,乳腺癌是该国最常见的癌症,2020年成为癌症相关死亡的第二大原因。约70%的加纳女性患者在就诊时已处于癌症晚期,这主要归因于健康意识薄弱、文化信仰以及筛查服务可及性差。加纳缺乏全国性的乳腺癌筛查计划,主要依赖机会性筛查,且仅有约41%的医院提供乳腺癌病理服务,导致诊断准确性和时效性面临严峻挑战。
面对医疗资源分布不均和病理专家短缺的现实困境,利用人工智能(AI)技术辅助乳腺癌诊断已成为研究热点。卷积神经网络(CNN)和视觉Transformer(ViT)等深度学习模型在乳腺X线摄影、组织病理学和磁共振成像(MRI)等医学影像分析中展现出强大潜力。然而,现有模型往往存在计算成本高、可解释性差以及对分布外(Out-of-Distribution, OOD)样本(即模型训练时未见过的异常或无关输入)识别能力不足等问题,这限制了其在临床环境,特别是资源有限场景中的安全部署。
为了应对这些挑战,来自加纳大学教育系和克瓦米·恩克鲁玛科技大学的研究团队在《IEEE Access》上发表了题为“SwinCNN+OE: A Swin Transformer and CNN Architecture for Breast Histopathology Classification With OOD and Grad-CAM Integration”的研究论文。该研究旨在设计并评估一种融合深度学习架构(SwinCNN+OE),用于实现鲁棒且可解释的乳腺癌组织病理学图像分类。该模型的创新之处在于将CNN擅长捕捉局部特征(如细胞纹理、核形态)的能力与Swin Transformer善于建模全局上下文信息(如组织架构)的优势相结合。更重要的是,研究集成了异常暴露(Outlier Exposure, OE)训练策略和基于能量的OOD评分机制,以提升模型在面对未知或异常样本时的安全性。同时,通过梯度加权类激活映射(Grad-CAM)提供视觉解释,使模型的决策过程对临床医生透明可溯。
研究人员开展了一项系统的实验研究,利用公开的乳腺癌组织病理学图像数据集(源自Spanhol等人的工作,主要使用400X放大倍率的图像),经过严格的数据预处理(包括颜色归一化、图像尺寸调整至224x224像素、以及数据增强如随机翻转、旋转等),构建了包含良性、恶性和“未知”类别的数据集。模型采用双路径架构,一路使用EfficientNet-B0进行局部特征提取,另一路使用Swin Transformer Tiny进行全局特征提取,最后将两条路径的特征融合后进行分类。训练过程中采用了Adam优化器,并引入了加权交叉熵损失以应对类别不平衡问题。
本研究采用了几项关键技术方法:其一,构建了SwinCNN+OE混合架构,有效融合了CNN的局部特征提取和Swin Transformer的全局上下文建模能力;其二,引入了基于能量的OOD检测方法,通过计算Logits的负对数求和指数(-log∑exp(f_i(x)))作为能量分数,设定阈值以区分分布内和分布外样本;其三,应用了Grad-CAM技术,生成热力图以可视化模型决策所依据的关键图像区域,增强模型的可解释性;其四,采用了异常暴露(OE)训练策略,通过在训练集中引入“未知”类样本(来自非医学图像或其他器官医学影像),提升模型对异常输入的识别能力。实验数据集源于Spanhol等人发布的组织病理学图像公开库。
VII. EXPERIMENTAL RESULTS
A. TRAINING CONFIGURATION
模型训练配置统一,使用Adam优化器(学习率0.0005),批量大小为16,训练45个周期。训练和验证损失曲线及准确率曲线显示模型收敛稳定,未见明显过拟合。最终模型在测试集上取得了优异性能。
B. TRAINING CONFIGURATION
模型在测试集上达到了97.83%的总体准确率,精确度、召回率和F1分数分别为97.88%、97.64%和97.68%。接收者操作特征曲线下面积(AUC)为99.37%。统计检验表明,SwinCNN+OE的性能显著优于单独的EfficientNet-B0(95.12%)和Swin Transformer Tiny(96.43%)模型。
C. CLASS-WISE PERFORMANCE
分类报告显示,模型在良性、恶性和未知三个类别上均表现良好。良性类别的精确度、召回率和F1分数均为0.96;恶性类别均为0.98;未知类别的三项指标均达到1.00,表明模型能完美识别OOD样本。
D. COMPARATIVE ANALYSIS
与近期其他乳腺癌检测模型相比,SwinCNN+OE的准确率(97.83%)优于表中列出的所有基线模型,例如Garia和Hariharan的CNN预训练模型(96.25%)、Wadhwa和Kaur的DenseNet-201(95.58%)以及Chaieb等人提出的Swin Transformer与交叉注意力结合模型(97.40%)。
E. GRAD-CAM VISUALIZATION AND ENERGY SCORE FOR ODD
Grad-CAM可视化结果证实,模型在预测恶性肿瘤时,其注意力集中在与恶性肿瘤相关的生物学特征区域,如密集的细胞核和 irregular tissue structures。例如,对一例经病理确认的恶性样本,Grad-CAM热图高亮了细胞核密集区域,模型预测置信度为0.9987,能量分数为-4.6151(表明属于分布内样本)。对于OOD样本(如自然风景图),模型能正确将其归类为“Unknown”,其能量分数显著高于分布内样本(更接近-3.5阈值),且Grad-CAM未显示异常激活。
能量分数分布图进一步验证了OOD检测的有效性。真实组织病理学图像的能量分数集中在-15至-5之间,而伪造/未知样本的能量分数主要在-7至-3之间。设定-3.5为阈值后,所有未知样本均被正确识别。
F. RECEIVER OPERATING CHARACTERISTIC(ROC) CURVE AND CONFUSION MATRIX ANALYSIS
ROC曲线显示,模型对所有类别(良性、恶性、未知)的AUC均达到1.000,表明其具有极佳的区分能力。混淆矩阵分析表明,模型正确分类了54个良性样本中的54个,125个恶性样本中的123个,仅出现4例误分类。所有5个未知样本均被正确识别,无误分为良性或恶性,凸显了能量OOD检测和OE训练的有效性。
VIII. LIMITATIONS
研究也存在一些局限性。模型仅在Spanhol数据集上进行评估,其泛化能力有待在其他数据集(如BreakHis)或成像模态(如超声)上进一步验证。存在少数恶性样本被误判为良性的情况,可能与核对比度变异或罕见形态有关。此外,模型的计算资源需求可能限制其在低资源环境下的部署。
IX. CONCLUSION
本研究成功开发并验证了SwinCNN+OE混合深度学习模型,用于乳腺癌组织病理学图像的鲁棒、可解释分类。该模型通过融合EfficientNet-B0和Swin Transformer的优势,并结合Grad-CAM可视化和基于能量的OOD检测,在保持高分类精度(准确率97.83%,AUC 99.49%)的同时,显著提升了模型的透明度(通过热图解释决策依据)和安全性(能可靠识别并拒绝OOD样本,AUC达1.00)。与现有“黑箱”模型相比,该框架为临床病理诊断提供了可解释且值得信赖的AI工具,通过可视化验证和不确定性量化,有助于避免在错误输入上产生过度自信的预测,这对于医疗AI应用至关重要。未来工作可探索模型在其他数据集上的性能,整合多模态信息(如基因组数据),并优化模型以适应资源受限的硬件环境。