使用 DenseNet121 和 EfficientNetB0 构建的混合 CNN 模型，用于脑肿瘤的检测与分类

《Intelligent Systems with Applications》：Explainable Hybrid CNN Model Using DenseNet121, and EfficientNetB0 for Brain Tumor Detection and Classification

【字体：大中小】 时间：2026年05月11日 来源：Intelligent Systems with Applications 4.3

编辑推荐：

　　马哈茂德·A·穆罕默德 | 尤瑟夫·S·阿尔萨哈菲 | 拉尼娅·萨拉玛 | 艾哈迈德·M·埃尔谢韦 | 卡利德·M·霍斯尼苏伊士大学计算机与信息学院计算机科学系，邮政信箱：43221，苏伊士，埃及 **摘要** 早期检测和分类脑肿瘤至关重要，因为它们有可能危及生命

　　马哈茂德·A·穆罕默德 | 尤瑟夫·S·阿尔萨哈菲 | 拉尼娅·萨拉玛 | 艾哈迈德·M·埃尔谢韦 | 卡利德·M·霍斯尼
苏伊士大学计算机与信息学院计算机科学系，邮政信箱：43221，苏伊士，埃及

**摘要**
早期检测和分类脑肿瘤至关重要，因为它们有可能危及生命。然而，由于组织学上的差异很大，人工智能模型难以在不同类型的肿瘤之间进行泛化。最近在人工智能领域取得的突破成功地利用了各种深度学习方法来准确检测和分类脑恶性肿瘤。因此，这些方法必须精确，并能有效解释其发现结果，因为误诊可能导致不当治疗和康复时间延长。因此，我们介绍了一种可解释的混合卷积神经网络，该网络利用了DenseNet121和EfficientNetB0进行迁移学习。该模型不依赖于从独立网络中提取的特征，从而提高了其分类各种类型脑肿瘤的能力。此外，还使用了一种新的分类器，其中包括全连接层和SoftMax层。该方法通过两个公开可用的数据集进行了评估。第一个数据集包含三种类型的脑肿瘤：脑膜瘤、胶质瘤和垂体瘤；另一个数据集包含两类：非肿瘤和肿瘤扫描。该模型在三类数据集和两类数据集上的准确率分别为99.13%和99.56%，精确度分别为98.94%和99.56%，召回率分别为98.98%和99.56%，F1分数分别为98.96%和99.56%。与以往的研究相比，所提出的方法在分类MRI扫描中的脑肿瘤方面表现更优，并且实现了更高的可信度。

**1. 引言**
肿瘤是可能在任何器官中出现的异常细胞。它们可以是恶性的或良性的；恶性肿瘤是癌性的，其细胞会侵袭性地扩散。相比之下，良性肿瘤局限于原位，不会扩散到身体的其他部位。大脑是人体最重要的器官之一，与控制一切的神经系统相连。脑肿瘤是最致命的肿瘤之一，会影响人类的生命功能。原发性脑肿瘤和中枢神经系统肿瘤被分为100多种组织学类型（Forjaz等人，2021年）。胶质瘤、脑膜瘤和垂体瘤是最常见的三种脑癌类型。脑膜瘤起源于包围大脑和脊髓的膜——脑膜；胶质瘤起源于支持大脑神经元的胶质细胞；垂体瘤起源于大脑底部的小腺体——垂体。在疾病初期，准确的诊断有助于快速治疗。包括医疗保健在内的许多领域都利用了人工智能的最新进展，实现了更快、更准确的自动化诊断。研究人员采用了各种机器学习和深度学习方法来识别和分类脑癌。机器学习技术使用算法分析数据并识别模式以做出预测（An等人，2023年），例如支持向量机、k最近邻、决策树和朴素贝叶斯。与此同时，深度学习方法利用模仿人脑的神经网络来定义复杂模式（Renugadevi等人，2023年；Adamu等人，2024年；Lamba等人，2024年；Ramtekkar等人，2023年；Mathivanan等人，2024年）。

迁移学习是一种技术，它重新利用在大量数据上训练的模型来处理同一领域内的相似任务。从零开始训练神经网络需要大量时间和资源。此外，模型需要大量数据才能收敛。预训练模型能高效地从相似任务中提取特征并减少训练时间（Hosny和Mohammed，2025年），但它们需要针对新任务进行优化。当数据集采样不足时，医学图像分析严重依赖迁移学习来提高泛化和性能（Hosny等人，2025年；Bibi等人，2024年；Disci等人，2025年）。许多研究（Hosny等人，2025年；Bibi等人，2024年；Disci等人，2025年）采用了迁移学习。

尽管有多种研究方法用于识别和分类各种脑肿瘤，但仍存在许多研究空白和挑战。脑肿瘤的分类是一项具有挑战性的任务，因为它们表现出广泛的物理形态，包括形状、大小和位置。这些不规则的肿瘤形态使得依赖于单一模型特征的独立网络难以增强输入表示，导致跨肿瘤类型的泛化能力差。此外，获取大量标注良好的脑肿瘤MRI图像数据集也非常困难。某些类型的脑肿瘤较为罕见，导致数据集不平衡，这可能会使AI模型偏向于更常见的类型。AI模型，尤其是深度学习模型，可能需要大量训练时间，并且由于其决策过程不透明，通常被视为“黑箱”。利用AI技术检测和分类各种脑肿瘤至关重要，因为它可以帮助神经科医生和外科医生准确识别肿瘤类型和边界。放射科医生的手动诊断耗时且容易出错，任何误诊都可能导致治疗延误。深度学习通过自动识别MRI中的复杂模式，提供了高准确性和一致性，从而提供了有希望的解决方案。此外，最近在可解释AI方面的进展增加了人们对深度学习模型的信任，并为获得的结果提供了理由。因此，我们提出了一种可解释的混合CNN方法，利用DenseNet121和EfficientNetB0进行迁移学习，以检测和分类三种类型的脑癌：脑膜瘤、胶质瘤和垂体瘤。

**2. 相关工作**
近年来，由于脑肿瘤分类和检测的重要性，备受关注。例如，Sumona等人（Sumona等人，2025年）设计了结合ResNet50、DenseNet121和Xception的混合模型架构。每个网络学习到的特征通过一种称为潜在空间投影融合的最新融合技术进行融合。这种融合技术将三个网络的特征图投影到一个低维的潜在空间中，然后再进行拼接。使用可解释技术（如Grad-CAM）提供了对模型考虑的关键特征的清晰洞察。该策略使用组合数据集进行了评估，准确率为94%。Iftikhar等人（Iftikhar等人，2025年）将可解释AI与CNN结合，提供了一个透明的模型。他们的CNN模型主要由卷积层、ReLU激活层和max-pooling层组成。为了丰富特征表示，随着模型深度的增加，滤波器的数量也增加。分类器包括两个密集层、ReLU激活层和SoftMax层，以产生输出概率。作者使用了三种不同的可解释技术（Grad-CAM、SHAP和LIME）来突出显示肿瘤位置。设计的CNN模型在多类数据集上的准确率为98.95%。Panigrahi等人（Panigrahi等人，2025年）研究了两种结合预训练模型与多头自注意力和挤压-激励块的混合技术。从预训练模型中提取的特征分别送入这两个块进行进一步处理。多头自注意力有助于在更远的距离跟踪肿瘤边界。作者使用Dice相似性和交集-并集指标比较了Grad-CAM和LIME，定量分析表明Grad-CAM与肿瘤位置的吻合度更高。最佳组合是DenseNet201与多头自注意力，准确率为99.41%。Rasheed等人（Rasheed等人，2025年）提出了一个结合Grad-CAM的微调DenseNet121以实现可解释性。初始层被冻结以保留其学习到的知识，而新添加的层保持未冻结状态，以便调整权重并从自定义数据集中学习。比较了三种预训练模型的Grad-CAM解释，以确定每个模型关注的区域。所提出的DenseNet121的准确率达到了96.90%，优于预训练模型。

一些研究采用了混合方法以提高脑肿瘤分类的准确性。Yadav等人（Yadav等人，2025年）引入了一个结合CNN和ViT的混合模型，以提取局部特征并捕捉长距离全局依赖关系。输入图像使用双流方法处理，从CNN和ViT中提取特征。然后将提取的特征融合以丰富输入图像的表示。此外，添加的专家混合层有助于将融合特征引导到专家子网络。该模型在多类数据集上的准确率为98.9%。Aamir等人（Aamir等人，2022年）提出了一种使用EfficientNet和ResNet-50的混合特征提取方法。采用了光照增强技术来提高低质量MRI图像的对比度。此外，在预处理过程中还使用了非拉伸方法来改善纹理信息。他们的方法在三类数据集上使用5折交叉验证进行了评估，准确率为98.95%。Ramzan等人（Remzan等人，2024年）提出了一种集成方法用于特征提取。他们使用了多种预训练模型来获取多样化的特征。提取的特征使用机器学习分类器进行评估，选择了前三名特征来构建特征集成模型。他们的方法在四类数据集上的准确率为96.67%。Kukadiya等人（Kukadiya等人，2025年）提出了一个使用预训练的VGG16、VGG19、InceptionV3和DenseNet121的集成模型。集成模型的预测结果使用软投票规则得出。最佳优化函数是Adam，与其他函数进行了比较。集成模型的准确率达到了97%。

研究人员使用迁移学习来减少训练时间和对额外训练样本的需求。Malla等人（Malla等人，2023年）介绍了一种基于迁移学习的深度CNN，以预训练的VGG16为例。此外，他们还使用了数据增强，通过在更多样本上训练模型来提高性能。全局平均池化层解决了梯度消失和过拟合问题。他们的工作在Figshare数据集上的准确率为98.93%。Zulfiqar等人（Zulfiqar等人，2023年）提出了一种基于微调的迁移学习策略，用于预训练的EfficientNets。他们在包含三种脑肿瘤类型的公开数据集上微调了五个版本的预训练EfficientNets（EfficientNetB0–EfficientNetB4）。此外，还使用数据增强来减轻过拟合。EfficientNetB2的准确率最高，为98.86%。Islam等人（Islam等人，2023年）探索了一种新方法，使用迁移学习选择了六个预训练模型，并仅基于测试准确率选择了前三名模型。这三个模型是VGG16、InceptionV3和DenseNet121，用于形成投票集成和平均CNN模型。接下来，他们分析了结果以选择全局模型。他们的研究在二类脑肿瘤数据集上的准确率为96.68%。Anagun等人（Anagun等人，2023年）提出了一种基于CNN的系统，使用EfficientNetv2和Ranger优化器。他们使用EfficientNeetv2提取特征，并使用Ranger优化器优化模型参数。此外，图像经过去噪和直方图均衡化预处理。他们的工作在二类数据集上的准确率为99%。

总之，研究人员使用了多种方法来提高脑肿瘤分类的精度。尽管混合模型取得了更好的性能，但它们面临几个问题，包括较长的训练和推理时间以及较大的参数规模。此外，融合的特征可能包含冗余信息，这对网络来说可能成为噪声。由于数据稀缺，迁移学习模型在医学图像分析中得到了广泛应用。然而，预训练模型是在与任务相关的数据集不同的领域中训练的。此外，预训练模型需要适当调整以适应特定领域的知识。可解释的AI可以帮助解释模型为何产生这些结果，从而增加对AI模型的信任和信心。然而，这些解释有时可能会产生误导，因为它们受到模型性能和输入的影响。许多研究没有提供解释的定量分析，这使得评估其质量变得困难。表1总结了几项使用不同方法检测和分类脑肿瘤的研究，指出了它们的主要贡献、优势以及局限性。

表1. 使用不同方法的相关研究概述。
| 研究 | 贡献 | 准确率 | 数据集 | 优势 | 局限性 |
|----|-------|------|------|---------|
| Sumona等人（2025） | 混合模型架构，结合ResNet50、DenseNet121和Xception | 94% | | | |
| Cheng等人（2017） | | | | |
| Bhuvaji等人（Kadam等人，2026） | | | | |
| Hamada等人（2024） | 模型具有深度特征提取能力 | | 计算成本高 | |
| Iftikhar等人（2025） | 基于CNN的模型结合了可解释AI | 98.95% | | |
| Nickparvar等人（2026） | 模型提供结果解释，有助于识别最重要的特征 | 从零开始训练CNN模型耗时 | |
| Panigrahi等人（2025） | 两种混合技术，结合预训练模型和多头自注意力机制及挤压-激励模块 | 99.41% | | |
| Hamada等人（2024） | 注意力机制能有效捕捉长距离依赖关系 | 测试集样本数量不足 | |
| Rasheed等人（2025） | 微调后的DenseNet121结合Grad-CAM | 96.90% | | |
| Nickparvar等人（2026） | 模型提供可解释性，突出显示肿瘤区域 | 未达到优于最新研究的高准确率 | |
| Yadav等人（2025） | 结合CNN和ViT的混合模型 | 98.9% | 综合数据集 | 模型结合了局部和全局特征，增强了图像信息 | |
| Amir等人（2022） | 基于EfficientNet和ResNet50的混合特征提取方法 | 98.95% | | 模型存在偏差，误分类了大量脑膜瘤样本 | |
| Ramzan等人（2024） | 使用预训练模型进行集成特征提取，并通过机器学习分类器进行分类 | 96.67% | | |
| Bhuvaji等人（Kadam等人，2026） | 集成学习提高了分类性能 | 结合三个模型特征需要大量资源 | |
| Kukadiya等人（2025） | 使用预训练的VGG16、VGG19、InceptionV3和DenseNet121的集成模型 | 97% | | |
| Cheng等人（2017） | 提高了分类性能 | 需要大量计算资源 | |
| Malla等人（2023） | 基于迁移学习的深度CNN，使用预训练的VGG16 | 98.93% | | 使用全局平均池化层减少过拟合 | |
| Zulfiqar等人（2023） | 基于微调的迁移学习策略，用于预训练的EfficientNets | 98.86% | | EfficientNetB2计算成本不高 | |
| Islam等人（2023） | 使用VGG16、InceptionV3和DenseNet121的集成方法 | 96.68% | | 集成模型减少了单个模型的错误 | |
| Hamada等人（2024） | 集成模型对测试集的错误较少，因为集成了多个模型的优点 | 模型对测试集出现过拟合 | |
| Anagun等人（2023） | 基于CNN的系统，使用EfficientNetv2和Ranger优化器 | 99% | | 对高准确率的测试集具有鲁棒性 | 使用了特征图可视化，但模型缺乏完全透明度 | |

3. 数据集和预处理
在这项研究中，使用了两个数据集：数据集1（Cheng，2017）和数据集2（Hamada，2024）。数据集1可在Figshare上公开获取，包含3064张T1加权增强图像，这些图像收集于2005年至2010年间，来自中国天津医科大学总医院和中国广州南方医院。数据集包含三种不同的肿瘤类型：脑膜瘤、胶质瘤和垂体瘤。切片厚度为6毫米，切片间隔为1毫米，每张图像的大小为512×512像素，像素尺寸为0.49×0.49毫米2。扫描结果保存为.mat文件，包括轴向、冠状和矢状三个方向。表2和图1提供了数据集1的详细信息和示例。数据集2也在Kaggle上公开，包含3000张样本，保存为.jpg文件。这些样本分为两类，每类包含1500张灰度图像，分辨率各不相同。表3展示了数据集2的数据分布，图2显示了健康和恶性MRI扫描的图像。

表2. 数据集1的MRI扫描详情
| 类别 | 扫描数量 | 脑膜瘤 | 胶质瘤 | 垂体瘤 | 总计 |
| ---- | ---- | ---- | ---- | ---- | ---- |
| 脑膜瘤 | 708 | | 930 | | 3064 |
| 垂体瘤 | | 1426 | | |
| 总计 | 708 | | 1426 | 3064 |

下载：高分辨率图像（718KB） | 下载：全尺寸图像 |
图1. 数据集1中三种类型的肿瘤（脑膜瘤、胶质瘤和垂体瘤）在三个不同平面上的MRI图像。

表3. 数据集2的MRI扫描详情
| 类别 | 扫描数量 | 肿瘤 | 非肿瘤 | 总计 |
| ---- | ---- | ---- | ---- | ---- |
| 肿瘤 | 1500 | | 1500 | | 3000 |
| 非肿瘤 | | | 1500 | | |
| 总计 | 1500 | | 1500 | 3000 |

下载：高分辨率图像（461KB） | 下载：全尺寸图像 |
图2. 数据集2中的肿瘤和非肿瘤样本。

两个数据集的扫描结果在使用前都进行了预处理，以提取感兴趣区域（ROI）。首先，对每张扫描图像应用阈值将其转换为黑白图像。然后，通过获取每条边的四个极值点来裁剪图像。最后，由于计算处理限制，将图像大小调整为256×256像素。图3和算法1描述了提取ROI的预处理步骤。此外，两个数据集都被分为两部分：70%用于训练，30%用于测试。对于数据集1，训练集和测试集的分配如下：2146张图像（496个脑膜瘤，999个胶质瘤，651个垂体瘤）和918张图像（212个脑膜瘤，427个胶质瘤，279个垂体瘤）。对于数据集2，训练集和测试集的分配如下：2100张图像（1050个肿瘤样本，1050个非肿瘤样本）和900张图像（450个肿瘤样本，450个非肿瘤样本）。此外，还应用了数据增强技术来处理类别不平衡问题并增加样本数量。图4展示了数据增强的配置选项。

下载：高分辨率图像（286KB） | 下载：全尺寸图像 |
图3. 提取ROI的预处理步骤。(a) 原始图像。(b) 阈值。(c) 裁剪和调整大小。

算法1. MRI数据的预处理。
下载：高分辨率图像（680KB） | 下载：全尺寸图像 |
图4. 建议的工作中应用的数据增强技术。(a) 输入图像。(b) 旋转。(c) 锯切。(d) 水平翻转。(e) 缩放。(f) 宽度移动。(g) 高度移动。

4. 提出的方法
本节全面解释了DenseNet121和EfficientNetB0的特征提取过程。强调了可解释模型的概念，提供了有关混合方法的更多细节，并介绍了所使用的具体超参数。如图5所示的工作流程图所示，使用了两个数据集：数据集1和数据集2。这两个数据集经过预处理，通过阈值处理、裁剪和大小调整来提取ROI。特征提取阶段使用了预训练的DenseNet121和EfficientNetB0模型。提取的特征随后被输入分类器，分类器包含全连接层，并使用SoftMax函数。使用Grad-CAM和SHAP来解释混合模型的输出，突出显示肿瘤区域。混合模型通过多个标准进行了评估，包括训练-测试分割、交叉验证和计算复杂性。

下载：高分辨率图像（552KB） | 下载：全尺寸图像 |
图5. 提出的可解释混合方法的工作流程图。

4.1. DenseNet121
DenseNet121（Huang等人，2017）是一种属于DenseNet系列的CNN架构，以其高效的参数使用和特征重用而闻名。它具有121层，广泛用于对象识别和图像分类等应用。其特点是密集的连接性，每层都接收来自所有前一层的数据，有助于梯度流动并提高特征重用效率。特征提取过程从将输入图像输入网络开始，图像通过网络中多个密集块进行处理，这些块之间穿插着过渡层。每个密集块包含多个卷积层，这些层执行卷积、批量归一化和ReLU激活。过渡层使用1×1卷积和池化来减小特征图的大小。网络的最后一个卷积层产生的特征图包含了图像的高级抽象信息。这个特征图作为特征表示，捕捉到了重要的模式和结构。

设第l层的输出为ol，其定义如下（公式1）：
(1) ol = Hl([x0, x1, x2, …, xl-1])
其中[x0, x1, x2, …, xl-1]是所有先前层的特征图的串联，Hl(·)是一个复合函数，包含三个连续操作：批量归一化、ReLU和3×3卷积。

4.2. EfficientNetB0
EfficientNetB0（Tan和Le，2019）是EfficientNet系列中最小的变体，旨在在保持强大性能的同时平衡模型大小和计算成本。它非常适合各种计算机视觉任务，如图像分割和分类。特征提取过程从调整大小和归一化的输入图像开始，然后通过一系列倒置残差块进行处理，每个块包含深度可分离的卷积、批量归一化和Swish激活函数。这些块的分辨率和通道深度各不相同，以统一的方式调整宽度、深度和分辨率。引入了挤压-激励模块来适应性地重新校准逐通道的特征响应，增强了网络关注信息性特征的能力。EfficientNet模型的主要思想是使用复合系数φ来以统一的方式控制模型的宽度、深度和分辨率，如公式（2）所示：
depth = αφ
width = βφ
resolution = γφ
其中α、β、γ分别是指定网络深度、宽度和分辨率的常数。

4.3. 可解释AI技术
Grad-CAM提供基于特征的解释（Chaddad等人，2023）。我们在混合模型中部署了Grad-CAM来定位部分区域，显著影响最终输出。此外，任何CNN都可以使用它而无需修改其架构或重新训练（Selvaraju等人，2017）。Grad-CAM应用于DenseNet121和EfficientNetB0的最后一个卷积层，因为这一层在高层次语义和空间信息之间提供了理想的平衡。它是通过将梯度信息反向传播到最后一个卷积层来计算的。该混合模型中的每个结果都使用两个热图作为叠加层来解释。

SHAP（Lundberg和Lee，2017）通过量化每个特征对预测的贡献来提供与模型无关的解释。该过程首先将图像划分为若干区域以屏蔽其中的一些区域。SHAP通过评估包含或排除某个特征时模型预测的变化来计算每个特征的贡献。这导致为每个特征分配了重要性值，表明它具有正面或负面影响。生成的SHAP热图用红色表示正面值，用蓝色表示负面影响值，可以叠加在输入图像上以突出显示重要特征。

4.4. 混合模型
混合方法包括两个路径：分类和解释。在分类路径中，256×256的输入图像被发送到两个预训练模型DenseNet121和EfficientNetB0以提取特征。每个模型处理输入图像以提取空间信息，然后将其传递给最后一个卷积层。通过对最后一个卷积层的输出应用全局平均池化来获得每个网络的特征向量。然后，一个拼接层将两个特征向量融合，并将结果向量传递给下一层，从而启动分类过程。此外，分类器使用dropout、全连接层和SoftMax层学习提取的模式。在解释路径中，类别得分被反向传播到两个模型的最后一个卷积层以计算激活梯度。计算出的梯度产生了目标类别的重要性权重（Wnc）。然后，计算激活图的加权组合，接着应用ReLU得到每个网络的热图。将alpha通道应用于热图，使其半透明，并作为输入图像上的叠加层，突出显示最具影响力的区域。算法2提供了混合分类模型的更多细节。图6展示了可解释混合方法的架构。

算法2. 使用迁移学习的混合CNN用于脑肿瘤分类。
下载：高分辨率图像（1MB） | 下载：全尺寸图像 |
图6.所提出的可解释混合模型的架构。考虑一个输入的MRI图像，记为I，其定义如方程（3）所示：(3)I∈RH×W×C，其中R是实数集，H、W、C分别是图像的高度、宽度和通道数。在特征提取过程中，输入图像I被送入两个网络DenseNet121和EfficientNetB0，以提取两个特征图，如方程（4）和（5）所表示：(4)Fd=DenseNet121(I)，(5)Fe=EfficientNetB0(I)，其中Fd和Fe分别是DenseNet121和EfficientNetB0的特征向量。提取的特征向量通过一个连接层合并，如方程（6）所示：(6)Ffused=[Fd,Fe]，其中Ffused是DenseNet121和EfficientNetB0向量合并后的特征向量。合并后的特征通过一个全连接分类器，如方程（7）所示：(7)z=WFfused+b，其中z是原始输出向量，每个zi对应于类别i的原始得分，W是权重矩阵，b是偏置向量。最后，为了在多类别分类任务中获得分类概率，原始输出向量z通过SoftMax函数处理，如方程（8）所示：(8)SoftMax(zi)=ezi∑j=1Kezj，其中K是类别总数，zj对应于类别j的原始得分。然而，为了在二分类任务中获得分类概率，原始输出向量z通过Sigmoid函数处理，如方程（9）所示：(9)Sigmoid(zi)=11+e?zi。

5. 超参数
使用自适应矩估计（Adam）优化器（Kingma和Ba，2014年），网络训练了25个周期，初始学习率为0.0001，如果连续3个周期准确性没有提高，则将学习率减半。训练过程中监控训练和验证准确性的改进情况。为了防止过拟合，对提出的分类器应用了两种主要方法。首先，使用dropout层（Srivastava等人，2014年），这是一种主动训练技术，它以给定的丢弃率随机丢弃神经元。其次，L2正则化（Cortes等人，2012年）是一种在损失函数中添加惩罚项的技术，鼓励训练参数保持较小。参数值是基于我们在数据集1上进行的一些实验选择的，以确保每个值都能提高模型的性能，如图7所示。表4列出了混合方法中使用的超参数。

下载：下载高分辨率图像（414KB）
下载：下载全尺寸图像
图7. 不同超参数值对混合模型性能的影响。
表4. 混合方法中使用的超参数。
参数值优化器周期数批量大小初始学习率泄放率 L2正则化惩罚

5. 结果
本节介绍了所使用的评估指标，描述了交叉验证，展示了Grad-CAM和SHAP的结果，并将提出的方法与现有方法和研究进行了比较。评估过程是评估计算机辅助诊断系统性能的重要阶段。两个数据集被分为70:30的训练集和测试集。本研究主要使用了Python 3、Scikit-learn和TensorFlow，在带有Nvidia RTX 3050图形处理单元（GPU）和32GB内存的环境中运行。

5.1. 评估指标
混淆矩阵是一种广为人知的指标，用于通过计算每个类别的实际实例和预测实例来评估深度学习模型的性能。此外，混淆矩阵还可以产生其他重要度量，如准确性、精确度、召回率和F1分数。表5显示了一个混淆矩阵的例子。
表5. 混淆矩阵示例。
实际值空单元预测值正类负类正类真正例假正例负类假负例
真正例（TP）：正确分类为正类的预测实例。
假正例（FP）：错误分类为正类的预测实例。
真正例（TN）：正确分类为负类的预测实例。
假负例（FN）：错误分类为负类的预测实例。
本研究中使用的其他评估指标包括：
准确性表示为准确预测的观察数量与总观察数量的比例。准确性由方程（10）给出：(10)Accuracy=TP/TN+FP+TN+FN
精确度表示为正确预测为正类的观察数量与所有预测为正类的观察数量的比例。精确度由方程（11）给出：(11)Precision=TP/(TP+FP)
召回率（也称为敏感性）表示正确预测为正类的观察数量与其总观察数量的比例。召回率由方程（12）给出：(12)Recall=TP/(TP+FN)
F1分数是通过平均精确度和召回率计算得出的。F1分数由方程（13）给出：(13)F1-score=2×Precision×Recall/(Precision+Recall)

图8和图9展示了混合模型在25个周期内对于数据集1和2的训练和验证准确率。数据集1和2的训练准确率从第一周期的81%和87%提高到了最后一个周期的100%。数据集1和2的验证准确率分别从92.5%和98%提高到了99%和99.3%。还可以观察到，对于数据集1，两条曲线在第18周期后趋于一致，而对于数据集2，则在第11周期后趋于一致。

下载：下载高分辨率图像（602KB）
下载：下载全尺寸图像
图8. 数据集1的混合模型训练和验证准确率曲线。
下载：下载高分辨率图像（596KB）
下载：下载全尺寸图像
图9. 数据集2的混合模型训练和验证准确率曲线。
图10显示了两个数据集的分类混淆矩阵。对于数据集1，混合模型正确分类了99.3%的胶质瘤样本、98.58%的脑膜瘤样本和99.28%的垂体样本。对于数据集2，模型正确分类了99.78%的非肿瘤实例和99.33%的肿瘤实例。总体而言，混合模型在多个类别中成功分类了大量病例，且错误分类很少。

下载：下载高分辨率图像（300KB）
下载：下载全尺寸图像
图10. 数据集1和2的混合模型混淆矩阵。
最后，表6、表7和图11展示了两个数据集的准确性、精确度、召回率和F1分数。该模型在数据集1上的准确率为99.13%，精确率为98.94%，召回率为98.98%，F1分数为98.96%。按类别来看，模型的F1分数最高为胶质瘤类的99.53%，最低为脑膜瘤类的98.12%。数据集2的准确性、精确度、召回率和F1分数分别为99.56%。
表6. 数据集1的混合模型评估指标。
类别精确度召回率 F1分数
胶质瘤 99.76% 99.30% 99.53%
脑膜瘤 97.66% 98.58% 98.12%
垂体 99.28% 99.28% 99.28%
平均值 98.94% 98.98% 98.96%
平均值 99.13%

表7. 数据集2的混合模型评估指标。
类别精确度召回率 F1分数
非肿瘤 99.34% 99.78% 99.56%
肿瘤 99.78% 99.33% 99.55%
平均值 99.56% 99.56% 99.56%

下载：下载高分辨率图像（325KB）
下载：下载全尺寸图像
图11. 混合模型各种评估指标的可视化。
ROC-AUC曲线展示了模型在不同阈值下区分类别的能力。图12中的ROC曲线是通过绘制真正例率（TPR）或敏感性（Recall）与假正例率（FPR）得到的。模型在两个数据集上的AUC值约为1，仅在脑膜瘤类别上略有下降。方程（14）给出了假正例率（FPR）的公式。假正例率（FPR）是错误分类为正类的负观察数量与总负观察数量的比例。假正例率（FPR）由方程（14）给出：(14)FPR=FP/(FP+TN)

下载：下载高分辨率图像（336KB）
下载：下载全尺寸图像
图12. 数据集1和2的混合模型ROC-AUC曲线。

5.2. 交叉验证
为了进一步评估，使用了5折的分层k折交叉验证，以确保每个折叠具有与原始数据集相同的类别分布。两个数据集被分为两部分：训练集（70%）和测试集（30%）。在每次迭代中，混合模型在除了一个折叠之外的所有折叠上进行训练，该折叠用于验证。最终，在所有五个折叠上训练模型后，对其进行测试集评估，并计算平均值。表8和表9分别展示了数据集1和2的每个折叠的评估指标。如所示，模型在所有迭代中的准确率均超过了97%和99%。

表8. 数据集1的分层5折交叉验证评估指标。
指标折叠编号平均值
第一个 98.37%
第二个 97.71%
第三个 98.37%
第四个 98.26%
第五个 97.17%
精确度 98.17%
第九个 97.36%
第十个 98.15%
第十一个 97.98%
第十二个 96.72%
召回率 98.19%
第十三个 97.44%
第十四个 98.07%
第十五个 96.62%
第十六个 97.67%
F1分数 98.18%
第十七个 97.40%
第十八个 97.98%
第十九个 96.65%

表9. 数据集2的分层5折交叉验证评估指标。
指标折叠编号平均值
第一个 99.33%
第二个 99.22%
第三个 99.22%
第四个 99.33%
第五个 99.33%
第九个 99.29%
精确度 99.33%
第十个 99.22%
第十一个 99.22%
第十二个 99.33%
第十三个 99.33%
第十四个 99.29%
第十五个 99.33%
F1分数 99.33%
第九个 99.22%
第十一个 99.22%
第十六个 99.33%

5.3. 可解释AI结果
使用Grad-CAM可视化了两个预训练模型（DenseNet121和EfficientNetB0）最后一个卷积层的输出。每个预训练模型都附带一个热图，显示不同区域对预测类别的影响。热图覆盖在输入图像上，突出显示了主要区域。为了确保解释的可靠性，我们对两个数据集中的选定样本应用了Grad-CAM，这些样本来自不同的平面，包括轴向、冠状和矢状面。图13和图14分别显示了数据集1和2中一些样本的可解释混合模型的结果。Grad-CAM正确地突出了两个模型中的重要特征。然而，从EfficientNetB0在垂体案例中获得的Grad-CAM解释扩展到了非肿瘤区域。

下载：下载高分辨率图像（1022KB）
下载：下载全尺寸图像
图13. 数据集1中某些样本的Grad-CAM结果（不同平面）。
下载：下载高分辨率图像（739KB）
下载：下载全尺寸图像
图14. 数据集2中某些样本的Grad-CAM结果。
量化分析解释的质量对于评估其质量至关重要。在这项研究中，我们使用了平均下降度量来评估Grad-CAM解释的效果。平均下降度量了将获得的解释应用于输入时置信度的降低程度。如果解释具有有用特征，模型可以在置信度没有显著下降的情况下正确识别类别。另一方面，如果解释缺乏重要特征，模型无法高置信度地正确识别类别，置信度会显著下降。平均下降度是从50个随机样本计算得出的；每个样本都是从其数据集中单独选取的。如表10所示，DenseNet121提供的解释更有用，导致置信度下降较少，平均下降分别为6.20%和2.36%。EfficientNetB0的解释在置信度下降方面更为显著，尤其是在数据集1上，下降了25.19%。

表10. DenseNet121和EfficientNetB0在50个随机样本上的Grad-CAM解释平均下降度。
模型平均下降度（数据集1）平均下降度（数据集2）
DenseNet121 6.20% 2.36%
EfficientNetB0 25.19% 2.91%

使用SHAP提供了与模型无关的解释。从两个数据集中获取解释，突出显示了影响最大的特征。红色区域对预测有正面影响，而蓝色区域有负面影响。如图15所示，数据集1上的解释显示，对脑膜瘤类别有正面影响的特征子集对胶质瘤类别有负面影响。SHAP解释表明模型正确识别了相关特征。图16显示了数据集2的SHAP解释，模型清晰地识别了肿瘤案例中的特征子集，但在非肿瘤案例中未能识别。

下载：下载高分辨率图像（621KB）
下载：下载全尺寸图像
图15. 数据集1上某些样本的SHAP解释。
下载：下载高分辨率图像（593KB）
下载：下载全尺寸图像
图16. 数据集2上某些样本的SHAP解释。

5.4. 计算复杂性分析
AI模型的实时部署需要分析计算复杂性。选择DenseNet121和EfficientNetB0是因为它们的参数数量较少，它们是各自系列中的初始变体。我们分析了混合模型的计算复杂性，包括训练时间、参数数量和推理时间。图17使用迁移学习将混合模型与InceptionV3（Szegedy等人，2016年）、InceptionResNetV2（Szegedy等人，2017年）、ResNet101（He等人，2016年）和Xception（Chollet，2017年）进行了比较。混合模型的参数数量是最少的，约为1220万。然而，它的训练时间是最长的，为42.3分钟。此外，特征细化使其能够超越其他模型，达到了99.13%的准确率。考虑到在临床环境中实时部署的可行性，混合模型的每张图像推理时间为108毫秒，低于InceptionResNetV2和ResNet101。

下载：下载高分辨率图像（438KB）
下载：下载全尺寸图像
图17. 与现有模型的计算复杂性比较。

5.5. 与当前分类方法的比较
最近的研究采用了各种方法来开发用于识别多种脑肿瘤的计算机辅助诊断工具。一些研究使用了数据集1，这是一个包含三种脑肿瘤类别的多类别数据集，而其他研究使用了数据集2进行二分类。表11和图18将提出的方法与使用这两个数据集的最新研究进行了比较。尽管最近的研究采用了多种架构，如基于变压器的模型和复杂的集成模型，但基于迁移学习的可解释混合方法结合DenseNet121和EfficientNetB0的性能优于以往的研究，在数据集1上的准确率达到99.13%，在数据集2上的准确率达到99.56%。此外，正如Grad-CAM和SHAP解释方法所展示的，这种可解释的混合模型能够高效地检测出两个数据集中的脑肿瘤，而这些数据集是通过不同平面进行MRI扫描获得的。使用Grad-CAM和SHAP进行可视化定位可以帮助外科医生和神经学家进行诊断过程，并增加对模型结果的信心。表11显示了与近期研究的比较。

| 作者 | 模型 | 准确率 | 数据集 |
|--------------|-------------|---------|---------|
| Malla等人（2023） | VGG16经过微调 | 98.93% | 数据集1 |
| Cheng（2017） | Zulfiqar等人（2023） | CNN使用训练过的EfficientNetB2 | 98.86% | 数据集1 |
| Islam等人（2023） | 使用VGG16、InceptionV3和DenseNet121的集成方法 | 96.68% | 数据集2 |
| Hamada（2024） | Anagun等人（2023） | 基于CNN的模型，使用Ranger优化器 | 99.00% | 数据集2 |
| Al-Zoghby等人（2023） | 双深度CNN | 99.00% | 数据集1 |
| Preetha等人（2024） | 经过微调的EfficientNetB4 | 99.33% | 数据集2 |
| Abd El-Wahab等人（2023） | 定制CNN模型 | 98.86% | 数据集1 |
| Wang等人（2024） | 预训练的ViT，结合标记合并和随机向量功能链接 | 98.86% | 数据集1 |
| Chhotray等人（2025） | 集成预训练模型和卷积块注意力模块的定制CNN | 97.22% | 数据集2 |
| Afroj等人（2025） | MobileNetV1与DenseNet121的混合模型 | 98.40% | 数据集1 |
| Mahmoud等人（2023） | VGG19使用AQO优化器 | 98.95% | 数据集2 |
| Tahosin等人（2023） | Extra Trees算法的特征选择和超参数调整 | 98.00% | 数据集2 |
| 生成方法 | 使用DenseNet121和EfficientNetB0的可解释混合模型 | 99.13% | 数据集1 | 99.56% | 数据集2 |

下载：下载高分辨率图像（383KB）
下载：下载全尺寸图像

图18. 与当前研究的比较可视化。

6. 讨论
图8和图9中的训练-验证准确率曲线表明模型已经收敛，这从后期迭代的小幅改进中可以看出，最终训练准确率约为100%。训练曲线和验证曲线之间的紧密对齐表明模型没有过拟合。这凸显了混合模型学习相关特征而非机械记忆特征的能力。图10中的混淆矩阵显示一些胶质瘤病例被错误地分类为脑膜瘤，这突显了某些脑肿瘤之间的相似性以及即使是复杂的模型也难以区分它们。在数据集2中也会出现同样的问题，因为模型未能正确分类3个肿瘤样本。

表6中的评估指标显示出高精度和召回率，表明假阳性和假阴性的比率较低。此外，脑膜瘤类的精度为97.66%，相对于其他类别来说较低，这与该类别的训练样本数量较少有关，因此预期会有更多的假阳性情况。表7显示模型在二元数据集上取得了高分类指标，证明了模型在两个数据集上的稳健性和一致性。图12中两个数据集的ROC-AUC值接近1，表明模型能够在不同分类阈值下有效区分多个类别。表8和表9显示，在交叉验证中，模型在所有迭代中表现一致，并在数据集的不同子集中学会了区分性模式。交叉验证和测试集性能之间的小差距证实了模型的稳定性，没有过拟合。

图13和图14展示了混合模型在两个数据集的不同平面捕获的测试集样本上的Grad-CAM结果。模型在不同平面（轴向、冠状和矢状）的热图中准确识别并突出显示了肿瘤区域。红色区域表明这些特定位置对预测该类别至关重要，而外部区域的影响逐渐减弱。然而，在使用EfficientNetB0获得的解释中，垂体瘤的案例扩展到了非肿瘤区域，因为该网络提取的特征可能未能捕捉到所有相关特征。这一点通过表10中的平均下降结果得到证实，结果显示当使用解释特征作为输入图像的掩码时，EfficientNetB0的置信度显著下降。另一方面，DenseNet121提供了更可靠的解释并提取了更多有用的特征。在数据集2的非肿瘤案例中，热图覆盖了更广泛的区域，表明没有肿瘤存在。

图15和图16显示SHAP正确识别了每个类别的相关特征子集。尽管如此，非肿瘤案例的解释并不清晰明确，因为模型无法识别出类似肿瘤的特征子集。混合模型使用两个预训练模型提取特征；虽然这种方法可以提高准确性，但如图16所示，它比单个网络需要更多的训练时间。混合模型的可训练参数比其他预训练模型少，这是通过选择DenseNet121和EfficientNetB0实现的，因为它们在其家族中具有最低的深度。混合模型在每张图像的推理时间上排名第三，表明它在准确性和计算效率之间取得了平衡。这使得模型能够实时部署，提供卓越的准确性和降低决策延迟。

总之，混合特征提取能够提供更好的表示，并增强输入图像的空间信息，从而提高分类性能并降低错误率。此外，整合可解释的AI技术（如Grad-CAM和SHAP）有助于神经学家和放射科医生理解决策过程，并增强对AI模型的信任。

7. 结论
本研究旨在实现一种基于迁移学习的可解释混合方法，使用DenseNet121和EfficientNetB0来检测并定位MR图像中的各种脑肿瘤。该混合模型在两个公开可用的数据集上使用一系列评估指标进行了评估。数据集经过预处理以提取ROI，对原始图像应用了多个阶段，包括阈值处理、裁剪和调整大小。使用了数据增强技术来增加样本量并减轻类别不平衡。分类器还接受了dropout和L2正则化以减少过拟合。此外，进行了彻底的分析以确定最合适的超参数。

混合模型使用了两个数据集进行评估：一个包含脑膜瘤、胶质瘤和垂体样本的三类数据集，以及一个包含非肿瘤和肿瘤样本的两类数据集。采用了两种评估程序：70%-30%的训练-测试分割和5折交叉验证以确保模型的可靠性。此外，还使用了Grad-CAM和SHAP来解释分类结果并确定不同肿瘤的确切位置。与利用这两个数据集的近期研究相比，混合模型表现更优，分别在数据集1和数据集2上取得了99.13%和99.56%的准确率、98.94%和99.56%的精度、98.98%和99.56%的召回率以及98.96%和99.56的F1分数。这种可解释的混合模型在分类和检测多种癌症方面表现出色且准确。

Grad-CAM和SHAP被用来提供可解释的可视化结果，以辅助诊断过程。未来，我们计划应用机器学习和深度学习技术来开发一种方法，以减少所需的计算资源、缩短训练时间并达到适当的准确率。

**资助**
不适用。

**作者贡献**
Mahmoud A. Mohammed：概念化、方法论、软件、撰写——原始草稿准备
Yousef S. Alsahafi：形式分析、验证、数据管理、撰写——审阅和编辑
Rania Salama：资源管理、数据管理、可视化、监督
Ahmed M. Elshewey：项目管理、验证、调查、监督
Khalid M. Hosny：概念化、方法论、形式分析、监督、撰写——审阅和编辑

**数据和材料的可用性**
本研究中的数据可根据相应作者的要求提供。

热点排行