《Frontiers in Physiology》:Multimodal skin lesion classification for early cancer diagnosis using deep learning
编辑推荐:
本文系统综述了基于深度学习(DL)的皮肤病变分类技术,重点探讨了DenseNet201、VGG16和InceptionV3等卷积神经网络(CNN)架构在皮肤癌早期诊断中的应用。通过集成学习(Ensemble Learning)和梯度加权类激活映射(Grad-CAM)等可解释性人工智能(XAI)技术,显著提升了模型分类准确率(达97.9%)和临床可信度,为皮肤癌的自动化筛查提供了创新性解决方案。
引言
皮肤癌作为全球范围内最具危害性的恶性肿瘤之一,其中黑色素瘤(Melanoma)因黑色素细胞异常增殖而具有高致死风险。传统诊断依赖皮肤科专家肉眼观察、皮肤镜(Dermoscopy)检查和侵入性活检,存在主观性强、医疗资源分配不均等局限。近年来,深度学习(Deep Learning, DL)技术,特别是卷积神经网络(Convolutional Neural Networks, CNNs),在医学图像分类任务中展现出显著潜力,为皮肤病变的自动化、高精度诊断提供了新思路。
相关研究
多项研究已证实深度学习在皮肤癌诊断中的有效性。例如,Gururaj等(2023)利用DenseNet169和ResNet50架构在HAM10000数据集上实现了较高的分类准确率;Ichim和Popescu(2020)通过两级预测系统(生成对抗网络+ResNet/AlexNet)将 melanoma 检测精确度提升至97.5%。然而,现有方法仍面临类间不平衡、模型泛化能力不足及可解释性差等挑战。本文通过集成多种CNN架构并引入可解释性技术,旨在弥补上述研究空白。
材料与方法
数据集描述
本研究采用HAM10000数据集,包含约10,000张经组织病理学验证的皮肤镜图像,涵盖7类皮肤病变:黑色素瘤(Mel)、黑色素细胞痣(nv)、良性角化样病变(bkl)、基底细胞癌(bcc)、光化性角化病(Akira)、血管病变(vasc)和皮肤纤维瘤(df)。为杜绝数据泄露,所有属于同一病灶(lesion_id)的图像均被划分至同一数据子集(训练集70%、验证集10%、测试集20%)。
预处理与增强
预处理流程包括图像标准化(缩放至100×75像素)、高斯滤波去噪、直方图均衡化对比度增强及基于DullRazor方法的毛发去除。针对类间不平衡问题(如nv类占比近50%),采用生成对抗网络(GAN)和合成少数类过采样技术(SMOTE)进行数据扩增,将每类样本上限设定为3,500张,最终构建包含24,500张图像的平衡数据集。
分割与模型设计
病灶分割采用Otsu二值化阈值法,有效分离病灶与背景。模型构建基于三种预训练架构:DenseNet201、VGG16和InceptionV3,并采用两种微调策略:
- •
技术1:仅重训练顶层权重;
- •
技术2:冻结50%底层网络,添加自定义CNN层(如卷积层、池化层、Dropout层)后重训练。
最终通过软投票(Soft Voting)集成三个模型的概率输出,形成集成模型(Ensemble Model)。
模型训练与评估
使用Adam优化器(学习率0.00001)、分类交叉熵损失函数,在NVIDIA GPU上训练100个epoch(早停法patience=10)。评估指标包括准确率、精确率、召回率、F1分数和ROC曲线下面积(AUC),并采用5折组交叉验证(Group K-Fold)以确保结果稳健性。
结果与讨论
性能对比
集成模型在测试集上达到97.9%的准确率,显著优于单一模型(DenseNet201: 97.0%, VGG16: 96.0%, InceptionV3: 94.5%)。其宏F1分数(99.2%)和AUC(0.996)表明模型在多数类和少数类间均保持高判别力。混淆矩阵显示,集成模型有效降低了mel与bkl等易混淆类别间的误判率。
可解释性分析
通过梯度加权类激活映射(Grad-CAM)生成热力图,直观展示模型决策依据区域(如病灶边缘、色素分布)。热力图与原始图像的叠加验证了模型聚焦于临床相关特征,增强了医生对AI决策的信任度。定量评估显示,Grad-CAM在定位准确性(Localization Accuracy)和忠实度(Faithfulness)指标上均优于LIME、SHAP等方法。
消融实验与对比分析
消融实验证实:
- •
输入分辨率提升至224×224时,模型性能无显著改善(准确率±0.2%),证明100×75像素足以保留关键纹理信息;
- •
软投票集成在计算效率与稳定性上优于硬投票(Hard Voting)和特征级融合(Feature-level Fusion);
- •
类别加权损失函数有效提升罕见病变(如vasc、df)的召回率。
与现有研究对比,本文模型在HAM10000数据集上的准确率超越SkinIncept(96.52%)、IncepX-Ensemble(98%)等先进方法,且具备更优的可解释性。
结论与展望
本研究提出的多模态皮肤病变分类框架,通过集成学习与可解释性技术的结合,实现了高精度、可临床信赖的皮肤癌早期诊断。未来工作将拓展至多中心数据集(如ISIC、Derm7pt)、融合临床元数据(如年龄、病灶位置),并探索轻量化模型在移动医疗设备中的部署,进一步推动AI在皮肤科临床实践中的应用。