Skin Lesion Classification via Stacked RegNet Fusion (SRNF) with Attention-Triad (AT) and Incremental Inverse Kullback–Leibler Divergence Weighting (I-iKLDW)
《Machine Learning with Applications》:Incremental Inverse Kullback–Leibler Divergence Weighting ensemble for Skin Lesion Classification with Stacked RegNet Fusion and Attention-Triad
编辑推荐:
研究人员提出一种结合堆叠RegNet融合(Stacked RegNet Fusion, SRNF)、三重注意力机制(Attention-Triad, AT)及增量逆Kullback–Leibler散度加权(Incremental Inverse Kullbac
研究人员提出一种结合堆叠RegNet融合(Stacked RegNet Fusion, SRNF)、三重注意力机制(Attention-Triad, AT)及增量逆Kullback–Leibler散度加权(Incremental Inverse Kullback–Leibler Divergence Weighting, I-iKLDW)的皮肤镜图像七类皮肤病变自动分类框架。针对HAM10000数据集严重的类别不平衡问题,研究人员采用基于病灶ID去重的分层划分策略,并通过旋转、翻转、缩放与对比度增强将数据增广至每类约8000张。研究人员将RegNetX(RNX)与RegNetY(RNY)各12个变体在Prior Stacked(特征级拼接)与Posterior Stacked(预测级拼接)两种模式下融合,并在定制CNN模块中分别嵌入软注意力(Soft Attention, SA)、通道注意力(Channel Attention, CA)及压缩激励注意力(Squeeze-Excitation Attention, SEA)构成四种SRNF变体(C-SRNF、SA-SRNF、CA-SRNF、SEA-SRNF)。各基模型预测经四步iKLDW计算逆KL散度权重后,分四个增量逐级集成得到最终预测。研究人员采用混淆矩阵、ROC–AUC、Gradient-weighted Class Activation Mapping(Grad-CAM)及校准误差(Expected Calibration Error, ECE)、Brier Score评估性能,并经McNemar检验验证显著性。所提最终集成模型(RN)在HAM10000独立测试集上达到准确率(Accuracy, Λ)94.08%、精确率(Precision, ρ)93.76%、召回率(Recall, R)94.08%、F1值(F1-score, ?)93.81%、特异度(Specificity, S)88.17%,优于单一注意力变体、无注意力基线、常规集成策略(多数投票、Softmax平均、随机加权平均)及多种主流预训练模型(DenseNet、ResNet、EfficientNet、MobileNet、Inception系列),且Grad-CAM热图与皮肤科ABCD诊断原则区域吻合,ECE降至0.038,McNemar检验(χ2=4.12, p=0.038)表明相较最优单模型(xyRN016, 93.84%)提升显著。
论文解读:基于Stacked RegNet Fusion(SRNF)、Attention-Triad(AT)与Incremental Inverse Kullback–Leibler Divergence Weighting(I-iKLDW)的皮肤病变分类研究
一、研究背景与意义
皮肤病变尤其是黑色素瘤的早期准确诊断对临床预后至关重要,基于皮肤镜图像的自动化七类皮肤病变分类(恶性黑色素瘤MEL、基底细胞癌BCC、光化性角化病AK、色素痣NV、良性角化病BKL、皮肤纤维瘤DF、血管瘤VASC)面临三大瓶颈:①HAM10000数据集存在严重类别不平衡(NV类6705张 vs. DF类115张);②单一卷积神经网络对病灶判别区域关注不足且预训练模型在医学细粒度任务上泛化有限;③传统集成方法多采用静态等权平均或多数投票,未依据各子模型与真实分布的匹配度动态分配权重。已有研究虽引入注意力机制(Attention Mechanism)、迁移学习(Transfer Learning, TL)及简单集成,但仍缺乏兼顾多层次特征融合、多维度注意力协同及可靠性感知动态加权的系统性框架。为此研究人员开展本研究,提出Stacked RegNet Fusion(SRNF)–Attention-Triad(AT)–Incremental Inverse Kullback–Leibler Divergence Weighting(I-iKLDW)集成框架,旨在缓解类别失衡影响、强化病灶区域特征提取并优化多模型决策融合,以期在HAM10000七类分类任务上获得更高精度与可解释性。该研究成果发表于《Machine Learning with Applications》。
二、主要关键技术方法
研究人员采用公开HAM10000数据集(10015张七类皮肤镜图像),按病灶ID去重后按7:1.5:1.5划分为训练/验证/测试集,仅对训练集做离线增广(旋转≤180°、水平/垂直翻转与平移≤10%、缩放±10%、对比度增强)使每类平衡至约8000张。特征提取骨干为12种RegNetX(RNX)与12种RegNetY(RNY)预训练模型,以Prior Stacked SRNF(早融合:去除顶层后在全局平均池化前拼接特征图再接入定制CNN)与Posterior Stacked SRNF(晚融合:各模型独立微调后取预测概率再加权集成)两种模式组织;定制CNN含两个卷积块(核7×7/5×5/3×3/1×1、批归一化BatchNormalization、最大池化MaxPooling2D、ReLU),在此基础上分别嵌入软注意力(SA)、通道注意力(CA)、压缩激励注意力(SEA)形成四种SRNF变体(C-/SA-/CA-/SEA-SRNF)。集成阶段先计算各基模型预测分布与独热真值的KL散度DKL(P‖Q),取倒数得逆KL权重并归一化,对24组基模型(Prior与Posterior各12组,每组含4种注意力变体)预测概率做加权平均,经Increment 1(同架构12组iKLDW)→Increment 2(分组再集成:RNXY组、xyRN组、配版本XY组)→Increment 3(两组预终局xyRNXY与XY)→Increment 4(终局RN)完成I-iKLDW。性能经Accuracy(Λ)、Precision(ρ)、Recall(R)、F1-score(?)、Specificity(S)、ROC-AUC评估,以Grad-CAM可视化关注区,以Expected Calibration Error(ECE)与Brier Score检验校准性,以McNemar's test验证与最优单模型差异显著性,并以Majority Voting(MV)、Softmax Averaging(SA)、随机Weighted Averaging(WA)及单独注意力/无注意力消融作对照。
三、研究结果
5.1 Performance evaluation metrics
研究人员定义七类多分类下Accuracy(Λ)、Precision(ρ)、Recall(R)、F1-score(?)、Specificity(S)及ROC-AUC计算公式,作为全篇统一评价指标。
5.2 Performance analysis of SRNF architectures in iKLDW
Increment 1中各SRNF变体经iKLDW加权均超越对应单一注意力或无注意力C-SRNF基线,如xyRN004(iKLDW1)达93.36%较SEA-xyRN004提0.93%;Increment 2将12个RNXY与12个xyRN分别再iKLDW得RNXY(iKLDW2) 93.72%与xyRN(iKLDW2) 93.84%;Increment 3将RNXY与xyRN预测iKLDW得xyRNXY(iKLDW3) 94.08%/93.80%F1,将12个配对版本XY模型iKLDW得XY(iKLDW3)同等Accuracy;Increment 4将xyRNXY与XY iKLDW得RN(iKLDW4)最终Accuracy 94.08%、F1 93.81%、Specificity升至88.17%。证明渐进式I-iKLDW持续增益。
5.3 Statistical significance analysis
以最优单模型xyRN016(iKLDW1, Acc 93.84%)与终局RN(iKLDW4)做配对的McNemar检验,χ2=4.12, p=0.038<0.05,证实I-iKLDW集成提升具统计显著性而非随机波动。
5.4 Calibration analysis
ECE由单模型xyRN002之0.071逐步降至终局RN之0.038,Brier Score由0.142降至0.087,表明I-iKLDW同步改善概率校准可靠性,符合临床诊断对置信度可信度的要求。
5.5 Performance analysis through visualization
混淆矩阵显示终局RN对NV(656/663)、VASC(9/9)、DF(5/6)近完美分类,MEL(21/35)为最难但优于单模型;逐类ROC-AUC最低为MEL 0.935、VASC达1.0,整体优良。Grad-CAM热图聚焦病灶不规则边界/颜色不均(MEL)、均匀色素+平滑边(NV)、红斑基底+鳞屑(AK),与皮肤科ABCD法则一致,验证模型依临床相关区域决策。个别单注意力模型因关注偏移致误分类可由集成校正。
5.6 Ablation study
5.6.1 SRNF(Acc 94.08%)全面优于DenseNet/ResNet/EfficientNetB0-B7/MobileNet/InceptionV3/Xception最高值(92.99%);5.6.2 去除AT仅用C-SRNF+I-iKLDW终局降至93.60%/F1 93.18%,证明AT必要;5.6.3 单独嵌入SA/CA/SEA各注意力终局分别为93.48%/93.72%/93.60%,均低于三联AT组合,表明Triad协同效应;5.6.4 对照MV终局93.84%、SA最佳93.96%(中间层非终局)、WA终局93.84%,I-iKLDW(94.08%)均胜出且具单调增量改进特性;5.6.5 单次直接iKLDW(SI-iKLDW)止步93.60%,验证多增量设计价值。
四、讨论与结论(翻译浓缩)
本研究证实将Stacked RegNet Fusion(SRNF)与Attention-Triad(AT)相结合,并采用Incremental Inverse Kullback–Leibler Divergence Weighting(I-iKLDW)进行动态可靠性感知集成,可显著提升七类皮肤病变分类精度(Accuracy 94.08%)、判别力(F1-score 93.81%)及概率校准性(ECE 0.038),Grad-CAM验证其决策区域符合皮肤科临床判读标准且McNemar检验确认优于最优单模型及常规集成法。局限在于初层集成器数量多致计算开销较大、超参数为手动调优及仅在HAM10000单数据集验证,未来拟精简架构、引入自动超参寻优及跨数据集验证,并开发Web API以实现临床辅助诊断部署。最终结论:所提SRNF–AT–I-iKLDW框架为皮肤镜图像多类皮肤病变自动分类提供了一种高精度、可解释且校准良好的解决方案,在七类HAM10000基准上达到当前较先进性能。