一个用于皮肤病变分类的深度学习框架，采用ResNet50和ELM模型

《Computer Methods and Programs in Biomedicine Update》：A deep learning framework for skin lesion classification using ResNet50 and ELM

【字体：大中小】 时间：2026年05月10日 来源：Computer Methods and Programs in Biomedicine Update CS9.8

编辑推荐：

　　**Claudia Vidal-Basurto | Mariano Rivera** 墨西哥瓜纳华托州Guanajuato，数学研究中心（CIMAT）邮编36023 **摘要** 皮肤病变的分类对于早期诊断和有效治疗至关重要，尤其是在降低与黑色素瘤（最恶性的皮肤癌形

　　**Claudia Vidal-Basurto | Mariano Rivera**
墨西哥瓜纳华托州Guanajuato，数学研究中心（CIMAT）邮编36023

**摘要**
皮肤病变的分类对于早期诊断和有效治疗至关重要，尤其是在降低与黑色素瘤（最恶性的皮肤癌形式）相关的死亡率方面。在这项工作中，我们提出了一个混合框架，该框架结合了从零开始训练的ResNet50模型和极端学习机（ELM）分类器，并采用了严格的两阶段数据分割策略来减少信息泄露的风险。与基于迁移学习的传统方法不同，所提出的方法直接从ISIC 2019数据集的一个精心策划且类别平衡的子集中学习领域特定的表示。我们采用了一种多阶段增强策略来解决类别不平衡问题，同时保持数据完整性。所提出的模型达到了98.62%的分类准确率，Cohen’s Kappa系数和Matthews相关系数（MCC）为0.9843，所有类别的ROC-AUC值均高于0.9945。这些结果证明了该模型在ISIC 2019数据集上的强大和一致的性能。尽管该框架表现出竞争力，但目前的成果仅限于单个数据集，需要在外部数据上进行进一步验证，以评估其在临床场景中的泛化能力。

**1. 引言**
对皮肤镜图像的准确分类对于早期检测皮肤癌（尤其是最具侵袭性和威胁生命的黑色素瘤）至关重要。尽管诊断技术（如皮肤镜检查）取得了进步，但临床评估仍然高度依赖专家解释，并且存在观察者间的差异，这可能导致评估结果不一致 [1] [2]。因此，开发自动诊断系统已成为医学图像分析中的一个关键研究方向。这类系统不仅需要具备高准确性和计算效率，还需要具有可扩展性和鲁棒性，以确保临床可靠性和实际应用。在这方面，国际皮肤影像合作组织（ISIC）等倡议提供了大规模、公开访问的皮肤镜图像数据集，并通过公开基准测试挑战促进了算法创新。这些努力大大加速了基于机器学习的皮肤病变自动分类方法的进展。特别是卷积神经网络（CNN）通过其学习层次化视觉表示的能力，取得了最先进的性能 [3] [4] [5] [6]。然而，它们的有效性通常依赖于从自然图像数据集进行迁移学习，而这可能无法充分捕捉皮肤镜图像的领域特定特征。此外，基于CNN的方法通常计算成本较高，并且在数据集存在显著变化时泛化能力有限。

极端学习机（ELM）作为一种高效的分类工具出现，提供了快速的训练和有竞争力的泛化性能。ELM最初由Huang等人引入 [7]，它是一种单隐藏层的前馈神经网络，其中隐藏参数是随机分配的，输出权重是解析计算得出的，从而避免了迭代优化。这些特性使它们特别适合大规模或时间敏感的应用。最近的研究探索了CNN-ELM混合架构，在医学成像任务中显示出有希望的结果。

尽管取得了这些进展，但仍存在一些限制。首先，许多现有方法依赖于未经定制的预训练特征提取器，这些提取器可能无法充分适应皮肤科数据，从而限制了学习到的表示的质量。其次，实验协议通常定义不够明确，特别是在数据集分割和特征提取与分类阶段之间，可能导致信息泄露和性能估计过高。第三，混合架构的评估往往在异构条件下进行，使得公平比较和可重复性变得困难 [8] [9]。因此，在严格评估条件下，混合CNN-ELM架构的真实有效性仍不清楚。

在这项工作中，我们提出了一个混合分类框架，解决了这些问题。所提出的方法将完全从ISIC 2019数据集的类别平衡和高质量控制子集上从头开始训练的ResNet50模型与极端学习机（ELM）分类器结合用于最终预测。我们采用了一种多阶段的数据策划和增强策略来减轻类别不平衡问题，同时保持数据质量，并采用严格的实验协议以确保训练流程的干净和可重复性。为进一步解决类别不平衡问题，我们引入了涉及旋转和翻转的多阶段增强策略。由于增强操作在最终分割阶段之前进行，我们明确承认来自同一原始图像的几何变换样本之间可能存在残余相关性。为了降低这种风险，我们进行了严格的图像质量控制和数据清洗，以避免分割中的完全重复样本。此外，我们采用了两阶段分割策略，用于ELM训练和测试的图像与用于ResNet50训练的图像是不同的，从而减少了强相关的增强变体影响表示学习和下游分类的可能性。因此，虽然几何增强可能会引入轻微的样本级依赖性，但所提出的协议大大降低了特征学习和分类阶段之间的信息泄露风险。

**2. 相关工作**
深度学习已成为皮肤病变分类的主要范式，特别是通过卷积神经网络（CNN）。如ResNet [10] 和EfficientNet [11] 这样的架构为皮肤镜图像分析提供了强大的表示学习基础。大规模的基准测试工作，如ISIC 2017挑战赛，表明顶级方法主要基于深度卷积架构和集成策略，在分割、特征检测和疾病分类任务中取得了有竞争力的性能 [12]。后续研究在更近期的ISIC数据集中确认了这些发现，通常结合了基于EfficientNet的模型和多分辨率输入及元数据以提高鲁棒性和泛化能力 [13]。在受控的实验环境中，深度学习系统甚至表现出与皮肤科医生相当的性能，这突显了它们在临床决策支持方面的潜力 [14]。

尽管取得了成功，但基于CNN的方法通常依赖于从大规模自然图像数据集（如ImageNet）进行迁移学习。虽然有效，但这种策略可能无法完全捕捉皮肤镜数据的领域特定特征，从而可能限制了在不同采集条件和患者群体中的泛化能力。此外，深度架构的计算成本较高，激发了对更高效替代方案的探索。为了解决这个问题，人们探索了将深度特征提取器与传统机器学习分类器结合的混合方法。极端学习机（ELM）由于其快速训练过程和有竞争力的泛化性能而受到关注 [7]。在皮肤镜图像分类中，CNN-ELM管道报告了有竞争力的性能，准确率范围为93%–95% [15]。类似地，AlexNet-ELM配置达到了91.7%的准确率 [16]，而最近结合分割和分类阶段的混合管道进一步证明了结合深度特征提取与轻量级分类器的有效性 [17]。

除了分类器设计外，还通过度量学习和无监督方法改进了表示学习。基于三元组损失（triplet loss）的度量学习方法旨在通过强制类内紧凑性和类间分离来结构化嵌入空间 [18]。同样，深度聚类方法（如DeepCluster [19]）允许在无需显式监督的情况下学习有意义的表示。尽管有前景，但这些方法并不总是与监督分类流程直接对齐，通常需要仔细设计以确保在医学成像环境中的稳定性和可解释性。最近，基于变换器的架构作为一种替代CNN的方法出现，通过自注意机制（self-attention mechanisms）实现长距离依赖关系的建模 [20]。结合多尺度表示和对比学习策略的视觉变换器变体在皮肤病变分类任务中展示了有竞争力的性能 [21]。分层架构（如Swin Transformers [22]）进一步改进了皮肤镜图像中的上下文建模。混合CNN-Transformer架构（如MedFusionNet [23]）整合了局部和全局特征表示，并在ISIC-2019数据集上报告了强大的性能。然而，预处理、增强策略和评估协议的差异使得研究之间的直接比较变得不简单。此外，基于变换器的模型通常需要更大的数据集和更高的计算资源。

皮肤镜图像分析中的另一个关键挑战是类别不平衡。皮肤病变数据集本质上存在偏斜，恶性类别的代表性严重不足。这促使了开发了考虑不平衡的学习策略，包括成本敏感学习、重新加权方案和专门的损失函数（如焦点损失 [24]）。这些方法已被证明可以在不严重降低整体准确率的情况下提高代表性较低类别的性能。尽管取得了这些进展，但仍存在一些挑战。首先，许多研究依赖于未经充分领域适应的预训练特征提取器。其次，实验协议通常控制不严格，特别是在数据集分割和训练数据与评估数据之间的分离方面，这可能导致信息泄露和过高的性能估计 [25]。第三，由于数据集、预处理流程和评估指标的差异，跨研究的直接比较仍然困难。最后，类别不平衡仍然是可靠临床应用的主要挑战。

在这种情况下，本文的贡献不仅限于架构新颖性，它强调了一种以数据为中心的方法，该方法结合了从头开始训练的ResNet50模型、计算效率高的ELM分类器、精心策划和平衡的数据集以及考虑泄漏问题的实验协议。这种组合旨在在受控条件下为多类皮肤病变分类提供更可靠和可重复的深度学习模型评估。

**3. 方法论：确保皮肤病变分类的鲁棒性**
为了解决皮肤病变分类中的固有挑战，我们提出了一个结合了最先进的深度学习（DL）技术和严格图像质量控制的稳健且可重复的框架，以防止数据泄露。通过将基于ResNet50的特征提取与ELM相结合以实现计算效率高的分类，我们的框架支持可靠的评估并旨在提高泛化能力。

**3.1. 数据集和数据清洗**
在这项研究中，我们使用了ISIC 2019挑战赛的数据集 [12] [26] [27]，其中包含25,331张JPEG格式的RGB图像，类别分布高度不平衡。数据集包括八种皮肤病变：黑色素瘤（MEL）、黑色素痣（NV）、基底细胞癌（BCC）、日光性角化病（AK）、良性角化病（BKL）、皮纤维瘤（DF）、血管病变（VASC）和鳞状细胞癌（SCC）。标记为“UNK”（未识别病变）的图像被排除在分析之外。

为了确保数据质量并减少潜在偏见，我们实施了一个全面的预处理流程（图1）。左上象限展示了受明显视觉噪声影响的样本（例如，毛发、皮肤标记或照明伪影）。左下象限显示了预处理后认为部分可用的样本。右侧面板显示了相应的清洗版本，而被排除的图像用叉号标记。

对于保留的图像，我们裁剪每个图像以使病变居中，并将其大小调整为224 × 224像素，以匹配ResNet50所需的输入尺寸。最后，我们应用了数据增强来增加变异性并促进模型的泛化能力。

**表1. 皮肤病变类别频率。原始计数和数据清洗后的计数（PDC计数）。**
| 皮肤病变 | 原始计数 | 数据清洗后计数（PDC计数） |
|----------------|--------|--------------|
| NV | 12 | 87 |
| MEL | 45 | 57 |
| BCC | 33 | 23 |
| AK | 26 | 58 |
| BKL | 26 | 44 |
| VASC | 25 | 31 |
| DF | 23 | 97 |
| SCC | 62 | 87 |
| 下载：高分辨率图像（401KB） |
| 下载：全尺寸图像 |

**图1. ISIC 2019数据集的预处理和选择标准。** 上象限包含噪声样本的示例（过多毛发、皮肤标记等）。下象限显示了选定的样本。右侧面板展示了我们数据集的相应清洗和预处理版本（接受的样本被裁剪和调整大小）。被丢弃的图像用叉号标记。

**3.2. 数据增强和平衡策略**
为了解决清洗后的数据集中的严重类别不平衡问题（表1），我们实施了一种多阶段数据增强和平衡策略。

第一步是系统化图像旋转。每张图像从0°旋转到358°，以3°的增量进行旋转，每个原始图像产生120个增强版本。这种方法保留了病变的形状和纹理，同时模拟了临床采集中常见的方向变化，从而大大扩展了数据集。

为了增加少数类别的表示，我们仅对旋转后样本少于12,000个的类别应用了水平翻转，具体包括日光性角化病（AK）、皮纤维瘤（DF）和鳞状细胞癌（SCC）。这种选择性增强避免了已经表示良好的类别中的过度冗余，同时提高了类别间的平衡。增强后，AK、DF和SCC的数量分别超过了12,000张。为了实现完美的平衡并最小化类别相关偏差，我们随机将这些类别的样本量减少到每个类别恰好12,000张。对于所有其他类别，保留了所有可用的图像。这一过程最终产生了一个包含96,000张图像的平衡数据集（每类12,000张），在保持临床真实性的同时，也考虑了图像的方向、对称性和病变形态的多样性。增强后的数据集被用作基于ResNet50的特征提取流程的输入，随后使用Extreme Learning Machine（ELM）进行分类，具体细节将在下一节中说明。尽管这种策略改善了类别平衡，但几何增强并没有创建完全独立的临床样本。因此，增强后的数据集被视作一个受控的训练和评估资源，而不是外部临床验证的替代品。这一限制在讨论和限制部分中有明确的说明（见表2）。

表2. 皮肤病变类别频率（按类别计数）。旋转后（PR）、翻转后（PF）和降采样后的最终计数。

3.3. 流程可视化
所提出的混合框架的完整流程如图2所示。该流程从皮肤镜图像开始，这些图像经过严格的预处理和数据净化，以确保质量和类别平衡。然后使用净化后的数据集从零开始训练一个ResNet50架构，使网络能够学习层次化的病变表征。训练完成后，移除全连接层以获得深度特征嵌入，作为高维的病变描述符。这些特征随后被输入到ELM分类器中，ELM利用快速训练和强大的泛化能力产生最终的多类预测。这种模块化流程（数据预处理 → ResNet50训练 → 特征提取 → ELM分类）结合了深度卷积网络的表征能力和ELM的计算效率，同时通过严格控制的两阶段划分策略减少了信息泄露的风险。可视化展示了如何在2.2-2.6节中描述的方法步骤集成到一个统一的的工作流程中。

为了提供对所提出框架的清晰和可复制的描述，算法1总结了整个流程，包括数据净化、增强、两阶段划分、ResNet50训练、特征提取和基于ELM的分类。伪代码通过明确概述计算步骤的顺序及其在整个系统中的交互，补充了后续章节中介绍的数学公式。

3.4. ResNet50算法
要理解ResNet50的训练过程，首先回顾原始的ResNet架构是有帮助的。ResNet引入了残差学习的概念，解决了梯度消失问题，使得非常深的网络的训练成为可能。这一基础对于理解ResNet50的改进至关重要。

3.4.1. ResNet架构
残差网络（ResNet）于2015年首次提出[10]，它通过使用残差连接实现了更深层次架构的训练，是深度学习的一个重大进展。这些跳跃连接在反向传播过程中促进了梯度传播，从而缓解了深度网络中常见的梯度消失问题。在ResNet中，每个残差块学习一个残差函数?(x,{Wi})，这是输入x的非线性变换。块的输出y是通过将残差函数加到输入x上通过跳跃连接得到的。形式上，残差学习表示为（1）R(x)=?(x,{Wi})+x，其中x是块的输入，{Wi}是学习到的权重，函数?是输入的非线性变换。为了执行方程（1）中的元素加法，输入x必须与残差函数?(x,{Wi})的维度相同。如果维度不同，则对输入x应用投影（例如1×1卷积）以确保兼容性，使用以下表达式：（2）R(x)=?(x,{Wi})+Wsx，其中Wsx表示x的投影。这确保了x和?(x,{Wi})的维度对齐，使其加法有效（方程（1））。在这有效的加法之后，中间输出R(x)通过ReLU激活函数，确保非线性，改善梯度流动，并防止在非常深的网络中梯度消失，从而得到块的最终输出：（3）y=ReLU(R(x))。在ResNet中，网络不直接学习从输入x到输出y的完整变换。相反，它学习残差函数（差异）?(x,{Wi})。这种重新表述简化了学习任务，因为网络只需要建模残差差异。通过将残差加到原始输入（方程（1）上，网络只需要捕捉与输入x不同的部分，而不是从头开始学习新的表示，这使得学习过程更简单、更高效[28]。

3.4.2. ResNet50架构
最广泛使用的ResNet变体之一是ResNet50，它是一个包含50层的深度学习架构，旨在通过残差学习解决深度网络的退化问题。其核心架构创新是残差瓶颈块（图3），它允许网络学习越来越抽象的层次化特征。这些块促进了梯度流动，提高了训练稳定性，同时保持了计算效率，使得ResNet50既有效又可扩展（见表3）。
每个瓶颈块由三个卷积层组成：一个1×1卷积用于降低维度，一个3×3卷积用于捕获空间关系，以及一个最终的1×1卷积用于恢复特征的维度。每个卷积之后都进行批量归一化和ReLU激活，除了最后一个卷积，在残差求和之前（方程（1））。这种设计在保持高效梯度流动的同时，使网络能够从复杂的数据表示中学习。

3.5. ELM模型
ELM是一种用于单隐藏层前馈神经网络（SLFNs）的学习范式，最初由Huang等人提出[7]。与传统的训练方法不同，ELM不是通过梯度下降迭代调整所有权重，而是随机分配输入层和隐藏层之间的权重，并分析计算输出权重。这种方法导致非常快速的训练和强大的泛化性能。
考虑一个具有单隐藏层的多层感知器。设X=[x(1),x(2),…,x(M)]，其中x(i)∈RD表示M个样本的训练数据集，Y=[y(1),y(2),…,y(M)]是相应的标签。每个标签y(i)用维度为K的规范基e表示为一个独热向量，K是目标类别的数量。隐藏层的神经元根据以下公式计算激活值：（4）hj(i)=g(wj?x(i)+bj），j=1,…,L，其中wj∈RD和bj∈R是第j个隐藏神经元的随机分配权重向量和偏置，L是隐藏神经元的数量，g(?)是激活函数（例如sigmoid、ReLU或径向基函数）。
标准多层感知器（MLP）的输出层实现为（5）o(i)=fβh(i)+c，其中β∈RK×L是输出权重矩阵，c∈RK是输出偏置向量，o(i)∈RK是第i个样本的预测向量。因此，MLP的完整参数集为θ={W,β,b,c}。这些参数通过解决优化问题（6）argminθLy,o(i)来估计，其中L是衡量真实标签y和预测o之间差异的损失函数。在传统的MLP训练中，这种最小化是使用基于梯度的算法迭代进行的，所有权重和偏置都随机初始化并在训练过程中更新。
在这种设置中，隐藏表示h(i)可以理解为输入x(i)的可训练变换，旨在便于最终（通常是线性的）层进行分类。实际上，即使随机初始化的隐藏神经元也可能将x映射到一个线性可分的表示h，从而简化了学习任务。相比之下，ELM通过随机固定W和b，并在一步中分析计算输出权重β，消除了迭代反向传播的需要，大幅加速了训练，同时仍然实现了强大的泛化性能。在ELM中，输出层不包括偏置项c或非线性激活函数f。相反，采用L2范数作为损失函数。因此，ELM通过解决[7]，[29]进行训练：（7）argminβ‖Y??Hβ‖2，其中隐藏层输出矩阵H∈RM×L由（8）H=h(1)h(2)?h(M)给出。最小二乘问题（7）的解可以用Moore–Penrose伪逆以封闭形式获得：（9）β=H?Y?，其中H?=(H?H)?1H?如果H?H是非奇异的。注意，β∈RL×K提供了从隐藏表示到类别预测的紧凑高效映射。
在这项研究中，x(i)表示从训练好的ResNet50模型的全局平均池化（GAP）层提取的2048维特征向量，用于第i张图像。相应的标签y表示为一个独热编码向量，指示病变的类别（黑色素瘤、黑色素细胞痣、基底细胞癌等）。图4展示了整个ELM架构，其中每一层的单元表示为节点，而图5提供了模型的详细示意图。输入层存储2048维特征向量，这些特征捕获了病变的高级区分特征。这些特征是从第3.2节描述的96,000张平衡数据集中提取的，确保了训练的鲁棒性和类别一致性。隐藏层由具有随机初始化权重和偏置的神经元组成，这些权重和偏置在训练过程中保持不变。该层执行的变换产生了隐藏表示矩阵H，其Moore–Penrose伪逆（H?）随后用于分析计算输出权重。这种混合框架结合了深度卷积特征提取和ELM的简单性和速度，实现了八种皮肤病变类别的有效分类。这种流程的有效性在第4节中进行了详细评估。所得到的混合模型利用了两种深度架构的优势：分层特征学习与超快速分类相结合，为皮肤病变分类提供了一个高效的解决方案。下载：下载高分辨率图像（182KB）下载：下载全尺寸图像图6. ResNet50模型用于皮肤病变分类的训练阶段。下载：下载高分辨率图像（134KB）下载：下载全尺寸图像图7. 训练后的ResNet50模型的卷积层作为特征提取器。完整的ELM流程用于皮肤病变分类可以概括如下：1. 定义输入权重矩阵W的维度W∈RD×L，其中D是输入特征的数量（在我们的案例中为2048），L是隐藏神经元的数量。2. 定义隐藏层的偏置向量b∈RL。3. 随机为W和b赋值。在这项工作中，权重和偏置是从标准正态分布中采样的。4. 通过对输入的仿射变换应用激活函数g(?)来计算隐藏层输出矩阵H∈RM×L：Hj=g(wj?x(i)+bj)。我们评估了ReLU和双曲正切（tanh）激活函数。5. 计算隐藏层输出矩阵的Moore–Penrose伪逆H?。6. 计算输出权重矩阵β=H?Y?，通过将隐藏表示映射到类别标签来提供最小二乘解。7. 通过计算测试数据的隐藏表示（如步骤4所示）并乘以β来评估模型。3.6.1. 数据划分策略为了确保实验的严谨性和防止数据泄露，数据集被分为两个不相交的子集，每个子集被分配给混合框架的特定阶段：•阶段1（ResNet50训练）。70%的图像（每个类别8400张，增强后）专门用于ResNet50的训练、验证和测试。这个子集内部被划分为70%用于训练，15%用于验证，15%用于测试。•阶段2（ELM训练）。剩余的30%的图像（每个类别3600张）用于用训练好的ResNet50进行特征提取，然后用ELM进行分类。这个子集进一步划分为80%用于训练，20%用于测试。这种策略确保了ELM模型是在未用于优化ResNet50模型的图像特征上进行训练和评估的。通过严格分离每个阶段使用的数据并保持类别平衡，我们避免了图像重复，并大大降低了数据泄露的风险，从而确保了对混合框架的公平和可靠评估。尽管在划分之前应用了增强处理，但没有强制按原始图像进行分组。因此，无法完全排除增强变体之间的某种程度的相关性。然而，两阶段划分策略确保了特征提取和分类阶段在不相交的子集上操作，从而大大减少了这种相关性对最终评估的影响。3.6.2. 为ResNet50定制的训练程序为了使ResNet50适应我们的数据集，我们从零开始训练模型，随机初始化所有权重（即没有使用ImageNet预训练）。最终的全连接（FC）层被修改为输出8个与病变类别相对应的logits（图6）。输入图像是RGB皮肤镜图像，预处理为224 × 224像素。预处理流程包括转换为张量并标准化到区间[?1,1]，这与ResNet训练中的常见做法一致。训练进行了60个周期，批量大小为128，使用Adam优化器，学习率为5×10?5。交叉熵损失被用作目标函数。保留了获得最佳验证精度的模型以进行后续的特征提取。3.6.3. 使用ResNet50作为特征提取器为了在分类阶段提取高级视觉表示，我们使用了之前从零开始在策划的数据集上训练的ResNet50模型。在这个阶段，最终的全连接层（FC）被替换为恒等映射（图7），因此每个输入图像都会产生来自全局平均池化（GAP）层的2048维嵌入。所有大小调整为224 × 224像素的RGB皮肤镜图像都使用与训练期间相同的流程进行预处理，包括张量转换和标准化，均值为[0.5, 0.5, 0.5]，将像素值从[0,1]映射到[?1,1]。对于特征提取，图像使用数据加载器以32的批量大小进行处理，这是计算效率和GPU内存限制之间的折中选择。加载了训练好的ResNet50权重，并将模型设置为评估模式以确保确定性行为，并禁用诸如dropout之类的层。最后，提取的特征及其对应的标签被存储在结构化数组中，分为训练和测试子集。这些特征集作为ELM分类器的输入，确保了完全模块化和解耦的混合框架。3.6.4. 使用ELM对特征进行分类在框架的最终阶段，使用从训练好的ResNet50模型中提取的深度特征来训练和评估ELM分类器。选择ELM是因为其快速的训练速度和强大的泛化性能，特别是在处理由卷积网络产生的高维特征向量时。在训练之前，所有特征向量都使用scikit-learn中的StandardScaler进行了标准化，将数据转换为均值为零和方差为单位值。这一步对于tanh这样的激活函数至关重要，因为它们对输入尺度敏感，并且在特征对称分布在零附近时表现最佳。此外，我们还评估了ReLU激活函数，以评估在不同非线性情况下的鲁棒性。ELM架构由一个隐藏层组成，其输入权重和偏置是从标准正态分布中随机初始化的。隐藏层的大小从500变化到10,000个神经元，每次增加500个，并且每种配置重复30次，使用不同的随机种子来评估稳定性和泛化能力。输出权重是使用Moore–Penrose伪逆计算得出的，允许ELM在一次前向传递中收敛，而无需迭代优化。3.6.5. 度量标准我们在每次训练后在测试集上使用一系列指标评估模型的性能：准确性、精确度、召回率和每个类别的ROC曲线下面积（AUC-ROC）。此外，我们还报告了30次运行中准确性的最小值、最大值、平均值和标准差。基于测试准确性的最佳模型进一步使用混淆矩阵、ROC曲线和详细的分类报告进行了分析。为了更深入地评估ResNet50–ELM模型，我们还引入了Cohen’s Kappa（Kappa）和Matthews Correlation Coefficient（MCC）。通过测量超出偶然性的一致性，Kappa评估了模型预测是否反映了所有类型病变的真实学习情况，而不是过度拟合于视觉上占优势或容易区分的类别[30]。Kappa值接近1.0表示强烈的共识，这不是由于类别不平衡或表面特征造成的，而是由于所有类别之间的一致性和准确的识别。Matthews Correlation Coefficient（MCC）是一个稳健的度量标准，它通过将混淆矩阵的所有元素——真正例、假正例、假负例——合并为一个值来评估分类性能[31]。与准确性不同，MCC适用于多类别问题，并且在平衡和不平衡条件下仍然可靠。尽管我们的数据集是平衡的，但MCC通过提供分类器行为的整体和对称评估增加了关键价值。MCC值接近1.0表明预测标签和真实标签之间的强烈一致性。虽然数据集是平衡的，但MCC通过考虑混淆矩阵的所有元素提供了比准确性更全面的评估。在这种情况下，高MCC值支持了分类器在评估实验条件下的行为一致性。Cohen’s Kappa和MCC一起增强了评估的统计严谨性，突出了类别一致的性能和决策的可靠性。它们的包含提供了对分类器行为的更深入解释，并支持ResNet50–ELM管道在各个病变类别上实现了一致的性能。因此，结合这两个指标在方法上是合理的，因为它们提供了对所提出的分类框架内部一致性、稳定性和类别一致性能的关键见解。重要的是，我们观察到MCC通常比准确性或精确度等指标更严格，即使这些传统指标似乎已经饱和。这种全面的评估策略确保了我们的性能声明不仅有经验支持，而且也与实际诊断的可靠性相符。为了评估ELM分类器的稳定性，所有配置使用不同的随机初始化在两种激活函数（ReLU和tanh）下重复了30次。对于每个配置，我们报告了测试集上分类准确性的最小值、最大值、平均值和标准差（见表4，第4.3节的表5）。这种重复运行协议提供了对随机初始化的稳健性的经验测量，并支持报告结果的可重复性。在不同初始条件下滑伏的一致低方差表明分类器在不同初始条件下的行为是稳定的。虽然形式的统计显著性测试超出了本研究的范围，但报告的结果提供了在受控实验条件下的稳定性经验评估。4. 结果与讨论在本节中，我们评估了所提出的混合框架的性能，该框架将ResNet50特征提取与ELM分类器集成在一起，在第3.2节描述的96,000张皮肤镜图像的平衡数据集上进行了测试。4.1. ResNet50基础结果在ResNet50模型的训练阶段，我们监控了每个周期的训练集和验证集的关键性能指标，如损失、准确性和F1分数（见第3.6.2节）。模型在整个训练早期阶段的泛化性能稳步提高。在第一个周期，网络达到了57.81%的训练准确性和72.52%的验证准确性，验证F1分数为0.7148。然而，在第10个周期，准确性达到了95.57%，验证数据集的F1分数达到了0.9548，表明快速收敛和有效的特征学习。在第40个周期记录了最佳的验证性能，模型实现了：•训练准确性：99.22%•训练F1分数：0.9922•验证准确性：97.96%•验证F1分数：0.9796在该周期保存的模型检查点被作为最终版本，用于后续的特征提取任务。在整个训练过程中，每当验证准确性超过之前的记录时，就会自动存储模型检查点，确保只保留表现最好的网络。这种动态进展确认了学习过程的稳健性，并支持使用该模型进行混合架构中的深度特征提取。4.2. ResNet50基础模型提取特征结果为了从图像中提取有助于区分不同类型皮肤病变的有信息量特征，我们按照第3.6.3节中提到的方法进行。图8显示了特征向量的可视化。特别是，由于ReLU（修正线性单元）的作用，得到的2048维特征向量不包含负值，ReLU将所有负输出置为零，从而产生稀疏且严格非负的特征图。这种非负性意味着提取的特征只编码了激活的模式，有助于产生可解释且紧凑的表示。然而，这也意味着在后续模型中使用有界或对称的激活函数（如tanh进行分类）时，归一化步骤对于最近的分布和充分利用这些函数的动态范围至关重要。为了更好地理解这些提取的特征向量的质量，我们采用了一种广泛使用的非线性降维技术，特别适用于可视化高维数据，如图像嵌入。这种技术是t-Distributed Stochastic Neighbor Embedding（t-SNE），用于将ELM测试集的2048维表示投影到二维空间。图9中显示的可视化揭示了一种结构化的聚类模式，表明ResNet50骨干学习了对几种病变类别的区分性表示。在临床相似的类别之间观察到一些重叠，特别是MEL和NV，这与它们在皮肤镜图像中的已知视觉相似性一致。因此，t-SNE投影应被视为探索性可视化，而不是类别可分性的决定性证据。下载：下载高分辨率图像（276KB）下载：下载全尺寸图像图8. 使用训练好的ResNet50模型从皮肤病变图像中提取的2048维特征向量。得到的向量捕获了来自全局平均池化层的高级表示，在分类之前。下载：下载高分辨率图像（279KB）下载：下载全尺寸图像图9. 从训练好的ResNet50模型中提取的2048维特征向量的t-SNE投影。投影结果表明特征具有结构化的组织，尽管这应该被解读为探索性的证据，而不是类别可区分性的决定性证据。4.3. ResNet50–ELM结果和敏感性分析为了进一步分析ELM分类器的敏感性，并确保报告的性能不是由单一的任意配置驱动的，我们进行了消融研究，评估了激活函数和隐藏神经元数量的影响。具体来说，我们分析了在不同隐藏层大小范围内ReLU和tanh激活函数的表现，每种配置都在不同的随机初始化下重复进行。在ELM模型的训练阶段，我们使用ReLU和tanh激活函数监控了每种配置的测试准确性的最小值、最大值、平均值和标准差（STD）（见第3.6.4节）。有趣的是，对于这两种激活函数，所有实验配置的分类性能都保持较高水平，测试准确性超过97%，标准差通常低于0.09。这些结果表明，即使使用随机化的权重初始化，ELM也具有很强的稳定性和鲁棒性（表4，表5）。选择了具有4500个隐藏神经元的配置作为参考模型，因为它是达到最高观察到的测试准确性（98.62%）的最小配置，提供了准确性和模型大小之间的良好平衡。尽管基于ReLU的ELM略优于基于tanh的变体——实现了98.62%的最大测试准确性，与98.51%相比，但这两个结果都强调了该方法的有效性。这种强大且一致的性能支持了训练出的ResNet50提取的特征的质量，并确认了这两种激活函数适用于此任务。重要的是，这些结果在两种激活函数和广泛的隐藏层大小范围内都保持稳定，表明所提出的框架的性能不依赖于特定的ELM配置。这种行为表明，ResNet50特征表示的区分能力起着主导作用，而分类器则作为一个稳定且高效的映射。鉴于其略高的性能，我们选择了基于ReLU的模型进行更详细的评估。Cohen’s Kappa和Matthews相关性系数（MCC）被用来评估一致性以及超出准确性的多类分类可靠性。这两个指标都获得了高值，ReLU为0.9843，tanh为0.9830，表明在不同病变类别中的表现一致。与准确性不同，MCC考虑了混淆矩阵的所有元素，并对分布在各个类别中的错误保持敏感，而Kappa评估的是超出偶然性的共识。尽管它们的公式不同，但这两个指标的收敛性支持了所提出的ResNet50–ELM框架在评估实验条件下的稳定性和可靠性。在独立评估指标中观察到的一致行为支持了所提出框架的可靠性，并强调了数据质量和仔细预处理在医学图像分类中的重要性。表4. 使用ReLU函数激活的实验（ResNet50-ELM）。有关这些结果的更详细分析，请参见附录A中的表6，标题为“使用ReLU函数激活的实验（ResNet50-ELM）”。表5. 使用tanh函数激活的实验（ResNet50-ELM）。除了全局指标外，我们还使用ReLU激活函数对所有八个类别进行了细致的评估（表6），揭示了微妙但具有临床意义的模式。这第二组实验中获得的性能趋势与我们之前的发现一致（表A.1），证实了ELM分类器在各种网络大小和随机激活选择中的鲁棒性。在所有配置中，选定的参考模型使用了4500个隐藏神经元和随机种子61，达到了98.62%的最大测试准确性。这种种子配置作为复现ELM分类器参考设置的基准。即使神经元数量相对较少，该模型也表现出高性能，准确性从低于98%开始，随着网络大小的增加逐渐稳定在98.62%（图10）。所提供的准确性是一个有用的初步指标，而使用Kappa和Matthews相关性系数（MCC）0.9843的补充评估支持了分类器在所有病变类别中的稳定性和一致性。为了提供更详细的分类性能评估，我们报告了ResNet50-ELM模型的混淆矩阵（图11）。虽然像准确性这样的全局指标总结了整体有效性，但混淆矩阵通过显示预测在八个类别中的分布情况来揭示了类别级别的行为。这使我们不仅能够识别正确分类的案例，还能识别最频繁的错误分类，从而更深入地了解所提出的混合方法的优点和局限性。矩阵中观察到的细微差异是大规模图像分类任务的典型特征，并不损害实验设计的完整性。结果的可靠性进一步得到了Kappa和MCC（0.9843）等稳健度量的支持。此外，AUC-ROC分析展示了模型独立于决策阈值区分类别的能力。下载：下载高分辨率图像（124KB）下载：下载全尺寸图像图10. 每个实验的准确性演变（ResNet50-ELM）所有类别都实现了高度的可分性，AUC值分别为NV为0.9948，MEL为0.9984，BCC为0.9999，其余类别为1.0（表6）。这些一致的高AUC分数证实了ResNet50提取的特征具有高度的区分能力，使ELM分类器即使在MEL和NV这样的具有挑战性的情况下也能 achieve 出色的性能。图11显示了具有4500个隐藏神经元的基于ReLU的ELM模型的混淆矩阵。该矩阵表明在八个病变类别中的分类性能一致。例如，第一行显示模型正确标记了563张图片中的541张为皮肤病变类型NV（即召回率为0.9848）。只有17张图片被错误标记（假阴性）。同样，分析第一列，我们可以注意到我们的模型错误地将其他38张皮肤病变标记为NV（假阳性）：这对应于精确度为0.9609。对于MEL类别，我们有534张图片被正确标记，而29张被错误标记：1张标记为NV，28张标记为SCC。556张图片被正确标记为BCC，但有7张被错误标记为NV，1张被标记为MEL但实际是SCC类型的皮肤病变。大多数错误发生在临床上具有挑战性的类别中，特别是NV和MEL，这些类别在视觉和形态上有很多相似之处。例如，黑色素瘤在早期可能与良性痣相似，即使对于经验丰富的临床医生来说也难以区分。同样，一些SCC或BCC病例可能表现出与其他病变类别重叠的色素沉着或纹理模式。下载：下载高分辨率图像（143KB）下载：下载全尺寸图像图11. 具有4500个隐藏神经元的ResNet50-ELM模型的混淆矩阵。这些特定类别的错误表明剩余的错误分类并非随意，而是与生物学和视觉上的模糊性相关。相比之下，如VASC、DF、BKL和AK等类别显示出更强的区分性，这与表6中报告的更明显的视觉特征以及高类别指标一致。尽管增强措施改善了类别平衡，但它也可能在不同类别之间引入了不同程度的合成变异性；因此，需要在独立数据集上进行进一步验证，以确认这些类别级别的趋势是否在ISIC 2019之外也普遍存在。在表7中，我们提供了与选定的皮肤病变分类研究的情境比较。由[15]开发的工作使用了诸如HAM10000和ISIC2018等公开可用的数据集，这些数据集与本研究中使用的ISIC2019数据集部分重叠。他们的方法实现了结合特征选择与分类器（如ELM、SVM、k最近邻、决策树和朴素贝叶斯）的混合架构，并报告称ELM在这些方法中实现了优越的性能。表6. 精确度、召回率和AUC-ROC指标（ResNet50-ELM）。皮肤病变精确度召回率AUC-ROC NV 0.9344 0.9609 0.9948 MEL 0.9745 0.9485 0.9984 BCC 0.9912 0.9858 0.9999 BKL 1.0000 1.0000 1.0000 VASC 1.0000 1.0000 1.0000 DF 1.0000 0.9982 1.0000 SCC 0.9912 0.9965 1.0000 AK 1.0000 1.0000 1.0000 更近期的方法探索了混合深度学习架构。例如，[23]提出了MedFusionNet，它通过基于注意力的融合机制将ConvNeXt和Vision Transformers集成在一起，在ISIC-2019数据集上实现了97.90%的准确性。在所提出的实验协议下，我们的ResNet50–ELM框架实现了有竞争力的性能，使用4500个隐藏神经元时达到了98.6%的准确性。需要注意的是，直接比较应该谨慎解释，因为数据集、预处理流程、增强策略和评估协议的差异可能会显著影响报告的指标。表7中的比较应该谨慎解读，因为报告的方法不一定遵循相同的实验协议。数据集版本、预处理程序、增强策略、类别平衡和训练-测试分割的差异可能会显著影响最终指标。特别是，一些研究依赖于迁移学习或使用混合数据集（如HAM10000），而本研究仅专注于在严格控制和意识到泄漏的实验设计下的ISIC2019。因此，该表格旨在为所提出的方法提供情境背景，而不是声称严格的头对头比较。表7. 与选定的皮肤病变分类研究的情境比较。指标按照原始出版物中的呈现方式报告，并不一定可以直接比较，因为数据集、预处理流程、增强策略、类别平衡程序和训练-测试协议存在差异。用(*)标记的方法使用了ISIC2018/HAM10000而不是本研究使用的确切ISIC2019协议。方法准确性精确度召回率参考[15]（*）0.941––参考[32] 0.810 0.770 0.740 参考[33] 0.988 0.955 0.950 参考[34] 0.988 0.986 0.984 参考[23] 0.979 0.960 0.980 ResNet50 base 0.980 0.981 0.980 ResNet50-ELM 0.986 0.986 0.986 4. 分类方法的消融研究为了证明我们ResNet50基础模型提取的特征的区分能力，我们进行了消融研究，比较了不同的分类器。具体来说，我们评估了两种ELM配置：具有500个隐藏神经元（ELM*）和选定的具有4500个隐藏神经元的参考ELM模型。此外，我们还包括了标准的机器学习分类器：随机森林（RF，100个估计器）、支持向量机（SVM）和逻辑回归（LR）。如表8所示，所有分类器在评估指标上均取得了高性能，它们之间的差异很小。具有4500个隐藏神经元的ELM在保持较低计算成本的同时实现了有竞争力的性能。如4.3节所讨论的，增加神经元数量并没有带来显著的改进。ELM的一个重要优势在于其训练和推理效率与其他分类器相比。虽然RF、SVM和LR也从ResNet50的特征中受益，但ELM在预测性能和计算成本之间提供了有利的权衡。这表明所提出框架的改进不仅仅是由于分类器的复杂性，而是由于高质量深度表示和高效分析分类器的结合。表8. 对从我们的ResNet50基础模型提取的特征进行分类的消融研究结果，使用各种分类器：具有500个隐藏神经元的ELM（ELM*）、选定的具有4500个隐藏神经元的参考ELM模型（ELM）、随机森林（RF）、支持向量机（SVM）和逻辑回归（LR）。所有分类器都取得了高性能，证实了ResNet50基础模型提取的深度特征具有高度的区分能力。Time行报告了训练和推理的总持续时间（以秒为单位）。选择具有4500个隐藏神经元的ELM作为参考配置，因为它在保持有利计算成本的同时达到了观察到的最高准确性。值得注意的是，ELM在所需的计算时间远少于其他分类器的情况下实现了有竞争力的分类性能。4.5. 讨论这些结果提供了支持所提出的数据 curature 流程和训练策略有效性的证据。从最初的预处理和数据集划分到ResNet50基础模型的端到端训练，每个阶段都有助于生成有意义的特征表示。提取的嵌入具有足够的区分能力，可以作为ELM分类器的输入，支持混合框架的整体一致性。实验在所有类别中都显示了强大且一致的性能，特别是对于具有明确定义视觉特征的病变类型。在NV和MEL中观察到的性能下降与临床难度和固有的类别重叠是一致的。特征分析揭示了这些类别之间的显著重叠，反映了它们已知的视觉和语义相似性。早期阶段的黑色素瘤可能与良性痣相似，这两个类别在颜色、纹理和形状上都有很高的变异性。因此，学习到的表示在嵌入空间中没有形成完全分离的簇，这影响了这些类别的精确度和召回率。相比之下，如AK、VASC和DF等病变类型形成了更紧凑且可分离的簇，这与它们更高的分类分数一致。这些发现表明，特定类别的视觉复杂性在学习到的表示的区分能力中起着关键作用。提取的特征向量的t-SNE可视化（图9）提供了定性证据，表明ResNet50骨干学习了几个病变类别的区分性表示。然而，这种可视化结果应被视为探索性的证据，而非决定性的证据，证明类别的可分性，因此需要在独立的数据集上进行进一步的验证。观察到的强劲性能可以归因于数据策划、预处理和训练策略的结合。从头开始使用策划好的皮肤镜图像训练ResNet50模型，有助于学习特定领域的特征表示。这种以数据为中心的方法增强了混合ResNet50–ELM框架的有效性，并有助于其在不同 lesion 类型上保持一致的性能。皮肤镜图像分类仍然具有挑战性，因为某些 lesion 类型之间存在微妙的视觉差异，采集条件也存在变异性，而且还存在伪影。尽管存在这些挑战，所提出的框架在大多数类别上仍实现了高的AUC值以及很强的精确度和召回率，表明在评估的数据集中具有可靠的预测性能。所提出的混合框架在临床环境中具有潜在的优势，特别是在远程皮肤病学和初级保健环境中，这些地方可能难以获得专家的帮助。通过将ResNet50特征提取器与ELM分类器结合，该系统能够在相对较低的计算要求下实现高效的推理，这可能有助于在其资源有限的环境中部署。尽管分类性能很强，但所提出的框架仍然是一个黑箱模型。在临床应用中，可解释性对于确保医疗从业者的信任和采纳至关重要。可以集成诸如梯度加权类别激活映射（Grad-CAM）和显著性图之类的技术，以突出影响模型预测的主要图像区域。这些方法将提供与皮肤病学标准一致的视觉解释，并代表未来工作的一个重要方向。成功的临床部署还需要解决其他挑战，包括确保在多样化的采集条件下（例如，照明、设备、肤色）的鲁棒性，将系统整合到临床工作流程中，以及遵守监管和数据隐私要求。此外，还需要进行涉及临床医生的可用性研究，以评估模型预测如何有效地支持而非替代专家决策。尽管数据增强部分缓解了类别不平衡问题，但它可能会在表示真实的临床变异性时引入限制。对于某些少数类别，增强可能会导致过于乐观的指标，这突显了需要更大、更多样化的数据集。未来的工作应该探索多模态输入（如临床元数据）的整合，并在外部队列上评估框架，以更好地评估其泛化能力。总而言之，这些结果表明，以数据为中心的实验设计，结合如ResNet50–ELM这样的高效混合架构，为多类皮肤病变分类提供了一种可靠且计算效率高的方法。虽然所提出的框架表现出强大的性能，但仍然需要在独立的数据集上进行进一步的验证，以确认其泛化和临床适用性。这些发现表明，所提出的框架主要是由学习到的特征表示的质量驱动的，而不仅仅是分类器的复杂性。5. 局限性虽然所提出的ResNet50–ELM框架取得了强大且一致的结果，但必须承认几个局限性。首先，尽管ISIC数据集很大且在皮肤病学AI研究中广泛使用，但它可能无法完全捕捉到现实世界临床场景的多样性。其人口构成不具有全球代表性，某些人群或病变类型可能被低估，这引发了关于在不同患者队列中泛化能力的担忧。此外，成像条件的变异性（包括照明、皮肤镜类型、相机分辨率和背景皮肤纹理）没有在模型中明确考虑，可能会影响在异质临床环境中的性能。其次，尽管数据增强流程减轻了类别不平衡并引入了方向和外观的变异性，但它并不能替代真正多中心前瞻性验证的必要性。对于少数类别，增强可能会导致过高的性能估计，而没有更大、更多样化的数据集，这些估计可能无法推广到现实世界的临床数据。另一个重要限制是缺乏外部验证。评估仅在ISIC 2019数据集上进行，因此报告的结果应被视为依赖于该数据集的。未来的工作应包括在独立数据集和多中心队列上的验证，以评估在不同采集条件、人群和临床环境中的鲁棒性。最后，尽管该框架实现了高效的推理，并显示出融入临床工作流程的潜力，但仍需要进一步的研究来评估其在跨设备条件下的性能，以及其在实际医疗系统中的可用性和整合情况。此外，未来的工作还应包括统计显著性分析和可解释性技术（如Grad-CAM），以进一步增强模型的临床可靠性。6. 结论本研究提出了一种皮肤病变分类的混合框架，该框架结合了从头开始训练的ResNet50模型的判别性特征提取能力和极端学习机（ELM）分类器的效率。所提出的方法基于以数据为中心的方法，强调数据策划、受控增强和考虑泄漏的实验设计，以确保评估流程的可靠性和可重复性。与主要依赖于预训练模型或完全自动化流程的方法不同，这项研究强调了数据质量、类别平衡以及在训练和评估阶段一致性的重要性。在重复随机初始化下对多种ELM配置的系统评估进一步支持了报告结果的稳定性。所提出的模型在ISIC 2019数据集上的大多数病变类型上实现了高分类性能，表明特定领域特征学习与高效分类的结合可以为多类皮肤病变分类提供有效的解决方案。此外，ELM分类器的观察行为表明，一旦特征表示具有足够的判别性，增加模型复杂性并不一定带来显著的性能提升。然而，这些结果应在所使用的数据集范围内进行解释。缺乏外部验证限制了关于泛化的结论，需要在独立数据集和多中心队列上进行进一步的评估，以评估在不同临床场景中的鲁棒性。未来的工作将集中在外部验证上，通过Grad-CAM等视觉解释技术提高可解释性，并在实际临床条件下评估该框架。额外的扩展可能包括整合临床元数据和发展处理罕见病变类型的数据中心策略。总体而言，这项研究为皮肤病变分类提供了一种可重复且计算效率高的方法，同时强调了以数据为中心的方法论和严格的实验设计在开发可靠的医学成像人工智能系统中的重要性。CRediT作者贡献声明Claudia Vidal-Basurto：撰写——审阅与编辑、撰写——原始草稿、可视化、验证、软件、方法论、调查、正式分析、数据策划、概念化。Mariano Rivera：撰写——原始草稿、监督、资源、项目管理、方法论、调查、正式分析、概念化。伦理声明我们确认实验中使用的数据是公开可获得的并且已完全匿名化。因此，我们的研究不需要伦理声明或额外的伦理批准。所有数据收集和分析都遵循了使用公开可访问和匿名数据源的相关指南。手稿准备过程中生成式AI和AI辅助技术的声明在准备这项工作时，作者使用了ChatGPT来提高文档的可读性。使用该工具/服务后，作者根据需要审查和编辑了内容，并对已发表文章的内容负全责。

热点排行