基于SCTFD框架实现高类内方差、数据不平衡皮损图像的精确分类

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Accurate skin lesion classification on imbalanced dermoscopic images with high variance via the SCTFD framework

【字体：大中小】 时间：2026年03月06日 来源：Scientific Reports 3.9

编辑推荐：

　　皮肤病变的精准分类是提升患者生存率的关键。研究人员为克服现有方法特征提取能力有限、数据集不平衡及类内方差高的挑战，提出名为SCTFD的创新框架。该框架综合运用CN-SMOTE、MARD-Net和FDLoss，在ISIC 2018和ISIC 2019数据集上分别取得了92.81%/0.93 F1和91.33%/0.88 F1的优异性能，显著降低了关键诊断任务的分类障碍，具有重要临床意义。

皮肤，作为人体最大的器官，其健康状况是内部机能的一面镜子。在众多皮肤问题中，皮肤病变，尤其是黑色素瘤等恶性病变，严重威胁着人们的健康与生命。早期、准确的诊断是提高患者生存率的关键。近年来，随着人工智能技术的蓬勃发展，基于深度学习的计算机辅助诊断（CAD）系统在皮肤病学领域展现出巨大潜力，为医生提供了强大的“第二双眼睛”。然而，这双“眼睛”的视力目前仍存在一些关键性的局限，使其在实际应用中，尤其是在处理某些疑难图像时，显得“力不从心”。

首要挑战来自于数据本身的不平衡性。在现实世界的临床数据集中，恶性病变的图像数量往往远少于良性病变。例如，在用于皮肤镜图像分析的国际权威公开数据集ISIC中，各类病变的样本量存在显著差异。这就像一个班级里，优等生和差生的数量严重不均，导致模型在训练时，过度学习了“多数派”（良性病变）的特征，而对“少数派”（恶性病变）的诊断能力薄弱。第二个棘手的难题是“高类内方差”。简单来说，即使是同一种疾病，其外观形态也可能千差万别，如同一片森林中，没有两片完全相同的叶子。病灶的颜色、形状、纹理、边界都可能有巨大差异。这种高度的不相似性，使得模型难以抓住同一类疾病的本质特征，从而影响分类的准确性。现有的方法，无论是传统的卷积神经网络（CNN）还是新兴的Transformer模型，在单独面对这两个问题时，都存在各自的局限。CNN擅长捕捉局部特征，但难以建模长距离的依赖关系；而Transformer虽然全局建模能力强，但其计算复杂度高，且在特征提取的细粒度上存在不足。因此，如何设计一个能够同时有效应对数据不平衡和高类内方差，且兼顾特征提取精度与计算效率的框架，成为了皮肤镜图像分析领域一个亟待攻克的核心难题。

为了回答这个问题，来自未知研究机构的研究人员开展了一项创新性研究。他们意识到，必须从数据、特征和优化目标三个层面进行系统性革新。于是，一个名为“用于皮肤镜图像分类的合成分类Transformer框架（Synthetic Classification Transformer Framework for Dermoscopy, SCTFD）”的全新方法应运而生。这项研究的目标直指病灶分类的“痛点”，旨在构建一个能够克服现有瓶颈，实现更高精度分类的鲁棒模型。研究团队在《Scientific Reports》上发表的论文详细阐述了这一工作。

为了开展这项研究，作者们主要运用了几个关键的技术方法。首先，针对数据不平衡问题，他们提出了一种基于编码器-解码器结构的最近邻采样合成方法（CN-SMOTE），用于生成少数类（如恶性病变）的合成样本，从而平衡数据集。其次，在特征提取层面，他们设计了一个创新的多注意力残差扩张网络（Multi-head Attention Residual Dilated Network, MARD-Net），该网络创造性地将空间-通道注意力机制与全局滑动窗口注意力相结合，旨在增强CNN的性能并降低Transformer的计算负担。最后，为了在模型训练中直接应对数据不平衡和类内方差，他们设计了一种专门的FDLoss（专注于不平衡数据的损失函数）。该研究的实验验证基于两个皮肤镜图像公开基准数据集：ISIC 2018和ISIC 2019。

SCTFD框架的整体设计。该研究提出的SCTFD框架是一个分阶段的系统性解决方案。整个流程始于数据预处理与平衡，通过CN-SMOTE模块生成高质量的少数类合成图像。接着，增强后的图像被送入核心特征提取器MARD-Net。MARD-Net是一个精心设计的混合架构，其核心思想是通过局部与全局注意力互补，以及残差连接保证信息流畅，来提取判别性更强、更鲁棒的特征。最后，这些特征被用于分类，并在训练过程中通过专门设计的FDLoss进行优化，使得模型能够更公平地关注所有类别，并对类内变化更加鲁棒。这一结论通过整个框架的流程图和模块化设计得到阐明。

数据增强：CN-SMOTE的有效性。为解决训练数据类别分布不均的问题，作者引入了基于编码器-解码器思想的CN-SMOTE方法。与传统过采样方法（如SMOTE）在原始像素空间进行简单插值不同，CN-SMOTE首先利用编码器将图像映射到特征空间，在该空间内寻找少数类样本的最近邻，然后进行特征插值，最后通过解码器将插值后的特征重构为新的图像。这种在特征空间进行合成的方法，能够生成语义更连贯、视觉上更真实的少数类样本。实验结果表明，在使用CN-SMOTE增强后的数据集上训练模型，相较于基线方法和传统SMOTE，在召回率（Recall）等关键指标上均有显著提升，尤其是在少数类（恶性病变）的检测上。这证明了在特征层面进行数据合成对于解决皮肤镜图像不平衡分类的有效性。

特征提取：MARD-Net的优越性能。MARD-Net是本研究的核心创新。它由几个关键组件集成：一个基础的CNN骨干网络用于提取初步特征；一个空间-通道注意力模块被嵌入其中，使网络能够自适应地聚焦于空间上重要的区域和通道上信息丰富的特征图，从而增强CNN的表示能力；更重要的是，一个全局滑动窗口注意力模块被引入，它将特征图分割成不重叠的窗口，在每个窗口内部计算自注意力。这种设计巧妙地限制了自注意力计算的范围，从而大幅降低了标准Transformer全局自注意力带来的二次方计算复杂度。此外，网络中广泛使用了残差连接，以缓解深度网络训练中的梯度消失问题。在消融实验中，MARD-Net的各个组件（空间-通道注意力、窗口注意力）都被证明对最终性能有积极贡献。与纯粹的CNN模型（如ResNet）或纯粹的Transformer模型（如ViT）相比，MARD-Net在ISIC数据集上取得了更高的分类准确率（Accuracy）和F1分数，验证了其混合注意力设计在特征提取上的优越性。

损失函数：FDLoss的针对性优化。除了数据和特征，损失函数是指导模型学习方向的“指挥棒”。针对数据不平衡和高类内方差，标准的交叉熵损失函数往往会偏向多数类。为此，作者提出了FDLoss。该损失函数结合了焦点损失（Focal Loss）和距离损失（Distance Loss）的思想。焦点损失通过降低易分类样本的权重，使模型更关注难分类的样本（通常是少数类或类内差异大的样本）。而距离损失则鼓励同类样本的特征在嵌入空间中更聚集，不同类样本的特征更分离，从而直接应对高类内方差问题。实验通过对比不同损失函数（交叉熵损失、焦点损失、FDLoss）下的模型表现，证实了FDLoss能够带来最均衡且优异的性能，特别是在提升少数类分类的F1分数和整体模型鲁棒性方面效果显著。

整体性能评估。在ISIC 2018和ISIC 2019两个具有挑战性的公开数据集上，SCTFD框架展现出了卓越的整体性能。在ISIC 2018上，SCTFD实现了92.81%的分类准确率（Accuracy）和0.93的F1分数（F1 Score）。在更复杂、类别更多的ISIC 2019数据集上，它同样取得了91.33%的准确率和0.88的F1分数。这些结果显著优于研究中列出的多种前沿基线方法，包括深度CNN、传统Transformer以及一些先进的混合模型。进一步的统计分析（如t检验）表明，SCTFD的性能提升具有统计显著性。此外，通过绘制混淆矩阵（Confusion Matrix）和接收者操作特征曲线（ROC Curve），可以直观地看到SCTFD在区分良恶性病变，特别是正确识别恶性病变（高真正率）方面表现突出，且具有较高的曲线下面积（AUC）。这从多个维度综合验证了SCTFD框架的有效性和先进性。

在结论与讨论部分，该研究对SCTFD框架的意义和影响进行了总结与展望。作者强调，SCTFD通过一种系统性的、三管齐下的方法，成功应对了皮肤病变自动诊断中的两大核心挑战：数据不平衡和高类内方差。CN-SMOTE、MARD-Net和FDLoss这三个组件的协同工作，分别从数据源头、特征表示和学习目标三个层面提升了模型的诊断能力。这不仅在ISIC基准测试上设立了新的性能标杆，更重要的是，为开发更可靠、更公平的皮肤病计算机辅助诊断系统提供了一条切实可行的技术路径。其重要意义体现在以下几个方面：首先，在临床实践上，高精度的自动分类工具有望作为辅助工具，帮助皮肤科医生，特别是资源匮乏地区的医生，进行更快速、更一致的初步筛查，提高早期诊断率。其次，在方法学上，MARD-Net所展示的混合注意力机制，为结合CNN的局部感知优势与Transformer的全局建模能力提供了一个高效的设计范例，可推广至其他医学影像分析任务。FDLoss的设计思路也对处理其他存在不平衡和类内差异的识别问题具有参考价值。当然，研究也指出了当前工作的局限性，例如模型仅在公开数据集上验证，其泛化能力在更广泛、更复杂的临床实际场景中仍需进一步测试。未来的工作可以集中在引入更多样化的多中心临床数据，探索模型的解释性（即可解释人工智能，XAI），以及尝试将框架扩展到三维皮肤影像或视频分析中。总而言之，这项研究是迈向更智能、更鲁棒的皮肤病辅助诊断系统的重要一步，其提出的创新性解决方案，为后续研究奠定了坚实的基础。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号