En FuseNet：一种结合尾部特征增强与动态融合的双模块方法，用于长尾皮肤病变诊断

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Digital Signal Processing》：EnFuseNet: A Dual-Module Approach Combining Tail-Class Enhancement and Dynamic Fusion for Long-Tail Skin lesion Diagnosis

【字体：大中小】 时间：2026年01月23日 来源：Digital Signal Processing 3

编辑推荐：

　　针对皮肤疾病诊断中长尾分布导致的样本不均衡问题，本文提出EnFuseNet框架，集成双视角交互融合模块和尾部表征增强模块，结合自适应加权交叉熵损失函数，有效提升罕见皮肤病的诊断准确性和AUC值至86%-88%和97%，优于现有方法。

陶永才|肖仁伟|史玉成|李哲|张青|袁晓天|史磊

郑州大学计算机与人工智能学院，中国郑州450001

摘要

皮肤疾病的低发病率导致类别分布极度不平衡，这给计算机辅助诊断带来了复杂性。尽管已经应用了监督对比学习来处理这种长尾分布问题，但仍存在两个挑战：首先，类别内和类别间特征分布的显著差异阻碍了有效的样本区分；其次，尾部类别样本数量不足，限制了它们的表示能力，从而影响了诊断准确性的提高。为了解决这些问题，我们提出了EnFuseNet这一新颖的对比学习框架。EnFuseNet包含两个关键模块：双视图交互融合（DIF）模块和尾部表示增强（TREM）模块。DIF模块通过通道和空间交互式注意力机制结合双视图特征，增强了类别内的紧凑性和类别间的可区分性。TREM模块通过滑动窗口机制为这些类别生成并动态更新原型，缓解了尾部类别样本数量有限的问题。此外，基于课程学习和动态加权的阶段自适应加权交叉熵（SAW-CE）损失函数指导模型实现更平衡的类别间学习，从而在训练过程中减轻了诊断难度。在ISIC2018和ISIC2019皮肤疾病数据集上的实验结果表明，En FuseNet的准确率和AUC值分别达到了86%–88%和97%，优于现有方法。这些结果凸显了EnFuseNet在诊断罕见和长尾皮肤疾病方面的潜力。源代码可在GitHub上获取。

引言

皮肤癌是人类最常见的恶性肿瘤之一。在临床实践中，早期黑色素瘤的误诊率超过20%，而恶性黑色素瘤可能危及生命[1]，[2]。幸运的是，早期发现皮肤癌可以显著提高治愈率。得益于深度卷积网络（CNN）和大规模数据集，深度学习已成为计算机辅助诊断（CAD）的核心技术。

然而，其性能高度依赖于理想化的、平衡的数据分布（图1a）。相比之下，由于特定病变的稀有性和样本获取的挑战，临床皮肤科图像数据普遍呈现严重的长尾分布（图1b），这成为提高诊断准确性的关键瓶颈[3]，[4]，[5]。虽然监督对比学习（SCL）可以创建更均匀的特征空间（图1c），但它仍面临两个关键问题：首先，皮肤病变的固有高类别内方差和低类别间相似性限制了特征的可区分性；其次，尾部类别样本的极度稀缺导致特征表示不足，泛化能力有限。这些挑战使得模型训练过度关注头部类别[6]，[7]。因此，现有框架难以构建既能有效区分复杂病例又能公平表示罕见类别的决策空间，从而影响了它们在现实临床场景中的可靠性和性能[8]，[9]。

为了解决上述问题，本文的核心贡献是开发了一个集成三个关键组件的解决方案，使其协同工作。首先，为了解决复杂病变特征、显著类别内方差和高类别间相似性的问题，我们设计了双视图交互融合（DIF）模块。该模块利用空间和通道注意力在各种尺度上有效捕获关键视觉特征，从而增强类别内的紧凑性和类别间的可区分性。其次，由于仅靠高质量的特征提取不足以解决数据稀缺问题，我们专门设计了尾部表示增强模块（TREM）来针对长尾分布。该模块利用动态更新的“可学习原型”为样本稀缺的尾部类别生成和补充实用表示信息（图1d）。这种方法不仅弥补了尾部类别样本的不足，更重要的是，即使在训练小批量中没有尾部类别样本时，也能显著抑制模型对头部类别的过度偏见。最后，为了从根本上引导模型实现公平高效的学习，我们设计了阶段自适应加权交叉熵（SAW-CE）损失函数。该函数根据当前训练阶段和每个类别的诊断难度动态调整损失权重，确保模型在训练过程中公平关注头部、尾部以及难以区分的类别，最终得到一个偏差较小且更稳健的分类器。

本文的贡献可以总结如下：

•
双视图交互融合（DIF）模块，通过交互式注意力从双视图特征中提取高度区分性的表示，从而增强类别间的可区分性。
•
尾部表示增强模型（TREM），利用可学习原型为数据稀缺的尾部类别生成补充表示，有效减轻了批次组成无关的头部偏见。
•
阶段自适应加权损失函数，动态调整样本权重，引导模型在不同训练阶段关注长尾类别和复杂示例，从而显著提高整体性能和类别间的公平性。
•
广泛的实验表明，本文提出的En FuseNet模型在ISIC2018和ISIC2019数据集上的诊断任务中表现优于其他最先进（SOTA）方法。

部分片段

长尾皮肤病变诊断

通过CNN诊断长尾数据集的皮肤病变主要包含五种方法：数据平衡、特征增强、逻辑函数调整、损失函数设计和网络优化[10]，[11]，[12]，[13]，[14]。

数据平衡方法通过重采样[15]、增强[16]或合成来增加尾部类别的多样性[10]，[17]。重采样通过头部欠采样或尾部

方法论

在长尾皮肤病变诊断任务中，学习高度区分性且平衡的特征表示对于提高整体模型性能至关重要。如图2a所示，以往的研究探索了各种双分支策略。例如，BBN[37]采用累积学习策略动态平衡两个分支之间的采样效果，而BCL[8]利用平衡的对比学习优化特征空间几何结构以获得更好的类别

数据集和预处理

为了评估所提出模型的有效性，选择了ISIC2018和ISIC2019挑战数据集[39]，[40]。ISIC2018数据集包含10,015张皮肤病变图像，分为七类：皮肤纤维瘤（DF）、血管病变（VASC）、日光性角化病（AK）、基底细胞癌（BCC）、良性角化病（BKL）、黑色素瘤（MEL）和黑色素细胞痣（NV）。ISIC2019数据集包含25,331张图像，涵盖八种类型的皮肤病变：黑色素瘤（MEL）、黑色素细胞痣

讨论

由于发病率低，皮肤科图像数据通常呈现长尾分布。尽管对比学习通过构建正负样本对来增强特征表示，现有方法仍面临两个主要瓶颈。一方面，尾部类别样本数量有限导致表示能力不足，使模型受头部类别主导。另一方面，许多模型难以有效区分疾病

结论

本文提出了一种模型，将DIF模块与基于滑动窗口的TREM对比学习相结合，用于长尾皮肤病变诊断，旨在缓解现有模型中对头部类别的过度优化以及对尾部类别信息的忽视，以及类别内和类别间的差异。该模型利用监督对比学习优化特征表示，其中DIF模块通过交互式通道和空间信息

CRediT作者贡献声明

陶永才：撰写 – 审稿与编辑、监督、项目管理、资金获取、形式分析、概念化。肖仁伟：撰写 – 原始草稿、可视化、验证、方法论、调查。史玉成：撰写 – 审稿与编辑、方法论、形式分析。李哲：撰写 – 审稿与编辑、可视化。张青：撰写 – 审稿与编辑、验证、数据管理。袁晓天：撰写 – 审稿与编辑、数据管理、概念化。史磊：

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

部分片段

长尾皮肤病变诊断

方法论

数据集和预处理

讨论

结论

CRediT作者贡献声明

利益冲突声明

热点排行