DEM-WGAN:一种基于Wasserstein生成对抗网络(GAN)的新数据评估方法,用于不平衡数据分类
《Neurocomputing》:DEM-WGAN: A new data evaluation method based on wasserstein generative adversarial network for imbalanced data classification.
【字体:
大
中
小
】
时间:2026年02月05日
来源:Neurocomputing 6.5
编辑推荐:
针对传统SMOTE算法及其变体在生成合成数据时噪声增加和缺乏有效评估机制的问题,本文提出基于Wasserstein GAN的新型数据评估方法DEM-WGAN。该方法通过训练判别器评估合成数据与多数类分布的相似性,结合SMOTE生成高质量少数类样本,有效减少类重叠并提升分类性能。实验表明DEM-WGAN在多个基准数据集上显著优于现有方法。
陈刚|侯斌杰
大连海事大学数学系,中国大连,116026
摘要
不平衡数据分类是医学诊断和金融风险管理等多个领域面临的常见挑战。然而,传统的合成少数样本过采样技术(SMOTE)及其变体存在某些局限性,特别是在样本生成过程中容易引入噪声,且缺乏评估合成数据质量的稳健评估机制。为了解决这些问题,我们提出了一种基于Wasserstein生成对抗网络(DEM-WGAN)的新型数据评估方法。DEM-WGAN首先通过将多数类样本输入Wasserstein生成对抗网络(WGAN)来学习多数类的分布特征。然后,使用训练好的判别器来评估合成数据与多数类分布之间的相似性。最终,通过评估过程生成更符合少数类的高质量数据,直到少数类样本的数量与多数类样本的数量相等。实验结果表明,与几种SMOTE算法相比,DEM-WGAN显著提高了分类性能。本文讨论的应用程序的源代码可在以下链接获取:
https://github.com/ithbjgit1/DEM-WGAN.git。
引言
近年来,不平衡分类问题引起了众多学者的关注。在二元不平衡分类中,实例数量较多的类别称为多数类,实例数量较少的类别称为少数类,这可能导致分类性能大幅下降。然而,在医学诊断[1]、异常活动识别[2]、欺诈检测[3]等实际应用中,不平衡数据问题是不可避免的。
与多数类相比,研究人员更关注少数类。例如,在医学诊断中,我们更关注患者患病的可能性,因为这可能导致误诊,从而产生更严重的后果。在处理不平衡数据集时,传统分类器的分类准确性可能会偏向多数类,从而忽略少数类。因此,不平衡数据分类问题对传统数据分类提出了重大挑战。
一般来说,解决不平衡数据的技术可以分为两类:算法层面方法和数据层面方法。数据层面方法的目的是处理不平衡数据,使多数类样本的数量与少数类样本的数量相等。它们可以分为三类:过采样、欠采样和混合方法。算法层面方法试图设计新的分类器算法来提高分类性能,防止决策边界偏向少数类,这通常与不同的分类算法密切相关。与算法层面方法相比,数据层面方法更为方便,可以与任何类型的分类器结合使用。然而,研究人员往往更倾向于使用过采样方法,因为欠采样会丢失大量有价值的信息[4]。在所有过采样方法中,SMOTE[5]被认为是最流行的过采样算法之一。它通过在少数类实例之间插值来平衡数据集。然而,SMOTE算法的主要缺点是生成的合成数据可能与多数类样本发生重叠[6]。为避免类别重叠问题,提出了许多SMOTE的变体。Safe-level-smote[7]为过采样建立了安全区域以减少类别重叠的程度。由于这种方法不关注边界样本,因此对决策边界的帮助有限。Borderline-SMOTE[8]将少数类样本分为三类,并选择边界样本来生成数据。尽管这种方法有效提高了分类性能,但它可能会加剧类别重叠的程度,因为在边界区域进行了更多的过采样。为了解决这一难题,逐渐提出了一些基于聚类的过采样算法。Kmeans-SMOTE[9]将聚类算法与SMOTE结合使用以提高分类性能。通过结合监督学习来确定合成数据的区域,可以减少噪声。尽管基于聚类的过采样算法取得了一些进展,但在缺乏先验数据信息的情况下,尤其是在复杂数据集中,它们仍然难以确定适当的聚类数量[6]。
然而,大多数过采样方法都会受到噪声样本的影响,由于生成样本的不可控性,一些噪声样本可能会与多数类样本重叠。值得注意的是,许多过采样方法在少数类及其相邻类之间生成新实例,这忽略了其他类的信息。例如,如图1(a)所示,一些少数类样本与其他同类样本相距较远。这些位于类间区域的孤立点不仅可能导致生成的样本落入多数类区域,还会混淆多数类和少数类之间的决策边界。其次,图1(b)展示了一个问题场景:多数类样本被少数类样本包围。当噪声样本嵌入少数类簇中时,可能会加剧少数类的识别难度。
为了解决现有过采样技术的局限性,我们提出了一种基于WGAN的新型数据评估方法。DEM-WGAN的一个关键优势是它利用多数类信息来评估生成样本的质量,使过采样过程更加可控,并有效限制了噪声样本的生成。此外,DEM-WGAN的灵活性使其能够与任何传统的过采样算法集成,进一步减轻了类别重叠的影响并提高了分类器的性能。DEM-WGAN结合了神经网络和传统采样方法的优点,生成了更高质量的合成数据。图2展示了使用WGAN解决不平衡数据分类的框架。该框架首先通过使用多数类数据和高斯噪声在WGAN架构内联合训练判别器(D)和生成器(G)来预处理不平衡数据集。训练过程由Wasserstein距离来调节。随后,DEM-WGAN通过SMOTE算法扩展少数类样本。训练好的判别器对合成数据进行去噪,以构建平衡的数据集。实验结果表明,DEM-WGAN在关键性能指标上始终优于现有方法。
总结来说,本研究的贡献如下:首先,为了更好地利用多数类样本的信息,我们最初仅使用多数类样本训练深度学习模型。然后,训练好的神经网络通过从多数类中提取信息来指导过采样过程,使其能够处理复杂的不平衡数据集。其次,将SMOTE算法生成的数据输入WGAN进行筛选,直到少数类样本的数量与多数类样本的数量相等。通过有效消除大部分噪声样本,这一步提高了合成数据的质量和分类性能。最后,为了验证DEM-WGAN的性能,我们将提出的方法与SMOTE算法的变体进行了比较。实验结果表明,我们的方法具有更高的效率和简洁性。
本文的其余部分分为五个部分:第2节介绍相关工作,第3节介绍初步知识,第4节介绍我们的新算法DEM-WGAN,第5节介绍评估方法的验证,第6节描述未来的展望。
相关工作
相关工作
回顾第一节中提到的处理不平衡数据分类的技术,这些技术主要分为两类:数据层面方法和算法层面方法。在本节中,我们将讨论二元不平衡问题中提到的挑战。
WGAN
GAN[33]是一类重要的深度学习模型,包含两个主要组成部分:生成器(G)在给定噪声数据时生成合成数据,判别器(D)用于区分数据是真实的还是伪造的。如图2所示,我们将少数类数据输入判别器,训练GAN,直到判别器能够区分给定数据是真实的还是伪造的。为了提高生成和判别能力,以达到纳什均衡
DEM-WGAN的提出方法
SMOTE家族的许多过采样算法通过在数据生成过程中计算少数类邻居中的多数类实例数量来区分少数类样本。尽管SMOTE技术有效减轻了类别间的不平衡,但它本身存在几个缺点。首先,SMOTE在生成少数类实例时没有考虑相邻样本的类别分布,这可能导致在重叠区域生成无意义的噪声样本
实验结果与分析
本节使用数值示例来说明新方法的性能。它包括两部分:数据集选择和性能指标、DEM-WGAN的实验验证、实验比较和结果分析、DEM-WGAN的统计测试结果、合成数据对分类性能的影响、计算复杂性的分析。
结论
本文提出了一种基于WGAN的新型数据评估方法,用于解决不平衡数据分类问题。实验结果表明,所提出的方法在完成分类任务方面是有效的。DEM-WGAN的主要优势在于它使用WGAN选择高质量的少数类数据,并在合成数据中保留了有价值的信息。此外,它显著减少了少数类和多数类之间的类别重叠程度
CRediT作者贡献声明
陈刚:方法论。侯斌杰:方法论。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
作者感谢两位审稿人的建设性和宝贵意见,这些意见提高了论文的质量。
陈刚1987年获得东北师范大学学士学位,2004年获得辽宁工程技术大学博士学位。他目前是中国大连海事大学数学系的教授。他的当前研究兴趣包括机器学习、数据挖掘、时间序列分析以及复杂系统的建模和计算。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号