Loyalty-SMOTE：一种用于有效处理不平衡数据分类的数据合成算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Loyalty-SMOTE: Data Synthesis Algorithm for Effective Imbalanced Data Classification

【字体：大中小】 时间：2026年02月05日 来源：Neural Networks 6.3

编辑推荐：

　　针对不平衡数据集处理中噪声敏感问题，提出Loyalty-SMOTE算法。通过引入Loyalty衡量样本邻域影响力，识别并去除噪声数据，再基于边界样本进行SMOTE过采样。同时提出Attraction概念扩展至多类别场景，有效提升分类器性能。实验表明，该算法在30个二分类和5个多分类数据集上F1-score、AUROC等指标均优于传统方法。

胡胜全|李俊飞|李泽峰|张子豪|冯燕|K. L Eddie Law

中国西北农林科技大学信息工程学院，杨凌，712100

摘要

在训练机器学习模型时，不平衡的数据集总是存在问题，导致分类器往往难以取得令人满意的性能。已经开发了许多方法来解决不平衡数据问题。其中一些数据级方法通过在相邻的少数类样本之间进行线性插值来生成新的数据点，而其他方法则专注于对特定类别的边界样本进行过采样。然而，许多方法没有考虑到易受噪声影响的情况。在本文中，我们提出了一种新的数据级方法，称为Loyalty-SMOTE算法。我们引入了忠诚度的概念来识别数据集中的噪声和边界。在识别出潜在的噪声数据点后，应用SMOTE（合成少数类过采样技术）算法对少数类边界数据进行过采样。随后，基于忠诚度进行去噪处理以获得平衡的数据集。为了扩展我们的设计，引入了吸引力的概念，以便将去噪技术推广到多类问题。在我们的研究中，使用SVM（支持向量机）分类器作为基础学习器，并进行了广泛的实验来评估和比较不同的算法。我们的结果表明，Loyalty-SMOTE在二元和多类UCI数据集上的多个指标上都取得了优异的性能。对于30个二元数据集，它在26个数据集（87%）上获得了最高的F1分数，在29个数据集（97%）上获得了最高的AUROC，在26个数据集（87%）上获得了最高的召回率，在27个数据集（90%）上获得了最高的G-mean分数。对于5个多类数据集，我们的设计分别获得了0.8317、0.6153、0.8537和0.6717的分数。

引言

减轻不平衡数据对机器学习分类的不利影响（Maheshwari，n.a.）始终是一个关键的研究课题。不平衡的数据集在各个领域都很普遍，包括医学疾病检测（Li, Shi, Lin, Lin, 2022a; Li, Hsu, A, 2022b）、用户信用评估（El-Naby等人，2023）、金融风险预防（Krasic和Celar，2022）以及网络安全（Talukder等人，2024）。这些问题不可避免地由于数据收集的偏见（Mehrabi等人，2021）、某些类别的自然稀有性（Hasanin等人，2020）以及实例之间的差异而产生。

在实践中，我们经常遇到许多不平衡的数据集，其中一个类别的样本数量远远超过其他类别。不幸的是，传统的机器学习分类器在模型训练过程中通常需要每个类别都有平衡的样本数量（Shwartz-Ziv等人，2023）。因此，当机器学习分类器从不平衡的数据集中学习时，少数类的分类性能往往不佳。这些分类器通常使用大量的多数类数据进行训练（Filho等人，n.a.），从而导致无法识别少数类，从而降低了整体准确性并引入了系统错误（Naim等人，n.a.）。在某些特定情况下，这些错误可能是不可接受的。例如，在医学疾病检测中，将健康人误诊为患者可能是可以接受的错误，但将患者误诊为健康人可能会导致灾难性的后果。因此，研究可靠的不平衡数据处理算法对于提高机器学习分类器的性能和泛化能力至关重要。

到目前为止，处理不平衡数据的方法通常分为三种主要策略：数据级、成本敏感型和集成学习。此外，数据级策略通过两种子方法来处理数据：过采样和欠采样。过采样的目的是增加少数类的样本数量，而欠采样的目的是减少多数类的样本数量，以达到数据集的平衡。数据级方法的一个显著特点是它们的设计独立于分类器，这使它们成为一个热门的研究课题。在这种情况下，已经提出了各种不平衡数据处理方法，例如SMOTE（合成少数类过采样技术）（Chawla等人，2002）。SMOTE是解决不平衡数据问题的经典设计，随后开发了许多SMOTE的变体，例如Borderline-SMOTE（Sun等人，2022）。

如前所述，数据级方法独立于分类器的设计。但在某些情况下，它们的有效性可能会受到限制；因此，开发了算法来生成额外的样本点以平衡分类性能。然而，可能会创建出不稳定的样本点，这些点可能导致分类器学习不准确（Wu等人，1957）。生成的样本通常基于两个同类样本的线性插值。然而，当在正常样本和噪声或异常值之间执行线性插值时，新样本可能无法准确代表少数类。如图1所示，这是不平衡数据集中过采样时产生噪声的原因，圆圈符号代表少数类A，而三角形符号代表多数类B。来自类A的样本和噪声n可以用来生成一个新的数据点a。不幸的是，很明显，被分类为少数类A的样本a单独位于类B的样本中。这表明a是一个错误的样本。这种现象突显了数据级方法在处理不平衡数据集时面临的一个重大挑战。生成对抗性样本可能会对分类器的性能产生负面影响，需要进一步开发和改进这些技术以减少它们对噪声和不准确性的敏感性。

为了解决对噪声敏感的不平衡数据处理算法的问题，也进行了大量研究。例如，Rekha等人（n.a.）提出了一种使用自适应提升（AdaBoost）算法进行过采样期间噪声过滤的分类方法，有效地减少了噪声对过采样技术性能的负面影响。Vashisht和Rizvi（2023）引入了一种块平衡算法（BBA）来处理不平衡数据，该算法最小化了噪声对不平衡数据集中缺陷预测准确性的影响。

此外，提高生成样本的有效性也是一个重要的研究方向。主流方法将过采样过程应用于去噪类的边界，特别是针对位于类边界的少数类样本。一种著名的边界过采样方法是Borderline-SMOTE算法（Han等人，2005）。然后，Boonchuay等人（2017）对Borderline-SMOTE算法进行了进一步改进。该设计是一种混合过采样技术，结合了Borderline-SMOTE和GANs（生成对抗网络）来生成遵循高斯分布的新合成数据。此外，Majzoub和Elgedawy（2020）引入了一种改进的Borderline-SMOTE算法，称为AB-SMOTE，该算法计算类边界亲和力以实现更准确的样本边界识别。上述算法对提高分类器性能做出了杰出贡献。不幸的是，大多数基于边界的过采样方法主要关注样本的特征关系，而没有充分考虑样本之间的关系。

在本文中，我们提出了一种新的不平衡数据处理算法，称为Loyalty-SMOTE。引入了忠诚度的概念来衡量给定样本点与其相邻样本之间的距离关系。Loyalty-SMOTE算法首先通过计算样本的忠诚度来识别数据集中的潜在噪声，然后引入了一个同化过程来进行去噪。在同化过程中，我们通过引入吸引力的概念充分考虑了样本与其不同类别的相邻样本之间的关系。通过测量样本周围不同类别的吸引力水平，这些值有助于去噪数据集，并使Loyalty-SMOTE能够扩展到多类场景。此外，忠诚度用于识别数据边界，在这些边界上应用SMOTE（合成少数类过采样技术）算法进行数据平衡。最后，我们发现的潜在噪声通过将忠诚度与LOF（局部异常因子）结合进行二次筛选和噪声去除，以提高算法的稳定性和鲁棒性。我们的贡献如下：

•

引入了一个新概念忠诚度，用于量化邻域内其他样本对数据的整体影响。根据忠诚度值，可以评估低忠诚度样本与其相关类别之间的关系，从而识别数据集中的噪声。此外，忠诚度有助于确定数据集中的类边界位置。

•

提出了一种新策略，通过引入吸引力将算法扩展到多类数据。通过计算给定样本的所有类别的吸引力值，可以确定样本倾向于某个类别的倾向，有效地去噪多类数据并识别决策边界。

•

提出了一种新的不平衡数据处理方法Loyalty-SMOTE算法，用于处理不平衡数据集。Loyalty-SMOTE算法增强了合成少数类样本的多样性和准确性，降低了生成噪声样本的概率，并最终提高了分类器的分类性能。

本文的其余部分组织如下。第2节提供了处理类似问题的相关工作。第3节提出了Loyalty-SMOTE算法的整体设计结构。第4节提供了所提方法的实验比较结果。最后，第5节和第6节分别给出了论文的讨论和结论。

Loyalty-SMOTE

在现实生活中，某些实体受到周围环境的影响。例如，一个人的信念和想法可能受到他们每天互动的人的影响。这个想法可以扩展为，彼此靠近的样本点应该属于同一个类别。在机器学习中，样本通常与其周围的样本相似。即使它们的标签不同，它们在特征上也往往相似

数据集

为了评估Loyalty-SMOTE算法的性能，本文使用了四组常用的不平衡数据集。这些数据集的来源和详细信息显示在表1中。

表2、3、4和5分别提供了第1至4组数据集的内容描述。所有数据集都按照7:3的比例分为训练集和测试集。表格中的第四列显示了不平衡率（IR），其定义为

热点排行

新闻专题

联系信箱：

粤ICP备09063491号