减轻不平衡数据对机器学习分类的不利影响(Maheshwari,n.a.)始终是一个关键的研究课题。不平衡的数据集在各个领域都很普遍,包括医学疾病检测(Li, Shi, Lin, Lin, 2022a; Li, Hsu, A, 2022b)、用户信用评估(El-Naby等人,2023)、金融风险预防(Krasic和Celar,2022)以及网络安全(Talukder等人,2024)。这些问题不可避免地由于数据收集的偏见(Mehrabi等人,2021)、某些类别的自然稀有性(Hasanin等人,2020)以及实例之间的差异而产生。
在实践中,我们经常遇到许多不平衡的数据集,其中一个类别的样本数量远远超过其他类别。不幸的是,传统的机器学习分类器在模型训练过程中通常需要每个类别都有平衡的样本数量(Shwartz-Ziv等人,2023)。因此,当机器学习分类器从不平衡的数据集中学习时,少数类的分类性能往往不佳。这些分类器通常使用大量的多数类数据进行训练(Filho等人,n.a.),从而导致无法识别少数类,从而降低了整体准确性并引入了系统错误(Naim等人,n.a.)。在某些特定情况下,这些错误可能是不可接受的。例如,在医学疾病检测中,将健康人误诊为患者可能是可以接受的错误,但将患者误诊为健康人可能会导致灾难性的后果。因此,研究可靠的不平衡数据处理算法对于提高机器学习分类器的性能和泛化能力至关重要。
到目前为止,处理不平衡数据的方法通常分为三种主要策略:数据级、成本敏感型和集成学习。此外,数据级策略通过两种子方法来处理数据:过采样和欠采样。过采样的目的是增加少数类的样本数量,而欠采样的目的是减少多数类的样本数量,以达到数据集的平衡。数据级方法的一个显著特点是它们的设计独立于分类器,这使它们成为一个热门的研究课题。在这种情况下,已经提出了各种不平衡数据处理方法,例如SMOTE(合成少数类过采样技术)(Chawla等人,2002)。SMOTE是解决不平衡数据问题的经典设计,随后开发了许多SMOTE的变体,例如Borderline-SMOTE(Sun等人,2022)。
如前所述,数据级方法独立于分类器的设计。但在某些情况下,它们的有效性可能会受到限制;因此,开发了算法来生成额外的样本点以平衡分类性能。然而,可能会创建出不稳定的样本点,这些点可能导致分类器学习不准确(Wu等人,1957)。生成的样本通常基于两个同类样本的线性插值。然而,当在正常样本和噪声或异常值之间执行线性插值时,新样本可能无法准确代表少数类。如图1所示,这是不平衡数据集中过采样时产生噪声的原因,圆圈符号代表少数类A,而三角形符号代表多数类B。来自类A的样本和噪声n可以用来生成一个新的数据点a。不幸的是,很明显,被分类为少数类A的样本a单独位于类B的样本中。这表明a是一个错误的样本。这种现象突显了数据级方法在处理不平衡数据集时面临的一个重大挑战。生成对抗性样本可能会对分类器的性能产生负面影响,需要进一步开发和改进这些技术以减少它们对噪声和不准确性的敏感性。
为了解决对噪声敏感的不平衡数据处理算法的问题,也进行了大量研究。例如,Rekha等人(n.a.)提出了一种使用自适应提升(AdaBoost)算法进行过采样期间噪声过滤的分类方法,有效地减少了噪声对过采样技术性能的负面影响。Vashisht和Rizvi(2023)引入了一种块平衡算法(BBA)来处理不平衡数据,该算法最小化了噪声对不平衡数据集中缺陷预测准确性的影响。
此外,提高生成样本的有效性也是一个重要的研究方向。主流方法将过采样过程应用于去噪类的边界,特别是针对位于类边界的少数类样本。一种著名的边界过采样方法是Borderline-SMOTE算法(Han等人,2005)。然后,Boonchuay等人(2017)对Borderline-SMOTE算法进行了进一步改进。该设计是一种混合过采样技术,结合了Borderline-SMOTE和GANs(生成对抗网络)来生成遵循高斯分布的新合成数据。此外,Majzoub和Elgedawy(2020)引入了一种改进的Borderline-SMOTE算法,称为AB-SMOTE,该算法计算类边界亲和力以实现更准确的样本边界识别。上述算法对提高分类器性能做出了杰出贡献。不幸的是,大多数基于边界的过采样方法主要关注样本的特征关系,而没有充分考虑样本之间的关系。
在本文中,我们提出了一种新的不平衡数据处理算法,称为
Loyalty-SMOTE。引入了
忠诚度的概念来衡量给定样本点与其相邻样本之间的距离关系。Loyalty-SMOTE算法首先通过计算样本的忠诚度来识别数据集中的潜在噪声,然后引入了一个同化过程来进行去噪。在同化过程中,我们通过引入
吸引力的概念充分考虑了样本与其不同类别的相邻样本之间的关系。通过测量样本周围不同类别的吸引力水平,这些值有助于去噪数据集,并使Loyalty-SMOTE能够扩展到多类场景。此外,忠诚度用于识别数据边界,在这些边界上应用SMOTE(合成少数类过采样技术)算法进行数据平衡。最后,我们发现的潜在噪声通过将忠诚度与LOF(局部异常因子)结合进行二次筛选和噪声去除,以提高算法的稳定性和鲁棒性。我们的贡献如下:
•引入了一个新概念忠诚度,用于量化邻域内其他样本对数据的整体影响。根据忠诚度值,可以评估低忠诚度样本与其相关类别之间的关系,从而识别数据集中的噪声。此外,忠诚度有助于确定数据集中的类边界位置。
•提出了一种新策略,通过引入吸引力将算法扩展到多类数据。通过计算给定样本的所有类别的吸引力值,可以确定样本倾向于某个类别的倾向,有效地去噪多类数据并识别决策边界。
•提出了一种新的不平衡数据处理方法Loyalty-SMOTE算法,用于处理不平衡数据集。Loyalty-SMOTE算法增强了合成少数类样本的多样性和准确性,降低了生成噪声样本的概率,并最终提高了分类器的分类性能。
本文的其余部分组织如下。第2节提供了处理类似问题的相关工作。第3节提出了Loyalty-SMOTE算法的整体设计结构。第4节提供了所提方法的实验比较结果。最后,第5节和第6节分别给出了论文的讨论和结论。