一种基于扩展自然邻域的新型自适应超球面过采样方法,用于不平衡分类问题

《Knowledge-Based Systems》:A Novel Adaptive Hyperspherical Oversampling Method Based on Extended Natural Neighborhood for Imbalanced Classification

【字体: 时间:2026年02月28日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  自适应超球采样方法结合扩展自然邻域与差分进化优化,有效解决不平衡数据分类中的噪声敏感和参数敏感问题,实验验证其显著提升分类性能。

  
周宇|岳学珍|李继光|刘星|孙卫明|李继春
华北水利水电大学电气工程学院,中国郑州450045

摘要

对不平衡数据集进行分类仍然是分类器面临的一个重大挑战,过采样技术是一种广泛使用的解决方案。然而,许多现有的过采样方法容易受到噪声点、异常值以及相关超参数敏感性的影响,这可能会降低它们的有效性。为了解决这些问题,本文提出了一种新的过采样方法——基于扩展自然邻域的自适应超球面过采样方法(AHOBENN)。该方法首先使用扩展自然邻域方法将数据集划分为多个区域,然后在少数类边界点周围构建超球面以定义目标过采样区域。通过利用万有引力定律和扩展自然邻域的特性,为每个超球面分配自适应采样权重,从而实现无参数的过采样。此外,还应用差分进化(DE)算法来优化噪声点和异常值的位置,而不是直接消除它们。在四个不同的分类器上对合成数据和公共数据集进行了大量实验。与九种其他过采样方法相比,实验结果表明,所提出的方法显著提高了不平衡数据集的分类性能。

引言

在机器学习领域,对不平衡数据集进行分类是一个关键且被广泛研究的话题[1,2]。在二元不平衡分类任务中,不平衡数据集指的是多数类的样本数量明显多于少数类的数据集。许多现实世界的分类问题本质上都存在数据不平衡现象,例如医学分析[3]、故障诊断[4]、信用风险预测[5]和欺诈检测[6]等。通常,分类器的设计假设数据集是均匀分布的。然而,面对不平衡数据时,分类器往往会偏向多数类,导致难以准确分类少数类样本[7]。错误分类少数类样本可能会产生严重后果。例如,在欺诈检测中,将少数类样本(欺诈交易)视为多数类样本(正常交易)可能会导致重大的财务损失。因此,解决不平衡数据集的分类问题受到了广泛关注。最近针对不平衡数据集的分类方法可以分为三类:算法级方法[8,9]、数据级方法[10,11]以及结合两者的混合方法[12,13]。算法级方法包括成本敏感学习方法[14]和集成学习方法[15]。成本敏感学习方法通过在训练过程中增加对错误分类的惩罚来提高分类模型的性能;集成学习方法通过训练多个弱分类器并将它们组合成一个强大的分类器来提升分类性能。数据级方法通过采样技术(如过采样[16]和欠采样[17])修改原始数据集的分布。过采样通过增加少数类样本的数量来减少不平衡比例;而欠采样则通过移除部分多数类样本来创建平衡的数据集[18]。混合方法结合了算法级和数据级方法,使用采样算法创建平衡的数据子集,在这些子集上训练弱分类器,最后将这些弱分类器集成到一个强分类器中。
在这些方法中,数据级方法应用最为广泛。当面对高度不平衡的数据集时,欠采样方法可能会导致有价值信息的丢失,并由于减少了大量多数类样本而降低分类器的性能[19,20]。相比之下,过采样方法通过增加少数类样本的数量同时保留原始数据集的特征来避免这一问题[21]。研究表明,过采样方法在分类不平衡数据集方面具有优势[22],这也是本文的重点。
已经开发了几种过采样模型来解决不平衡数据分类问题,例如SMOTE[23]、ADASYN[24]、Borderline-SMOTE(BLSMOTE)[25]和Safe-Level-SMOTE(SLSMOTE)[26]。尽管这些方法旨在通过构建平衡的数据集来提高分类性能,但它们在处理包含噪声点、异常值和小型孤立簇的数据集时往往表现不佳。其主要缺点在于没有充分考虑数据集的分布特性,这使得它们的生成策略容易受到噪声点的影响[27]。
为了解决上述问题,本文提出了基于扩展自然邻域的自适应超球面过采样方法(AHOBENN)。该算法使用扩展自然邻域方法将数据集划分为五个区域,并通过在少数类边界样本周围构建超球面来定义过采样区域。它为每个超球面自适应地分配采样权重,并使用DE算法优化噪声点和异常值的位置,最终创建一个平衡的数据集。本文的主要贡献如下:
  • (1)
    我们引入了一种创新的分类策略,利用扩展自然邻域方法将原始数据集分为五个不同的类别:异常值、噪声点、少数类边界点、少数类安全点和多数类安全点。这种方法有效地过滤掉了少数类边界点,为后续的过采样提供了依据,且无需任何参数。在少数类边界样本周围构建超球面以定义过采样区域,同时增强了边界信息。
  • (2)
    受万有引力定律的启发,该算法根据少数类边界点的扩展自然邻域特性调整每个超球面的采样权重,从而实现无参数的过采样。
  • (3)
    我们没有简单地消除可能降低分类器性能的噪声点和异常值,而是使用DE算法优化它们的位置特征。这种策略尽可能保留了原始数据集的特征信息。
  • 相关工作

    自然邻域理论

    SMOTE过采样算法利用KNN原理根据距离选择附近的样本,K最近邻居的数量由该指标确定。然而,选择K的最佳值仍然是一个重大挑战。为了解决这个问题,朱等人提出了自然邻域的概念,提供了一种新的方法来定义邻近关系,从而减轻了选择最佳K值的难度。

    提出的方法

    在本节中,我们首先在第4.1节介绍所提出的过采样方法(AHOBENN)的过程。随后,第4.2节讨论区域划分方法,第4.3节关注超球面的构建,最后第4.4节描述了噪声点和异常值位置的优化。

    实验与分析

    在本节中,我们使用合成数据和真实世界数据集验证了该方法的性能,并将其与九种最先进的采样算法进行了比较。我们的主要任务包括:
  • (1)
    我们通过可视化合成数据集上的过采样结果来突出SMOTE算法及其扩展版本与我们的方法之间的样本分布差异。
  • (2)
    我们在大量真实世界数据集上进行了广泛实验,以评估我们方法的性能。
  • 结论

    为了解决不平衡数据集带来的分类挑战,本文提出了一种基于扩展自然邻域的自适应超球面过采样方法(AHOBENN)。首先,该方法使用扩展自然邻域将数据集划分为多个区域,特别针对少数类的边界点进行过采样。通过关注这些具有挑战性的区域,所提出的方法增强了边界信息,从而提高了分类准确性。其次,受到……的启发

    CRediT作者贡献声明

    周宇:概念构思、方法论、验证、监督、撰写——审阅与编辑。岳学珍:概念构思、方法论、研究、撰写——初稿、可视化。李继光:撰写——审阅与编辑。刘星:撰写——审阅与编辑。孙卫明:撰写——审阅与编辑。李继春:验证、监督、撰写——审阅与编辑。

    数据可用性

    数据可应要求提供。

    CRediT作者贡献声明

    周宇:撰写——审阅与编辑、验证、监督、方法论、概念构思。岳学珍:撰写——初稿、可视化、方法论、研究、概念构思。李继光:撰写——审阅与编辑。刘星:撰写——审阅与编辑。孙卫明:撰写——审阅与编辑。李继春:撰写——审阅与编辑、可视化、监督。

    利益冲突声明

    作者声明他们没有已知的利益冲突或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了国家自然科学基金(U1504622)、河南省高等学校青年骨干教师培养计划项目(2018GGJS079)以及华北水利水电大学第15届研究生创新能力提升项目(NCWUYC-202315048)的支持。此外,该工作还得到了纽卡斯尔大学李继春博士的启动基金(OSR/0550/SASC/S022)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号