EC-EBO:通过外部约束聚类实现熵平衡过采样,以处理不平衡数据
《Knowledge-Based Systems》:EC-EBO: Entropy-Balanced Oversampling via Externally Constrained Clustering for Imbalanced Data
【字体:
大
中
小
】
时间:2026年02月15日
来源:Knowledge-Based Systems 7.6
编辑推荐:
解决类不平衡问题的新方法熵平衡外部约束聚类过采样(EC-EBO)通过层次聚类将少数类划分为纯净子集群,减少与多数类的干扰,再利用熵平衡模型自适应定义合成样本生成区域,结合hill-climbing优化和熵加权分配策略,有效处理类重叠与复杂子集群问题。实验表明EC-EBO在60个基准数据集上优于现有方法,尤其在类重叠和结构复杂的场景中表现突出。
陶亮亮|余芬|王发强|王青雅
江西工业职业技术学院信息工程学院,中国江西省九江市332007
摘要
类别不平衡对机器学习构成了重大挑战,尤其是当少数类别具有复杂的内部结构、与多数类别重叠或形成异构子簇时。传统的过采样方法往往忽略了这些特征,这限制了它们提高分类器性能的能力。为了克服这些限制,我们提出了“通过外部约束聚类实现熵平衡过采样”(EC-EBO)方法。在EC-EBO中,首先使用外部约束的层次聚类算法将少数样本划分为同质子簇,从而减少来自附近多数类别样本的干扰。然后构建一个熵平衡模型来定义合成样本生成的适应区域,该模型同时考虑了簇熵和与多数类别样本的接近程度。在这些区域内,通过具有概率终止机制的爬山算法迭代优化候选样本,以防止过度集中并促进多样性。此外,采用熵加权分配策略将更多的合成样本分配给代表性不足且难以学习的子簇,从而提高它们的区分能力。在60个基准不平衡数据集上进行的广泛实验表明,EC-EBO一致性地优于十种最先进的过采样技术,在类别重叠和少数类别结构复杂的场景中表现出特别强的优势。
引言
在许多实际分类场景中,样本在各个类别之间的分布高度不平衡,导致显著的不平衡比率[1]。这种现象在图像识别[2]、目标检测[3][4][5]、文本分类[6]、网络入侵检测[7]、工业系统监控[8]、破产预测[9]和石油泄漏检测[10]等领域尤为常见。在二元分类的背景下,类别通常根据样本大小进行分类,较小的类别称为少数类,较大的类别称为多数类[11]。从应用的角度来看,少数样本通常包含关键信息[12]。然而,传统的分类方法倾向于假设数据是平衡的,并优化整体准确性,这可能导致偏向多数类的模型,从而削弱了对少数样本的识别[13]。
在过去的二十年里,人们进行了大量的研究来缓解这一挑战,产生了三类广泛的技术[14]:
- •
数据级方法:这些方法通过生成额外的合成少数样本或移除多余的多数样本来调整数据分布[15][16]。
- •
算法级方法:这些方法重新设计或调整学习过程,使其更好地适应少数类别的特征[17][18]。
- •
混合方法:这些方法结合了数据级和算法级的思想以提高性能[19][20]。
在这些方法中,数据级方法因其能够独立于特定分类器运行而受到广泛接受,因此具有高度的灵活性[21]。然而,最近的研究表明,类别不平衡本身并不是导致分类器性能不佳的唯一因素。相反,数据的内在属性(如小的离散值、异常值、数据偏移和类别重叠)的结合显著增加了学习难度[22]。特别是,不同类别的样本混合的重叠区域被认为是最具挑战性的因素之一。当类别重叠与不平衡同时存在时,会加剧数据的复杂性,并引发其他结构问题,如代表性不足的少数子簇[23]。
常见的数据级技术通常依赖于$k$-最近邻机制来识别生成合成少数样本的合适区域。然而,在存在嵌入的少数样本或$k$选择不当的情况下,这些方法可能会无意中生成加剧类别重叠的合成样本[24][25][26]。为了解决这个问题,一些方法将合成样本的生成限制在超球形邻域内,但这种简化往往无法捕捉不规则的决策边界,可能导致过拟合[27][28]。更近期的尝试通过在重采样之前或之后丢弃模糊样本来缓解类别重叠。尽管如此,这种做法可能会扭曲内在的数据分布,引起分布偏移,并最终损害分类器的泛化能力[29][30][31][32]。尽管取得了这些进展,现有方法仍然无法同时解决类别重叠、不规则的少数簇结构和分布偏移等复合挑战——这突显了需要一种更加适应性和原则性的过采样解决方案。
为了填补这一空白,我们提出了一种名为“通过外部约束聚类实现熵平衡过采样”(EC-EBO)的新方法。EC-EBO的动机是有效的过采样应保持少数簇的完整性,同时适应地在少数类别的异构子簇区域生成样本。首先,使用外部约束的层次聚类将少数样本划分为纯子簇,确保最小化来自多数类别邻居的干扰。接下来,构建一个熵平衡模型来划定适应性合成区域,在这些区域内通过具有概率终止机制的爬山算法迭代优化候选样本,确保它们在熵平衡区域内的均匀分布。最后,采用熵加权分配策略将更多的合成样本分配给复杂或代表性不足的子簇,从而提高具有挑战性的少数区域的表示能力。
本工作的主要贡献总结如下:
- •
我们引入了一种外部约束的聚类机制,通过防止受附近多数类别样本影响的合并来保持少数子簇的结构纯度。
- •
我们设计了一个熵平衡模型,该模型自适应地定义合成区域,并通过具有概率终止机制的爬山算法优化候选样本,以确保均匀分布。
- •
我们开发了一种熵加权分配策略,该策略自适应地将合成样本分配到少数子簇中,改善了具有挑战性和异构区域的表示能力。
- •
通过在60个基准数据集上的广泛实验,我们证明EC-EBO一致性地优于十种最先进的过采样方法,特别是在结构复杂的数据集上。
本文的其余部分结构如下。第2节回顾了处理类别重叠和不平衡的相关方法,强调了现有方法的局限性并阐述了EC-EBO方法的设计动机。第3节描述了EC-EBO的理论基础和实现细节,并分析了其计算成本。第4节展示了实验结果以及严格的性能评估。最后,第5节总结了研究并概述了未来研究的方向。
相关工作
相关工作
数据级技术旨在通过改变训练数据的分布来解决类别不平衡问题,通常采用两种主要策略:增加少数类别样本(过采样)或减少多数类别样本(欠采样)。由于本研究关注二元不平衡学习——其中类别重叠和少数子簇的碎片化尤为突出——我们主要回顾了为二元分类设计的过采样策略。
提出的方法
为了解决SMOTE及其衍生物的固有局限性,我们提出了一种名为“通过外部约束聚类实现熵平衡过采样”(EC-EBO)的新方法。在第一阶段,使用外部约束的层次聚类算法将少数类别划分为几个纯子簇,确保簇内的高同质性。随后,根据每个样本的类别成员概率估计其熵。
实验研究
为了全面分析EC-EBO方法的性能,我们将实验分为三个不同的阶段。在第一阶段,我们通过敏感性分析研究了关键算法参数的影响。第二阶段比较了EC-EBO与几种代表性的数据级过采样技术,特别关注了复杂数据特征的影响。在最后阶段,我们检验了EC-EBO的优势和潜力
结论与未来工作
在本文中,我们提出了一种新的过采样算法——通过外部约束聚类实现熵平衡过采样(EC-EBO),专门用于解决具有复杂特征的数据集中的类别不平衡问题,例如高类别重叠和异构的少数子簇。EC-EBO首先使用外部约束的层次聚类算法将少数样本划分为纯子簇,最小化来自多数类别样本的干扰。
CRediT作者贡献声明
陶亮亮:撰写——原始草稿、方法论、调查、形式分析、数据管理、概念化。余芬:撰写——审阅与编辑、形式分析。王发强:可视化、调查、数据管理。王青雅:验证、资源。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
我们的工作得到了中国国家自然科学基金(项目编号52364007)和中国江西省教育科技青年基金(项目编号GJJ2204821)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号