针对高维不平衡数据分类的增强型多视图集成方法

《Engineering Applications of Artificial Intelligence》:Enriched multi-view ensemble approach for high-dimensional imbalanced data classification

【字体: 时间:2026年01月24日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  高维不平衡数据分类难题,提出EMEA方法。通过特征优化(EMO)提取多样有效特征,优先集成(PIS)构建高质量视图,结合SMOTE重采样平衡样本。实验表明EMEA在16个数据集上显著优于主流方法。

  
徐玉红|丁东毅|黄佩洁|余志文|陈C.L.菲利普
中国华南农业大学数学与信息学院

摘要

高维不平衡数据分类是现实世界应用中的一个挑战性问题,其中大量的无效特征和类别不平衡严重阻碍了分类器的性能。由于特征维度较高,传统的不平衡数据处理方法难以获得满意的结果。为了解决这些问题,本文提出了一种富集的多视图集成方法(EMEA),旨在构建一个准确且具有鲁棒性的分类器集成系统,以处理高维类别偏斜的数据。首先,设计了一种富集的多视图优化(EMO)算法,从高维不平衡数据中提取有效且多样的特征,并通过多场景下的子视图学习来提升分类能力。接着,开发了一种优先级集成子视图(PIS)方法,对子视图进行选择性集成,以构建一个高质量的分类视图,从而增强高维不平衡数据分类的决策能力。最后,EMEA通过重采样生成一个平衡的子集,减轻类别不平衡对基础分类器的影响。在16个高维类别偏斜数据集上的实验表明,EMEA优于其他主流的不平衡集成方法。

引言

在现实世界应用中,类别不平衡问题很常见(Zhai等人,2022年;Wei等人,2022年;Li等人,2021a年;Zhu等人,2022年),由于多数类样本的数量远多于少数类样本,算法往往倾向于偏向多数类(Bader-El-Den等人,2019年;Chen等人,2022年)。这严重影响了算法对少数类的预测能力,但在大多数情况下,正确识别少数类实例具有更大的意义。例如,在疾病诊断中,误诊患者可能会带来灾难性的后果。对于高维不平衡数据,大量的无效特征和类别不平衡交织在一起,进一步增加了分类的难度(Xu等人,2021年;Blagus和Lusa,2013年;Maldonado等人,2014年)。如图1所示,高维不平衡数据通常具有显著的类别重叠和偏斜分布,这对分类提出了巨大挑战。传统的降维技术,包括特征提取和选择,往往无法解决伴随的类别不平衡问题。因此,迫切需要开发有效的方法来处理高维类别偏斜的数据。
常见的不平衡处理策略包括重采样、成本敏感学习和集成学习。重采样是一种广泛使用的预处理方法,旨在平衡各类别之间的分布(Wang等人,2018年)。根据重采样的类别类型,它可以分为过采样、欠采样和混合采样。尽管重采样具有灵活性和通用性,但其效果受到数据质量的影响。对于混沌分布,过采样可能会产生噪声,对分类器产生负面影响。欠采样通过降低多数类样本的比例来重新平衡类别分布,但容易导致信息丢失。成本敏感学习通过调整样本权重来使分类器更加关注少数类,然而寻找最优权重较为困难(Sun等人,2015年)。集成学习利用多个分类器的预测结果来提升性能(Yu等人,2019年;Xu等人,2023a年;Chen等人,2020年;Xu等人,2023b年)。结合重采样策略的集成方法可以为分类器生成多样化的平衡子集,从而提高其在不平衡数据上的性能。然而,大多数基于重采样和集成的方法都是直接在原始空间中实现的,其中高维类别偏斜数据中的无效特征可能会造成干扰,甚至导致算法失败。为了解决这些问题,本文提出了一种新的富集多视图集成方法(EMEA)。在特征优化方面,设计了富集的多视图优化(EMO)算法,从高维不平衡数据中提取更多多样化和具有区分度的特征。具体来说,EMO中提出了一种基于相似性的欠采样(SU)方法,用于创建多样化的平衡子集,既能挖掘关键分布信息,又能减轻类别不平衡的影响。基于SU生成的重采样子集,EMO进一步执行NCA(Goldberger等人,2004年)算法,以获得具有区分度和紧凑性的多样化富集子视图。为了构建更有效的优化视图,开发了优先级集成子视图(PIS)方法,该方法引入了一种新的评估标准,根据数据分布进行优先级集成。最后,EMEA对优化后的视图应用SMOTE(Chawla等人,2002年)算法,生成一个平衡的子集供分类器使用。在16个高维类别不平衡数据集上的实验结果证明了EMEA的有效性。
本文的贡献总结如下:
(1) 我们提出了一种EMO算法,用于生成多样化和紧凑的富集子集,能够捕捉高维类别不平衡数据中的关键分布信息,提升特征的分类能力。
(2) 我们开发了PIS算法,通过优先集成具有更高识别质量的富集子集,创建了一个更加稳健的优化视图。
(3) 通过结合EMO、PIS和SMOTE,我们进一步提出了一个用于高维不平衡数据分类的EMEA方法。与主流的不平衡集成方法进行了广泛的比较,结果证实了EMEA的有效性。
本文的其余部分结构如下:第2节总结了相关的不平衡数据分类工作;第3节详细描述了EMEA;第4节提供了实验结果和分析;第5节展示了结论和未来的研究方向。

相关研究

相关研究

当某一类的样本数量远大于其他类别时,就会产生类别不平衡现象,这可能导致学习器偏向多数类。然而,在大多数情况下,少数类样本往往包含更有价值的信息(Kang等人,2018年;Díez-Pastor等人,2015年;Khoshgoftaar等人,2011年;Chen等人,2024年)。已经设计了多种策略来改善不平衡数据上的分类性能,这些策略涉及数据

提出的方法

图2详细展示了EMEA的结构,其中每个集成成员包括富集的多视图优化(EMO)、优先级集成子视图(PIS)和数据重采样。EMEA旨在通过优化特征和重新平衡样本来提升分类器在高维不平衡数据上的性能。
我们提出这些方法的动机如下:
(1) 考虑到高维不平衡数据中类别不平衡和无效特征的影响,

实验设置

我们的方法专注于二元不平衡分类,这与大多数不平衡分类研究一致。在本节中,我们详细介绍了实验数据集、评估指标和实现细节。

结论

在本文中,我们提出了一种用于高维不平衡数据分类的EMEA方法,旨在通过优化特征和重新平衡样本来提升性能。我们的集成框架的优点如下:首先,EMEA使用EMO构建多个紧凑的富集子集,能够有效捕捉高维不平衡数据中的关键分布信息,同时提高性能和多样性。

CRediT作者贡献声明

徐玉红:撰写 – 审稿与编辑,监督。丁东毅:撰写 – 原稿撰写,调查,概念化。黄佩洁:撰写 – 审稿与编辑,监督。余志文:撰写 – 审稿与编辑,监督。陈C.L.菲利普:撰写 – 审稿与编辑,监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究结果。

致谢

本工作得到了国家自然科学基金(编号:62306119)和广州市科技项目(编号:2025A04J3436)的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号