《Pattern Recognition》:Noise-Aware Weight Updating in AdaBoost for Handling Mislabeled Data
编辑推荐:
提出噪声感知AdaBoost算法NA2daBoost,通过实例级噪声量化与动态权重调整机制,有效缓解标签噪声对传统AdaBoost性能的影响,在UCI基准数据集上实现10-15%的分类误差率提升,同时保持全数据集利用优势。
Bonhyeok Ku | Jong-Seok Lee
成均馆大学,韩国水原市Jangan-gu Seobu-ro 2066号,邮编16419
摘要
在实际的分类任务中,错误标记的样本会带来重大挑战,通常会降低传统机器学习算法(如AdaBoost)的性能。现有方法要么通过数据过滤丢弃潜在的干净样本,要么忽略不同样本之间的噪声异质性,从而限制了它们的有效性。为了解决这个问题,我们提出了一种新的提升算法,称为Noise-Aware AdaBoost(NA2daBoost),该算法将样本的噪声水平纳入AdaBoost框架的权重更新机制中。具体来说,我们的算法根据样本被错误标记的可能性来分配和更新权重:被识别为更可能含有噪声的样本在分类错误时会经历相对较小的权重增加,在正确分类时会经历较大的权重减少;而被识别为噪声水平较低的样本在分类错误时会经历较大的权重增加,在正确分类时会经历较小的权重减少。我们从理论上定义并分析了这种强分类器的误差上限,证明了我们的噪声感知方法能够逐步降低这一上限。在UCI基准数据集上的实验结果表明,所提出的算法将错误率从15-25%降低到了10-15%,并且在10-40%的噪声水平下,其分类性能优于传统的AdaBoost和现有的抗噪声AdaBoost方法。我们的权重调整策略在噪声抑制和干净样本保留之间实现了最佳平衡,显示出在所有噪声水平下的稳定和鲁棒性能。
引言
大多数现有的机器学习算法假设训练数据都是正确标记的。然而,在实践中,一些数据样本可能包含错误的类别标签,这种现象被称为错误标记数据或类别标签噪声。这种错误标记数据可能由多种原因引起,包括标签信息不足[1]、编码错误[2]、专家的主观判断[4]以及矛盾的示例[5]。在受标签噪声影响的数据集上训练的分类器通常会面临泛化能力下降和过拟合风险增加的问题,导致随着噪声比的增加,分类准确性会下降[6]、[7]、[8]。
为了解决这一挑战,人们提出了多种抗噪声学习技术。最常用的方法是数据清洗方法,这些方法使用提升[9]、[10]等技术过滤出可能被错误标记的样本,以及编辑最近邻和异常值检测方法[11]。通过识别和消除疑似错误标记的样本,这些方法有助于防止噪声引起的学习性能下降。此外,还引入了概率模型通过聚类[12]和贝叶斯推断[13]来估计标签置信度,从而将硬标签转换为能够捕捉不确定性的软标签,进一步减轻噪声数据的影响。还提出了基于模型的方法来增强模型本身对抗噪声的鲁棒性。例如,研究了具有修改后的分裂标准的决策树以防止在噪声条件下的过拟合[14]。虽然支持向量机(SVM)已经在固定标签翻转概率的情况下被用于校正核矩阵,但它们对抗对抗性噪声的鲁棒性仍然有限[15]。最近,还提出了基于深度学习的方法来处理标签噪声,包括噪声自适应损失函数[16]、标签校正方法[16]、具有互学习的样本选择[17]以及标签平滑[18]、[19]等正则化技术。这些方法通过利用深度神经网络的强大表示学习能力,有效区分干净样本和噪声样本,在处理具有标签噪声的复杂高维数据时表现出比传统方法更好的性能。
在各种方法中,提升方法(特别是AdaBoost)由于其可解释性、计算效率和强大的理论基础而仍然具有吸引力。然而,AdaBoost已被证明本质上容易受到标签噪声的影响[20]。研究[21]、[22]表明,这种脆弱性是由于训练数据集中的错误标记样本导致AdaBoost的迭代加权过程过度强调噪声样本,最终降低了分类器的性能。为了解决这一限制,提出了几种方法,包括修改损失函数[23]、[24]、施加权重约束[25]、[26]、[27]以及噪声清洗[28]、[29]。尽管这些方法显示出有效性,但它们通常存在一些限制,例如数据集收缩或将样本二分为噪声样本或干净样本,而不是根据它们特定的噪声可能性连续调整样本权重。这些限制可能会损害最优分类器的泛化性能。
为了克服这些限制,我们提出了一种名为Noise-Aware AdaBoost(NA2daBoost)的新提升算法。我们的算法将样本特定的噪声水平纳入AdaBoost的权重更新机制中。具体来说,根据样本被错误标记的可能性来更新权重:被识别为更可能含有噪声的样本在分类错误时会经历相对较小的权重增加,在正确分类时会经历较大的权重减少;而被识别为噪声水平较低的样本在分类错误时会经历较大的权重增加,在正确分类时会经历较小的权重减少。由于我们的方法不删除样本,因此避免了数据集收缩。此外,通过使用连续的噪声水平估计而不是二分类,我们的方法提供了一个更通用和灵活的框架。
本研究的主要贡献包括:
连续噪声量化:我们引入了一种连续的度量方法,使用k最近邻不一致分数来量化样本级别的噪声概率,超越了二分的干净/噪声分类。
充分利用数据集:我们的方法通过自适应权重调整保留所有训练样本,而不是删除疑似噪声样本,在处理标签噪声时保持完整的数据集信息。
动态权重调整框架:我们提出了一个系统化的框架,用于设计具有理论保证的噪声感知权重调整模块,提供了四种具有不同行为特征的具体实现。
本文的其余部分结构如下。第2节概述了在错误标记数据条件下的分类,特别关注基于AdaBoost的方法。第3节详细介绍了所提出的方法,包括算法描述和理论依据。第4节通过在不同噪声水平下的各种真实世界数据集上的实验结果证明了我们方法的有效性。最后,在第5节得出结论。
小节片段
错误标记数据下的分类
错误标记数据下的分类主要通过三种方法来解决:数据清洗、概率建模和基于模型的适应。数据清洗方法旨在识别并从数据集中移除可能被错误标记的样本。例如,先前的研究表明,在提升过程中监控边缘值可以有效区分噪声数据,因为正确标记的样本表现出边缘值下降,而错误标记的样本保持高边缘值[9]。
提出的方法
在本节中,我们介绍了我们提出的提升方法NA2daBoost。首先,介绍了一种量化每个样本噪声水平的度量方法。然后,描述了实现有效处理错误标记数据的关键思想的权重调整模块。基于这些组件,详细介绍了完整的NA2daBoost算法,并提供了支持该算法的理论依据。
由于提出的NA2daBoost算法是标准AdaBoost方法的变体,我们首先定义
实验设置
由于我们的主要目标是开发一种能够鲁棒处理错误标记数据的基于AdaBoost的算法,我们系统地评估了在不同标签噪声程度下的分类性能。使用15个广泛使用的基准数据集进行了比较实验,其中包括来自UCI机器学习库的14个二分类数据集[42]和Mias乳腺X光数据集,这是一个真实的医学成像数据集。这些数据集涵盖了不同的领域,样本数量各不相同
结论
在本文中,我们提出了NA2daBoost,这是一种自适应的提升算法,旨在减轻AdaBoost在存在标签噪声时的性能下降。与传统方法不同,我们的方法通过从k最近邻(kNN)不一致分数派生的连续度量来量化样本的噪声程度。这种噪声度量通过专用的权重调整模块集成到权重更新过程中,从而实现
CRediT作者贡献声明
Bonhyeok Ku:撰写——原始草稿,验证,软件,方法论,形式分析,数据整理,概念化。Jong-Seok Lee:撰写——审阅与编辑,撰写——原始草稿,验证,监督,项目管理,方法论,研究,资金获取,形式分析,概念化。
利益冲突声明
作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。
致谢
本研究部分得到了韩国政府(MSIT)资助的韩国国家研究基金会(Grant number RS-2020-NR049544、RS-2022-NR068758和RS-2024-00361377)的支持,以及韩国政府(MSIT)资助的信息与通信技术规划与评估研究所(IITP)(Grant number RS-2025-02214591)的支持。