DI-OOB:利用数据不兼容性来提高数据估值的离群值估计精度

《Expert Systems with Applications》:DI-OOB: Leveraging Data Incompatibility to Enhance Out-of-bag Estimate for Data Valuation

【字体: 时间:2026年02月28日 来源:Expert Systems with Applications 7.5

编辑推荐:

  数据估值旨在量化单个数据点对机器学习模型预测性能的贡献,DI-OOB框架通过数据不相容性分区和交叉子集兼容性过滤机制解决传统Data-OOB方法中错误数据干扰估值的问题,在14个数据集上F1分数平均提升10.4%。

  
乔宇琪|孙光路|王振华|孙白宇|朱素霞
哈尔滨工业大学计算机科学与技术学院,哈尔滨,150080,中国

摘要

数据评估旨在量化单个数据点对机器学习模型预测性能的贡献。它已被广泛应用于数据集优化和解释模型行为等任务中。最近提出了一种新的数据评估框架Data-OOB,该框架利用弱学习器模型高效地评估数据。然而,错误数据的存在可能会在训练过程中污染弱学习器模型,导致评估边界混乱。在这项工作中,我们提出了一个新的数据评估框架DI-OOB来应对这一挑战。该框架利用数据不兼容性属性来表征子集之间的泛化关系,从而将训练数据集划分为具有不同不兼容性水平的多个子集。在此基础上,DI-OOB进一步引入了跨子集兼容性过滤机制,从基于不兼容性的划分中选择高质量子集。通过这种机制,DI-OOB在有效过滤可能对数据评估产生不利影响的噪声数据点的同时,保留了代表性信息。最后,DI-OOB在高质量子集上训练弱学习器模型,以确保基于袋外估计策略的数据评估更加准确。为了验证所提出框架的有效性,我们使用14个分类数据集系统地评估了DI-OOB。结果表明,DI-OOB在噪声数据检测任务上的F1分数平均提高了10.4%,优于最佳基线方法。我们的代码可公开获取于:https://github.com/YuqiJiao/code_DI

引言

提高模型的预测性能通常依赖于高质量的训练数据,但现实世界的数据往往包含测量和注释错误。因此,数据评估已成为机器学习中的一个重要研究领域。主要目标是量化每个数据点对模型训练的贡献。
现有的数据评估方法主要基于Shapley值(Jia, Dao, Wang, Hubis, Hynes, Gürel, Li, Zhang, Song, Spanos, 2019b, Winter, 2002),这些方法通过考虑不同基数下的边际贡献来计算数据的价值。这些方法在噪声示例检测(Tang et al., 2021)和数据选择(Schoch, Mishra, & Ji, 2023)等任务中显示出明显的效果。但它们需要较大的计算成本,因此无法应用于大规模数据集。尽管已经提出了许多方法来降低计算复杂性,但它们仍然需要不合理的假设和额外的计算成本。因此,Kwon等人(Kwon & Zou, 2023)提出了一种用于装袋模型的数据评估方法Data-OOB,该方法利用袋外估计(Efron, 1992, Efron, Tibshirani, 1997)来降低数据评估的成本。然而,当训练数据集包含噪声样本时,装袋模型的可靠性可能会受到影响。具体来说,基于装袋模型的袋外估计对于干净数据和噪声数据有不同的估计边界。在噪声污染下,噪声数据的估计上限会上升,而干净数据的估计下限会下降。随着噪声数据的增加,这些边界最终会反转。结果是Data-OOB无法准确评估单个数据点对模型性能的贡献。
数据不兼容性(Jin, Sun, & Rinard, 2023)被用来解决Data-OOB中错误数据污染装袋模型的问题。数据不兼容性被定义为一组数据无法提高另一组数据的泛化能力。错误数据与干净数据不兼容,因为错误数据通常会降低模型对干净数据的泛化能力。因此,我们利用数据不兼容性将训练数据集划分为不能相互泛化的不相交子集。由于不相交集合的兼容性属性表明,在干净子集上训练的模型在潜在错误子集上的测试性能低于随机猜测,我们利用这一属性来移除包含大量错误数据的子集。剩余的子集用于训练装袋模型。这种方法不仅减少了错误数据对装袋模型的负面影响,还有助于装袋模型更好地区分数据之间的差异。
我们论文的主要贡献如下:
  • 我们提出了DI-OOB框架,该框架包括数据选择部分和数据评估部分,有效解决了Data-OOB中的数据污染问题。
  • 我们提出了一种基于数据不兼容性的数据选择算法。该算法根据模型训练过程中出现的不兼容性属性将训练数据集聚类为有限子集,并使用不相交集合的兼容性属性选择高质量子集进行数据评估。
  • 我们提出了一种具有可信袋外估计的数据评估算法。该算法通过对高质量数据进行自助采样来训练装袋模型,减少了错误数据的负面影响,并确保了更准确的数据评估结果。
  • 我们使用14个在以往数据评估论文中常用的公开数据集系统地评估了DI-OOB。结果表明,DI-OOB的表现显著优于现有方法:在噪声数据检测任务上,其F1分数比最佳基线高出10.4%。
  • 本文的其余部分组织如下。第2节回顾了数据评估和数据选择的相关工作。第3节回顾了Data-OOB并对其固有的局限性进行了理论分析。第4节介绍了我们提出的DI-OOB框架,该框架有效解决了这些局限性。第5节展示了广泛的实验,证明了DI-OOB相对于最先进数据评估方法的优点。最后,第6节总结了本文。

    小节片段

    数据评估

    数据评估旨在量化每个训练数据点对学习模型整体性能的贡献,并已广泛应用于数据定价(Tian et al., 2023)、模型行为解释(Koh & Liang, 2017)和多模态学习(Luo, Xia, Tianshu, Li, 2024, Wei, Feng, Wang, Hu, 2024)等领域。
    最常用的数据评估方法基于边际贡献,例如留一法(LOO)(Koh & Liang, 2017),该方法通过评估

    Data-OOB的理论分析

    在本节中,首先回顾了Data-OOB的数据评估过程(第3.1节)。随后,分析了Data-OOB的评估结果随错误数据点数量的变化情况。研究发现,错误数据直接干扰了Data-OOB的评估(第3.2节)。由于本节使用了大量符号,我们提供了表2作为阅读辅助。

    提出的方法:DI-OOB

    在上一节的讨论中,错误数据对Data-OOB的数据评估是有害的。受数据不兼容性概念(Jin et al., 2023)的启发,提出了数据评估框架DI-OOB。如图2所示,它包括数据选择(第4.1节)和数据评估(第4.2节),可以显著减轻错误数据的不良影响。由于本节使用了大量缩写和符号,我们提供了

    实验

    在本节中,通过各种用例系统地评估了DI-OOB的有效性,例如检测噪声数据、移除数据点、使用加权数据进行学习以及时间比较。此外,还通过消融分析评估了DI-OOB。
    基线方法。 DI-OOB与5种基线方法进行了比较:Data-OOB(Kwon & Zou, 2023)、AME(Lin et al., 2022)、Beta Shapley(Kwon & Zou, 2022)、Data Shapley(Ghorbani & Zou, 2019)和LOO(Koh & Liang, 2017)。

    结论

    在本文中,我们提出了DI-OOB,与Data-OOB相比,它对错误数据的污染具有更强的鲁棒性。DI-OOB采用了更可靠的装袋模型进行数据评估。装袋模型是在通过数据不兼容性选择的高质量子集上训练的。我们的理论分析表明,装袋模型在数据评估中具有更稳定的估计边界,确保了更准确的数据值。此外,我们的理论分析还表明,数据

    CRediT作者贡献声明

    乔宇琪:撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件、方法论、调查、形式分析、数据管理、概念化。孙光路:撰写 – 审稿与编辑、监督、资源管理、项目管理、资金获取、形式分析、概念化。王振华:撰写 – 审稿与编辑、监督、调查、形式分析、概念化。孙白宇:撰写 – 审稿与编辑、监督、调查、形式分析

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号