提高模型的预测性能通常依赖于高质量的训练数据,但现实世界的数据往往包含测量和注释错误。因此,数据评估已成为机器学习中的一个重要研究领域。主要目标是量化每个数据点对模型训练的贡献。
现有的数据评估方法主要基于Shapley值(Jia, Dao, Wang, Hubis, Hynes, Gürel, Li, Zhang, Song, Spanos, 2019b, Winter, 2002),这些方法通过考虑不同基数下的边际贡献来计算数据的价值。这些方法在噪声示例检测(Tang et al., 2021)和数据选择(Schoch, Mishra, & Ji, 2023)等任务中显示出明显的效果。但它们需要较大的计算成本,因此无法应用于大规模数据集。尽管已经提出了许多方法来降低计算复杂性,但它们仍然需要不合理的假设和额外的计算成本。因此,Kwon等人(Kwon & Zou, 2023)提出了一种用于装袋模型的数据评估方法Data-OOB,该方法利用袋外估计(Efron, 1992, Efron, Tibshirani, 1997)来降低数据评估的成本。然而,当训练数据集包含噪声样本时,装袋模型的可靠性可能会受到影响。具体来说,基于装袋模型的袋外估计对于干净数据和噪声数据有不同的估计边界。在噪声污染下,噪声数据的估计上限会上升,而干净数据的估计下限会下降。随着噪声数据的增加,这些边界最终会反转。结果是Data-OOB无法准确评估单个数据点对模型性能的贡献。
数据不兼容性(Jin, Sun, & Rinard, 2023)被用来解决Data-OOB中错误数据污染装袋模型的问题。数据不兼容性被定义为一组数据无法提高另一组数据的泛化能力。错误数据与干净数据不兼容,因为错误数据通常会降低模型对干净数据的泛化能力。因此,我们利用数据不兼容性将训练数据集划分为不能相互泛化的不相交子集。由于不相交集合的兼容性属性表明,在干净子集上训练的模型在潜在错误子集上的测试性能低于随机猜测,我们利用这一属性来移除包含大量错误数据的子集。剩余的子集用于训练装袋模型。这种方法不仅减少了错误数据对装袋模型的负面影响,还有助于装袋模型更好地区分数据之间的差异。
我们论文的主要贡献如下:
•我们提出了DI-OOB框架,该框架包括数据选择部分和数据评估部分,有效解决了Data-OOB中的数据污染问题。
•我们提出了一种基于数据不兼容性的数据选择算法。该算法根据模型训练过程中出现的不兼容性属性将训练数据集聚类为有限子集,并使用不相交集合的兼容性属性选择高质量子集进行数据评估。
•我们提出了一种具有可信袋外估计的数据评估算法。该算法通过对高质量数据进行自助采样来训练装袋模型,减少了错误数据的负面影响,并确保了更准确的数据评估结果。
•我们使用14个在以往数据评估论文中常用的公开数据集系统地评估了DI-OOB。结果表明,DI-OOB的表现显著优于现有方法:在噪声数据检测任务上,其F1分数比最佳基线高出10.4%。
本文的其余部分组织如下。第2节回顾了数据评估和数据选择的相关工作。第3节回顾了Data-OOB并对其固有的局限性进行了理论分析。第4节介绍了我们提出的DI-OOB框架,该框架有效解决了这些局限性。第5节展示了广泛的实验,证明了DI-OOB相对于最先进数据评估方法的优点。最后,第6节总结了本文。