《Knowledge-Based Systems》:Unified Online Weak Multi-Label Learning in Drifting and Imbalanced Data Streams
编辑推荐:
针对流数据中弱标签、类不平衡和概念漂移的挑战,提出UOWML框架,通过融合一阶主损失和manifold正则化处理弱标签,引入二阶标签排名正则化抑制概念漂移,并设计动态缓冲区更新机制平衡类分布,实验验证其有效性。
邹一章|胡学刚|李佩佩|吴悠
中国安徽省合肥市合肥工业大学计算机科学与信息工程学院
摘要
在线多标签学习在流式数据上常常面临数据质量不佳的挑战,这主要是由于标注成本高昂,导致模型只能获得不完整的标签或完全没有标签。另一方面,多标签数据流具有类别不平衡和概念漂移的固有特性,这些也会影响模型随时间的适应性和泛化能力。由于现有方法很少能够同时解决这些问题,我们提出了一种统一的在线弱多标签学习(UOWML)框架,用于在数据流漂移和类别不平衡的情况下进行分类。首先,通过利用一阶主要损失项来训练模型,结合流形正则化项来增强模型对未标注实例的处理能力,后者基于当前实例与数据缓冲区之间的特征图进行构建,从而提高了模型对弱标签情况的鲁棒性。此外,为了进一步提高对概念漂移的鲁棒性,我们在目标函数中加入了二阶标签排序正则化项。其次,利用这个建立好的目标函数,通过正则化对偶平均方法逐步更新在线模型。第三,为了考虑类别不平衡问题,我们引入了一种启发式机制来更新数据缓冲区,该机制跟踪与新兴概念相关的最近实例,并保持所有类别标签的平衡分布,从而实现更有效的流形正则化。实验结果表明,所提出的方法在处理具有类别不平衡和概念漂移的在线弱多标签学习问题时具有优越性。
引言
现实世界应用产生了大量的多标签流数据,这些数据通常包含两个以上的标签,并且是顺序生成的[1],[2]。因此,提出了在线多标签分类(OMC)方法,以便对这些数据进行即时分类,这种方法具有实用性[3],[4],并广泛应用于音频识别[5]、图像标注[6]、情感分类[7]等多个领域。
在实践中,由于以下两个原因,在线学习者很少能够获得多标签流对象的全部标签集:1) 多标签对象通常带有大量标签,标注所有标签需要耗费高昂的人力和计算成本[8],[9]^1。2) 在线系统需要在有限的时间内做出即时响应,因此技术瓶颈使得标注所有标签变得困难。以在线图像分类为例,存在标注完整性与标注图像数量之间的权衡。因此,随着图像的陆续到来,只有一部分图像被标注,即使被标注的图像也只有一部分标签得到处理。在这种情况下,分类任务被定义为在线弱多标签学习(OWML)问题,这是我们目前所知的首次提出和解决的问题。
此外,多标签流数据本质上具有类别不平衡和概念漂移的特性[10],[11]。具体来说,前者意味着每个类别标签的正面标签数量通常远少于负面标签数量;后者表示数据分布随时间变化,本文中特别指的就是这种标签分布的变化,也称为无条件依赖性的漂移[12]。例如,在医学诊断[13]中,某些疾病的阳性病例仅占所有未诊断病例的一小部分,表现出严重的类别不平衡现象。还存在概念漂移,即疾病的类型和发病率会随季节变化。对于现有的OMC方法,传统的全监督OMC方法假设流式实例的标签集是完整且无噪声的[14],[15],但在OWML情况下,由于缺乏无监督信息,这些方法的性能会较差。另外,考虑到监督有限的问题[16],即标签标注不精确或不完整,一些最新研究提出了针对缺失标签的OMC[17],[18]或半监督OMC[19],[20],这两种方法分别代表了标注多标签数据的数量与完整性之间的权衡:半监督场景侧重于完全标注某些多标签实例,而缺失标签场景则确保每个实例至少被分配一个标签。然而,这些方法只能分别处理其中一个问题,无法同时解决OWML中的两个问题。在考虑和解决概念漂移方面,尽管上述有限监督方法设计了特定的检测方法来适应有限监督数据中的概念漂移,但它们不能直接应用于OWML中的概念漂移问题,更不用说类别不平衡问题了。
与OWML最相关的领域是具有有限监督的先进OMC方法。为了处理缺失标签,[17]将缺失标签视为负面标签,并触发加权策略来弥补误标注的影响。类似地,[18]的最新工作也将缺失标签视为负面标签,在构建大边距损失时应用了微调的负面分类边界。由于上述方法可能会引入未知数量的假阳性标签,即使触发了补救策略,模型偏差也会不可避免地增加。与直接将未观察到的标签视为负面标签不同,基于图的半监督方法通过动态建立实例图,并结合概念漂移来添加流形正则化项到目标函数中,以训练具有监督和无监督信息的鲁棒模型,确保特征图中相似实例具有相似的标签输出。例如,SSO-KELM[20]在每个数据块上局部构建图,而OnSeML[19]使用两个数据缓冲区分别记录已标注和未标注的实例,并在当前进入的实例与这些缓冲区实例之间构建图。
需要注意的是,专为半监督情况设计的SSO-KELM和OnSeML不能直接用于解决OWML问题,因为它们仅利用新出现的概念来构建流形正则化损失,以便考虑概念漂移。然而,这种构建图的方法忽略了类别不平衡问题,即最新实例可能无法涵盖历史上出现的所有类别概念,因此类别分布通常会不平衡,从而导致在线分类性能不稳定。受此启发,我们设计了一个基于统一流形正则化的框架来解决OWML问题,其中构建了两个缓冲区:一个用于顺序记录未标注的实例,另一个用于存储带有部分标签的实例,并应用特定的更新机制来平衡存储最新标签概念与保持标签分布之间的权衡。据我们所知,我们是首次提出并解决UOWML问题的,同时考虑了多标签流数据的固有特性,包括概念漂移和类别不平衡。我们的主要贡献如下:
•为了解决数据流漂移、类别不平衡且标签较弱的多标签数据中的分类难题,我们提出了一个统一的在线弱多标签学习框架(UOWML),该框架结合了在线模型更新和数据缓冲区更新,前者提高了模型对弱标签和概念漂移的鲁棒性,后者考虑了类别不平衡问题以进一步提升模型性能。
•对于在线模型的目标函数,使用流形正则化来训练具有弱标签的模型,同时加入二阶正则化项以保留来自过去实例的标签排序信息,从而在模型基于新概念更新时保持稳定的性能。
•通过在目标函数中加入L2范数正则化项,利用正则化对偶平均方法实现有效的顺序模型更新,并详细推导了模型梯度。
•针对流形正则化中使用的图,提出了一种空间高效且有效的算法来在线更新监督数据缓冲区,该缓冲区存储尽可能多的最新实例,同时保持每个类别标签的正面实例与负面实例之间的固定比例,以考虑类别不平衡问题。
本文的其余部分组织如下:第2节回顾了具有全监督或有限监督的OMC以及具有新出现标签的在线多标签分类的相关工作。第3节详细介绍了我们的方法。接下来,第4节展示了实验结果,第5节总结了我们的发现并提出了未来研究的可能方向。
相关工作
相关工作
相关文献主要分为三类:具有全监督或有限监督的在线多标签分类,以及具有新出现标签的在线多标签分类。下面我们回顾了这三个领域的代表性工作。
我们的方法
在本节中,首先我们定义了在线弱多标签学习(OWML)问题,并概述了UOWML的流程,然后建立了带有流形正则化的UOWML目标函数。接下来详细介绍了缓冲区的更新过程。最后,利用正则化对偶平均框架更新所提出的UOWML模型。最后,通过推导出一个次线性遗憾界限,对UOWML的理论收敛性进行了分析。
实验
在本节中,设计了多种实验来验证所提出的UOWML的有效性。首先,我们在真实世界的多标签数据集上测试了平均在线分类性能[2];此外,我们还使用合成数据集来测试概念漂移场景下的分类性能,这些合成数据集模拟了真实的多标签数据集。其次,进行了一系列消融实验来验证
结论与未来工作
我们提出了一种统一的在线弱多标签学习(UOWML)框架,用于在数据流漂移和类别不平衡的情况下进行鲁棒分类。广泛的实验结果证明了我们方法的有效性。由于所提出的模型在利用特征和标签之间的线性关系方面存在局限性,我们将重点使用深度学习模型来进一步利用变量之间的非线性关系以提高性能。
CRediT作者贡献声明
邹一章:写作 – 审稿与编辑、撰写原始草案、可视化、验证、软件开发、资源管理、方法论设计、调查、形式分析、数据整理、概念化。胡学刚:监督、资金获取。李佩佩:写作 – 审稿与编辑、监督、资金获取。吴悠:监督。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本工作部分得到了中国自然科学基金(项目编号:62376085, 62120106008)和IHM大数据与人口健康中心研究基金(JKS2023003)的支持。