《Pattern Recognition》:FastGRAIL: Anchor-Graph-based Fast Adaptive Partial Multi-Label Learning with Label Correlations
编辑推荐:
本文提出一种名为FastGRAIL的算法,用于解决局部多标记学习(PMLL)中的关键挑战。该算法通过引入锚点来构建实例-锚点级相似度矩阵,并建模标签相关性,在统一的优化框架内实现快速的标签消歧(Label Disambiguation)与分类器学习,从而显著提升了大规模噪声标签数据下的学习效率与准确性。
要点
- •
提出FastGRAIL:这是一种高效的PMLL框架,利用锚点图建模实例相似性,并集成标签相关性,以实现快速、自适应的标签消歧。
- •
统一优化:采用交替最小化策略,在单一框架内联合优化锚点相似性、标签置信度和分类器参数,降低了计算开销。
- •
理论保证:基于Rademacher复杂度推导了泛化误差界,从理论上验证了在PMLL中获得准确的标签置信度对于实现鲁棒性能的必要性。
- •
卓越性能:在14个数据集上的实验表明,相比基准方法,本方法在关键指标上实现了2.4%至15.2%的提升,突显了其处理噪声标签的有效性和鲁棒性。
引言
多标记学习(MLL)处理每个样本可以与多个标签相关联的场景,并已广泛应用于文本分类、图像标注和生物信息学[1]。现有的大多数MLL方法都假设训练数据中所有相关标签都被准确标注。然而在实践中,精确的标注通常成本高昂且困难,导致使用有噪声或不确定的标签[2]。
局部多标记学习(PMLL)通过从包含相关标签和潜在无关标签的候选标签集中进行学习,来处理这种标签模糊性[3]。它已被有效地用于众包图像标注和新闻分类等任务,这些任务中的标签集通常包含噪声[4]。
模型驱动的PMLL方法通过数学建模和结构假设来指导学习。它们主要根据处理标签模糊性的方式分为两类:噪声标签识别和标签置信度估计。噪声标签识别方法通常假设候选标签集中的噪声是稀疏的。它们采用诸如低秩和稀疏矩阵分解[4]、[5]或专门的稀疏噪声检测器[6]、[7]等技术来识别和分离真实标签与噪声标签。相比之下,标签置信度估计方法将离散的候选标签转换为连续的置信度分数。这些方法通常依赖于平滑性假设——即相似的实例应具有相似的标签分布——并结合先验知识(如标签相关性)来概率地估计标签置信度[3]、[8]。一些工作将这两种策略结合起来。例如,[9]、[10]在统一的框架内将流形正则化(利用平滑性)与低秩分解相结合。这些模型驱动的方法通过为PMLL提供原则性的数学基础,增强了对标签模糊性的鲁棒性。
与传统的模型驱动方法相比,深度PMLL方法[11]、[12]利用神经网络的表示能力,自动从模糊标记的数据中学习复杂的非线性映射。例如,CLS[12]通过两个网络的协作保留训练样本,并仅消除无效标签,而PML-CD[13]则将校准器生成的动态权重与原型对齐正则化相结合。虽然这使得它们能够捕获复杂的模式并实现强大的经验性能,但其高模型灵活性也使它们容易在噪声或错误标签上过拟合。此外,由于在局部多标记场景下缺乏深度模型的紧密理论泛化界限,难以量化或控制其泛化行为,这可能导致在实际应用中(标签噪声普遍存在)性能不稳定和可靠性差。
近年来,基于图的算法[14]、[15]、[16]通过利用相邻实例之间的结构依赖性,有效地减轻了噪声标签的影响,从而提高了候选标签置信度的准确性。例如,PLAIN[14]使用图结构以及实例和标签级别的相似性来从候选集中消除噪声标签。PL-AGGD[15]通过采用自适应图来捕获数据的内在流形结构,增强了鲁棒性和准确性,优于固定图方法。PLFS[16]通过联合迭代更新实例相似性、标签置信度和特征权重,进一步提高了性能。然而,这些方法通常计算复杂度较高,在大规模数据集上效率较低。此外,现实世界数据中存在的特征噪声污染了成对相似性权重,向图结构中注入了不良扰动。这两个问题共同促使需要一种更高效、可扩展的方法,既能保持基于图的方法的优势,又能减少计算开销。
在本文中,我们提出了一种名为FastGRAIL的新型PMLL算法,如图1所示,该算法利用实例-锚点相似性和标签相关性,在统一框架内实现快速的自适应图消歧和分类器构建。具体来说,我们首先使用代表性锚点替代数据点,并基于数据点与锚点之间的相似性构建锚点图,从而实现快速的消歧并以较低的计算复杂度构建自适应的标签置信度。此外,我们通过消歧后的标签置信度获得标签相关矩阵,以更好地处理复杂的多标记学习场景。最后,我们设计了一个高效的优化框架,在统一框架内同时优化数据点相似性、标签置信度和分类器学习。此外,通过分析泛化界,我们正式验证了获得准确的标签置信度估计对于泛化是必要的,这为所提出的方法提供了理论保证。总之,本文的主要贡献包括:
结论与未来工作
在这项工作中,我们提出了FastGRAIL算法来解决局部多标记学习(PMLL)中的挑战。我们的方法使用自适应锚点-实例级相似性构建锚点图,这不仅实现了快速消歧,还降低了计算复杂度。此外,我们结合了标签相关性建模,以更好地适应复杂的PMLL场景。为了优化模型,我们设计了一个高效的框架,将联合优化问题分解为更简单的子问题。