MPL:利用伪标签进行半监督式时间动作定位

《Expert Systems with Applications》:MPL: Mine the Pseudo Labels for Semi-Supervised Temporal Action Localization

【字体: 时间:2026年02月16日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对半监督时空动作定位中伪标签质量不均的问题,提出MPL框架,通过置信度排序、自适应修正和双层级一致性学习提升伪标签利用率,在THUMOS14和ActivityNet v1.3上平均mAP分别提升5.1%和3.5%。

  
彭璐|金静静|陶洁萌|刘少峰|吴洋洋|张建峰|曹培健
中国烟草总公司郑州烟草研究所,郑州,450001

摘要

半监督时间动作定位(SS-TAL)因其能够利用未标记数据而受到越来越多的关注。大多数现有方法采用伪标签来提高未标记数据的利用率。然而,这些方法忽略了不同样本中标签噪声的不平衡分布,并将所有伪标签同等对待。在本文中,我们提出了一个名为“挖掘伪标签”(MPL)的新框架来解决这个问题。具体来说,我们首先提出了一种称为伪标签置信度排序的方法,该方法包括三个指标,用于可靠地衡量伪标签的样本级质量。此外,我们设计了伪标签自适应校正模块,通过估计和纠正模型时间定位的固有偏差来改进低置信度的伪标签。另外,我们引入了双级一致性学习和高斯采样缩放策略,以训练模型学习尺度不变且不受噪声影响的特征表示。在THUMOS14和ActivityNet v1.3基准数据集上进行的广泛实验表明,我们的方法优于之前的最先进方法。具体而言,在THUMOS14上,我们的方法在10%和60%的标签率下分别提高了5.1%和3.5%的平均mAP值。我们的代码可以在https://github.com/nohi191212/mpl中找到。

引言

时间动作定位(TAL)旨在从连续的视频帧或片段中识别和定位特定动作(Wang, Zhao, Yang, Long, & Li (2024))。近年来,随着深度学习的快速发展和计算能力的快速增长,TAL取得了显著进展。然而,在实际应用中,标注视频数据是一项极其耗时且成本高昂的任务,这极大地限制了TAL技术的推广和应用。因此,研究如何有效地利用有限的标记视频数据(即半监督时间动作定位(SS-TAL)进行学习具有重要的理论意义和实际价值。
现有的半监督学习方法(Ding et al. (2021); Ji, Cao, & Niebles (2019); Nag, Zhu, Song, & Xiang (2022); Wang et al. (2021); Xia, Wang, Zhou, Hua, & Tang (2023))依赖于一致性学习和自我训练。其中大多数方法(Ji et al. (2019); Wang et al. (2021); Xia et al. (2023)采用师生框架,其中伪标签是从未标记数据生成的,随后用作训练的监督信息。此外,Nag et al. (2022) 提出了一种单阶段架构来消除提案误差传播。Xia et al. (2023) 结合了类别分数和边界不确定性,平衡了不同类别样本的分布。然而,这些方法忽略了不同样本的伪标签之间存在显著的质量差异,如图1所示。在训练过程中平等对待质量参差不齐的伪标签可能会无意中强化模型内部的认知错误,导致模型性能不佳。此外,我们还发现模型的定位存在固有偏差,时间间隔通常平均来说要么偏早要么偏晚。
为了解决上述问题,我们提出了一个名为“挖掘伪标签”(MPL)的新SS-TAL框架,该框架包括三个关键组成部分:伪标签置信度排序、伪标签自适应校正和双级一致性学习。
首先,对于伪标签置信度排序,我们结合了三个有用的指标来为每个伪标记样本生成一个总体置信度分数,这一方法受到了Mi et al. (2022)的启发。这种伪标签评估方法有助于在整个训练过程中区分不同质量的伪标签,有效减轻了低质量伪标签对模型训练的负面影响。
然后,对于伪标签自适应校正,我们随机采样每个预测时间间隔周围的一组相邻间隔,并对这些相邻间隔对应的特征进行重新推理。重新推理的结果显示出显著的时间偏移,这归因于模型时间定位的固有偏差。通过纠正原始预测时间间隔中的这种偏差,我们可以实现更准确的时间定位。
最后,对于双级一致性学习,我们解决了动作尺度变化的关键挑战。我们观察到,简单的数据增强方法(如简单下采样)往往会通过引入破坏性噪声而降低性能。为了克服这一点,我们提出了一种更合理的高斯采样缩放策略。这种方法有效地模拟了真实的、连续的尺度变化,使模型能够学习真正尺度不变且不受噪声影响的特征表示,这一点通过我们的实验得到了验证。
我们在两个基准数据集THUMOS14和ActivityNet v1.3上评估了我们的方法,与之前的研究结果一致。具体而言,在THUMOS14上,与之前的最先进方法相比,我们的方法在10%和60%的标签率下分别提高了1.7%和1.1%的平均mAP值。在ActivityNet v1.3数据集上,我们的方法在相应的标签率下分别提高了0.5%和0.5%的平均mAP值。
总之,我们的贡献有三个方面:
  • 我们提出了伪标签置信度排序和伪标签自适应校正,以有效估计伪标签的相对质量,并显著提高低置信度伪标签的定位精度。
  • 我们提出了双级一致性学习,其中包含高斯采样缩放策略,使模型能够学习不受噪声影响且尺度不变的特征表示。
  • 在两个主要基准数据集THUMOS14和ActivityNet v1.3上进行的广泛实验表明,MPL有效地利用了未标记数据来提高时间动作定位性能,优于之前的最先进方法。

章节片段

时间动作定位

时间动作定位(TAL)(Wang et al. (2024))的方法通常分为两阶段、单阶段和无锚点方法。两阶段方法(Chao et al. (2018); Kang, Kim, An, Cho, & Kim (2023); Li et al. (2020); Lin, Liu, Li, Ding, & Wen (2019); Xu, Wang, Liu, & Feng (2020); Zhu, Tang, Wang, Zheng, & Hua (2021)首先生成候选的动作实例提案,然后对每个提案进行边界回归和动作识别。这些提案可以由固定的

初步

问题定义。 SS-TAL的任务是通过充分利用标记视频和未标记视频来提高TAL网络的性能
{Xi}i=1Nl。标记视频中的每个动作片段都用(s, e, c)进行标注,其中s, ec分别表示该动作实例的开始时间、结束时间和类别。TAL网络的性能体现在其时间定位的准确性(s^,e^)和分类。
概述。我们的方法基于师生框架

数据集、指标和前提条件

本小节将介绍实验的条件。
数据集。我们在基准TAL数据集THUMOS14(Jiang et al. (2014)和ActivityNet v1.3(Heilbron, Escorcia, Ghanem, & Niebles (2015))上评估了我们提出的方法。对于THUMOS14(Jiang et al. (2014),遵循Liu et al. (2021); Shi et al. (2023); Xia et al. (2023); Zhang et al. (2022)的常见设置,我们使用验证集中的200个视频进行训练,使用测试集中的213个视频进行评估。对于ActivityNet v1.3

结论

在本文中,我们提出了一个名为MPL的新框架,该框架包括三个模块,用于挖掘SS-TAL中置信度较低的伪标签。具体来说,我们首先为某些样本的伪标签设计了一个总体评估指标。该指标考虑了动作级别和样本级别的类别不确定性以及预测边界的不稳定性。然后,对教师获得的低置信度标签应用伪标签自适应校正

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号