时间动作定位(TAL)旨在从连续的视频帧或片段中识别和定位特定动作(Wang, Zhao, Yang, Long, & Li (2024))。近年来,随着深度学习的快速发展和计算能力的快速增长,TAL取得了显著进展。然而,在实际应用中,标注视频数据是一项极其耗时且成本高昂的任务,这极大地限制了TAL技术的推广和应用。因此,研究如何有效地利用有限的标记视频数据(即半监督时间动作定位(SS-TAL)进行学习具有重要的理论意义和实际价值。
现有的半监督学习方法(Ding et al. (2021); Ji, Cao, & Niebles (2019); Nag, Zhu, Song, & Xiang (2022); Wang et al. (2021); Xia, Wang, Zhou, Hua, & Tang (2023))依赖于一致性学习和自我训练。其中大多数方法(Ji et al. (2019); Wang et al. (2021); Xia et al. (2023)采用师生框架,其中伪标签是从未标记数据生成的,随后用作训练的监督信息。此外,Nag et al. (2022) 提出了一种单阶段架构来消除提案误差传播。Xia et al. (2023) 结合了类别分数和边界不确定性,平衡了不同类别样本的分布。然而,这些方法忽略了不同样本的伪标签之间存在显著的质量差异,如图1所示。在训练过程中平等对待质量参差不齐的伪标签可能会无意中强化模型内部的认知错误,导致模型性能不佳。此外,我们还发现模型的定位存在固有偏差,时间间隔通常平均来说要么偏早要么偏晚。
时间动作定位(TAL)(Wang et al. (2024))的方法通常分为两阶段、单阶段和无锚点方法。两阶段方法(Chao et al. (2018); Kang, Kim, An, Cho, & Kim (2023); Li et al. (2020); Lin, Liu, Li, Ding, & Wen (2019); Xu, Wang, Liu, & Feng (2020); Zhu, Tang, Wang, Zheng, & Hua (2021)首先生成候选的动作实例提案,然后对每个提案进行边界回归和动作识别。这些提案可以由固定的
初步
问题定义。 SS-TAL的任务是通过充分利用标记视频和未标记视频来提高TAL网络的性能
。标记视频中的每个动作片段都用(s, e, c)进行标注,其中s, e和c分别表示该动作实例的开始时间、结束时间和类别。TAL网络的性能体现在其时间定位的准确性和分类。
概述。我们的方法基于师生框架
数据集、指标和前提条件
本小节将介绍实验的条件。
数据集。我们在基准TAL数据集THUMOS14(Jiang et al. (2014)和ActivityNet v1.3(Heilbron, Escorcia, Ghanem, & Niebles (2015))上评估了我们提出的方法。对于THUMOS14(Jiang et al. (2014),遵循Liu et al. (2021); Shi et al. (2023); Xia et al. (2023); Zhang et al. (2022)的常见设置,我们使用验证集中的200个视频进行训练,使用测试集中的213个视频进行评估。对于ActivityNet v1.3