《Pattern Recognition》:Synergistic Audio-Textual Cues: A Cross-Modal Framework for Weakly-Supervised Temporal Action Localization
编辑推荐:
弱监督时空动作定位(WTAL)旨在利用视频级分类监督定位未剪辑视频中的动作实例,提升视频理解效率。本文提出GuideNet框架,通过音频指导(AVL)利用声学信号精准锚定动作边界,结合文本指导(TVL)采用CLIP语义对齐增强视觉特征区分度,解决缺乏帧级标注和视觉线索细微的难题。实验表明在THUMOS14等数据集上显著优于SOTA方法。
刘林凯|周宇辰|郭子鹏|于雷|苟超
中山大学智能工程学院,中国广东省深圳市光明区宫昌路66号,518107
摘要
弱监督时间动作定位(WTAL)旨在利用视频级别的分类监督,在未裁剪的视频中定位动作实例,从而提高视频理解的效率和可扩展性。尽管取得了显著进展,但仍存在一些固有挑战:(1)缺乏帧级注释使得动作的时间边界难以定位;(2)视觉线索的微妙性往往导致动作难以区分。在这项工作中,我们的关键见解是充分利用视频的多模态特性来应对视频理解挑战。具体来说,音频线索有助于确定动作发生的关键时刻,而文本元素则提供了丰富的语义信息,增强了视觉特征的区分度。为此,我们提出了一个新框架,该框架协同利用音频和文本信息来指导WTAL的视觉特征学习。首先,我们的音频引导视觉学习采用跨模态双重激活技术,将时间上相似的视觉线索细化为对边界敏感的特征,提高了动作定位的准确性。同时,我们的文本引导视觉学习利用CLIP的知识迁移,将空间上模糊的视觉线索转化为具有明确语义的特征,提高了动作识别的精度。在THUMOS14和ActivityNet等基准数据集上的广泛实验验证了我们方法的优越性,显示出比现有模型更显著的性能提升。据我们所知,这是首次同时利用音频和文本模态来推进WTAL的研究。代码将在论文被接受后发布。
引言
时间动作定位(TAL)是视频理解中的一个基本任务,专注于在未裁剪的视频序列中识别和准确定位动作[1]、[2]、[3]。它在监控、视频摘要和内容检索等应用中发挥着关键作用。TAL通常依赖于详细的密集注释,这些注释精确地标注了每个动作段的开始和结束时间。然而,传统的TAL方法需要耗费大量人力进行帧级注释,这在大规模应用中具有挑战性。弱监督时间动作定位(WTAL)通过使用视频级别的标签来缓解这一问题,从而大大减少了注释负担,使得视频分析更加可扩展。
现有的WTAL方法[4]、[5]、[6]通常使用从RGB和光流模态提取的视觉特征作为视频嵌入特征。这些特征被处理以生成类别无关的注意力权重和类别激活序列(CAS),然后聚合这些序列来计算视频级别的分类分数。尽管在WTAL领域取得了显著进展,但该领域仍面临两个根本性挑战:(1)缺乏帧级注释使得动作实例的时间边界难以定位;(2)复杂动态场景中视觉线索的微妙性常常导致动作难以区分。
为了解决WTAL中的这些固有挑战,我们需要重新思考这项任务,考虑视频内容的本质。以往的研究几乎完全集中在视觉方面,忽略了音频和文本内容所提供的丰富信息。这一认识使我们得出一个关键见解:视频不仅仅是视觉叙事,而是与音频信号和文本描述交织在一起的丰富画卷。每种模态都提供了独特的语义和时间线索,可以增强动作识别和定位能力。特别是音频线索,由于其与动作事件的紧密关联,有助于确定动作的开始和结束时间。如图1(a)所示,以“挥拍网球”为例,仅依靠视觉信息(蓝色)很难定位动作的起始时间点,而在球的击打声音的引导下,模型可以更准确地定位其时间边界(红色)。文本线索提供了有助于区分视觉特征的语义指导。如图1(b)所示,左侧子图展示了一种仅学习视觉信息的方法的特征分布,显示出显著的类内变异性和较大的类间重叠。右侧子图表明,在文本语义的引导下,模型的视觉特征在不同动作类别之间的区分度更高。
基于此,我们提出了GuideNet这一开创性框架,它利用文本和音频信息来指导WTAL的视觉学习。GuideNet包括两个核心模块:音频引导视觉学习(AVL)模块,该模块通过将时间上相似的视觉线索细化为对边界敏感的属性来精确定位动作;文本引导视觉学习(TVL)模块,通过从CLIP等视觉语言模型中迁移知识,将模糊的视觉线索转化为语义丰富的特征。该框架旨在弥合这些模态之间的差距,发挥它们的综合优势,实现更准确和稳健的WTAL。最后,我们在三个公开可用的数据集THUMOS14、ActivityNet1.2和ActivityNet1.3上验证了每个提出的模块的有效性,并取得了最先进的结果。总之,我们的贡献有四点:
- 1)
我们提出了一个开创性的WTAL框架,该框架利用文本和音频信息来指导视觉学习。据我们所知,这是首次将视觉、文本和音频模态整合到一个统一框架中的尝试。
- 2)
我们提出的AVL利用音频信息作为主要线索,指导模型将时间上相似的视觉特征转化为对边界敏感的特征,显著提高了定位精度。
- 3)
我们提出的TVL利用先进的视觉语言模型,指导模型将视觉特征与其对应的文本语义对齐,从而增强了模型的区分能力。
- 4)
我们在三个公共基准数据集THUMOS14、ActivityNet1.2和ActivityNet1.3上进行了广泛实验,我们的方法取得了最先进的结果。
相关工作
时间动作定位。
时间动作定位(TAL)旨在从未裁剪的视频中定位和分类感兴趣的动作实例。与对象检测中的R-CNN类似,TAL首先生成时间提议,然后进行分类和回归。提议生成方法主要分为两类:自上而下[7]和自下而上[5]、[8]。自上而下的方法使用滑动窗口等技术,往往会产生僵硬的边界和大量的误报。方法论
问题定义。我们定义了一组N个未裁剪的视频,表示为,其中每个视频Vi对应一个视频级别的标签,其中yi代表C个类别的独热编码。在推理阶段,我们生成一组,对于每个视频Vi,其中M表示动作实例的数量,cm表示第cm个动作类别,表示每个动作实例的开始时间,表示动作实例的结束时间,sm
实验设置
我们在具有挑战性的THUMOS14 [27]和ActivityNet1.2 [28]基准数据集上进行了广泛实验。THUMOS14数据集包含200个验证视频和213个测试视频,涵盖20个类别。值得注意的是,THUMOS14数据集中的长未裁剪视频可能包含多个不同类别的动作实例,这是一个具有挑战性的数据集。遵循之前的研究[29]、[30],我们使用验证集进行训练,使用测试集进行评估。
结论
本研究提出了一个开创性框架,该框架结合了音频和文本信息来指导弱监督时间动作定位的视觉特征学习。通过利用与动作发生密切相关的音频线索,我们的方法精细地将视觉上相似的线索细化为对动作边界敏感的特征,显著提高了动作定位的准确性。同时,语义丰富的文本描述的整合改变了空间特征的表现。
CRediT作者贡献声明
刘林凯:撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件、资源管理、方法论、研究调查、资金获取、形式分析、数据管理、概念化。周宇辰:撰写——审稿与编辑、撰写——初稿、可视化、验证、监督、软件、资源管理、数据管理、概念化。郭子鹏:撰写——审稿与编辑、撰写——初稿、可视化、
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。