跨类别时空一致性与用于弱监督时间动作定位的判别网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Cross-Category Spatiotemporal Consensus and Discriminative Networks for Weakly-Supervised Temporal Action Localization

【字体：大中小】 时间：2026年01月24日 来源：Neural Networks 6.3

编辑推荐：

　　弱监督时空动作定位中，现有方法忽视跨类别子动作共识关系及高阶动态特征。本文提出STCD网络，通过 superclass语义学习提取跨类别共识，利用Koopman理论建模高阶动态，结合熵损失函数降低预测不确定性，有效提升动作片段定位精度。

Kunlun Wu|Donghai Zhai

西南交通大学计算机与人工智能学院，中国四川省成都市仙大道999号，611756

摘要

弱监督下的时间动作定位是一项实际任务，它可以在没有帧级注释的情况下从未剪辑的视频中定位不同的动作实例。当前的方法要么增强动作片段的区分特征以减少与背景的混淆，要么关注信息量较少的片段来引导模型探索非显著区域。然而，它们很少明确考虑不同动作之间的相似子过程，即跨类别的共识关系，这些关系可以为探索更全面的定位结果提供补充信息。此外，以前的方法大多忽略了类别级别的更高阶动态，这些动态可以提供更细粒度的运动关系，帮助模型捕捉到微妙的区分特征。为了解决上述问题，我们研究了一种简单而有效的方法，称为STCD网络，该方法利用超类级别的语义和更高阶动态来进行时空共识和区分学习。具体来说，我们利用基于Koopman理论的高阶编码模块来明确探索区分性的类别级动态。同时，我们采用超类级别的语义来捕捉不同类别中相似子动作之间的共识关系，这对于挖掘更全面的动作片段至关重要。最后，我们认为在类别分布中熵值较高的片段通常表现出显著的不确定性，并且在特征空间中具有模糊的表示。从信息论的角度出发，我们进一步提出了一种有效的损失函数来增强每个动作片段的区分特征，即选择每个片段预测概率最高的Top-k个类别，并通过最小化它们的信息熵来减少不确定性。在THUMOS14、ActivityNet v1.2和ActivityNet v1.3三个数据集上的实验结果表明，我们的方法优于现有的最先进方法。

引言

时间动作定位旨在识别未剪辑视频中动作实例的开始时间、结束时间和相应的类别标签，这在学术界和工业界有广泛的应用，例如视频亮点提取（Zhao等人，2024a）、检索（Huang等人，2025b；Yao等人，2025）、视觉问答（Peng和Li，2024）、异常检测（Fan等人，2025；Huang等人，2025a）。最近，全监督的时间动作定位取得了显著的进展。然而，这些技术依赖于帧级注释，这对于大规模数据集来说是一个挑战，因为它们耗时且劳动密集。

为此，弱监督的时间动作定位（WTAL）作为一个更可行的任务出现了，因为它在训练阶段只需要视频级别的注释（即视频中的动作类别）。现有的WTAL方法通常可以分为两个主要方面。自上而下的方法首先训练一个视频级分类器，然后生成帧级注意力以构建时间类别激活图（T-CAM），也称为类别激活序列（CAS）。自下而上的方法则通过视频级优化任务直接学习注意力模型。由于在弱监督设置中缺乏细粒度注释，上述方法通常采用多实例学习（MIL）方法，将视频视为一系列固定长度、不重叠的片段。随后将高置信度片段的CAS组合起来，以产生用于模型优化的视频级预测。尽管最近取得了进展，但这些方法通常使用视频级优化目标来构建T-CAM。根本的缺点在于，损失主要是由最具区分性的片段减少的，而忽略了同时包含动作相关细节和背景信息的模糊片段。

一般来说，每个动作由一系列子动作组成。例如，如图1所示，“篮球”和“篮球扣篮”都有两个共同的子动作“跳跃”和“落地”，其余的子动作分别是“投篮”和“扣篮”。然而，现有方法倾向于越来越多地强调动作中更具区分性的子动作（“落地”和“减速”），因为这些动作在最小化动作分类损失方面更有效，从而忽略了另外两个共同的子动作（“开始”和“加速”）。ACM-Net（Qu等人，2021）是该领域的一个代表性工作，它提出了一个三分支架构，同时学习动作、背景和上下文信息，以分离前景和背景的表示，但仅靠简单的多个卷积分支不足以完全捕捉上下文关系。在后续工作中，提出了许多变体（He等人，2022a；Shao等人，2024；Zhao等人，2024b）来进一步提高片段特征的类别间可分性。总体而言，大多数现有的WTAL方法侧重于片段的区分性，但很少明确建模跨类别子动作的相似性，这可以为更好的定位提供补充线索。此外，时间动作序列本身具有复杂的底层动态和更高阶的运动学信息（即帧或通道之间的复杂交互）。仅使用3D网络（例如I3D）进行特征提取的主流骨干网络无法完全捕捉更高阶的动态信息，并提供类别级的区分特征以消除表示模糊性。最后，在WTAL中有很多难以预测的片段，而难以预测的片段通常具有高熵值，即那些在类别分布中熵值较高的片段。这些片段通常位于动作边界附近，相应的不准确结果会降低性能。

为了解决上述问题，本文研究了一种简单而有效的方法，称为STCD网络。首先，我们利用类别间的相似子动作来识别更全面的动作片段。具体来说，我们在超类级别制定了跨类别共识信息的学习目标，并强制模型关注微妙的运动变化。尽管没有明确的标签，数据仍然可以提供隐性的指导，以增强仅基于视频级标记数据的学习过程。因此，我们首先将背景信息应用到原始序列上，并使用一致性正则化来引导模型更多地关注动作实例的区分性时间动态，然后通过聚类动作样本来构建超类级别分布，并利用类似对比的损失来逐步提取整个视频样本之间的共识信息。此外，我们认为时间动作序列具有复杂的动态系统，并使用基于Koopman理论的有效运算符来探索更高阶的类别级动态（即将时间动作表示映射到一个潜在的高维Hilbert空间），这可以提供更区分的特征以消除表示模糊性。最后，模糊片段的预测类别分布通常具有高熵值，因此我们提出了一种有效的损失函数，通过最小化其排名类别分布的信息熵来减少预测不确定性。因此，模型可以更多地关注每个片段的区分特征。

简而言之，我们的主要贡献可以总结为四点：•

首先，我们在超类级别制定了跨类别共识信息的学习目标，并强制模型关注微妙的运动变化。具体来说，我们通过聚类动作样本来建模超类级别分布，并应用类似对比的损失来有效地提取整个视频样本集的共识信息。

•

其次，我们提出了一种基于Koopman理论的有效运算符来探索更高阶的类别级动态，这可以提供类别级的区分特征以消除表示模糊性。

•

最后，我们提出了一种有效的损失函数，通过最小化其预测类别分布的信息熵来进一步增强每个动作片段的区分特征。

•

在三个广泛使用的基准数据集上的广泛实验表明了我们方法的有效性和鲁棒性，该方法也可以轻松集成到其他方法中以提高它们的性能。

本文的其余部分结构如下：第二节回顾相关工作，第三节详细描述了所提出的STCD方法。第四节讨论实验设置并分析结果。最后，第五节提出结论性意见。

小节片段

全监督时间动作定位

全监督动作定位（TAL）意味着使用帧级标签来识别和定位未剪辑视频中的每个特定动作实例，可以分为三种类型：基于锚点的方法、动作性引导方法和无锚点方法。第一种方法首先预定义多尺度锚点，然后设计多个网络来分类动作并进行边界回归。Xu等人（2017a）首先采用3D网络提取时空特征，随后

方法论

在本节中，我们首先在第三-A节介绍WTAL的基本公式。接着，在第三-B节介绍特征提取和嵌入模块。然后，在第三-C节简要介绍WTAL的分类头。在第三-D节，我们介绍了所提出的STCD网络，该网络可以有效学习WTAL的共识和区分关系。如图2所示，STCD网络主要由一个超类语义学习模块（SSLM）组成，一个

实验结果

为了评估所提出的STCD的有效性，我们使用三个公开的可用于WTAL的基准数据集进行了实验：THUMOS14、ActivityNet v1.2和ActivityNet v1.3。本节的结构如下：1）基准数据集概述，2）STCD的实验配置，3）上述数据集上的性能结果评估，4）全面的消融研究和可视化结果分析。

结论

本研究提出了用于弱监督时间动作定位（WTAL）的STCD网络。该方法关注超类级别的跨类别共识信息，并强调微妙的运动变化。它使用一致性正则化结合背景信息来突出关键的时间动态，并通过特征聚类和类似对比的损失来建模超类级别分布，以提取视频样本之间的共识。此外，基于Koopman的

CRediT作者贡献声明

Kunlun Wu：撰写——原始草稿、方法论、概念化。Donghai Zhai：撰写——审阅与编辑、验证、监督。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号