基于视觉的自主节奏迭代学习方法,用于无监督的时间序列动作定位

《ACM Transactions on Multimedia Computing, Communications, and Applications》:Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization

【字体: 时间:2026年02月27日 来源:ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐:

  近期,时空动作定位(TAL)在信息检索领域备受关注。然而,现有监督/弱监督方法高度依赖大量标注的时空边界和动作类别,导致效率低下。虽然部分无监督方法采用了迭代聚类与定位范式,但仍面临聚类置信度不足和伪标签可靠性差的双重挑战。为此,本文提出一种新型自监督迭代学习模型,同步提升聚类与定位训练效果。通过挖掘上下文鲁棒视觉信息增强聚类置信度,并设计恒定与变速度增量实例学习策略,确保伪标签可靠性并进一步优化定位性能。实验表明,该模型在两个公开数据集上显著优于现有方法。

  
要查看此由AI生成的摘要,您必须具有高级访问权限。

摘要

摘要

最近,时间动作定位(TAL)在信息检索领域引起了广泛关注。然而,现有的监督/弱监督方法严重依赖于大量的标记时间边界和动作类别,这既费时又费力。尽管一些无监督方法采用了“迭代聚类和定位”的范式来进行TAL,但它们仍然存在两个主要问题:1)视频聚类的置信度不足;2)用于模型训练的视频伪标签不可靠。为了解决这些问题,我们提出了一种新的自定进度的迭代学习模型,以同时增强聚类和定位训练,从而实现更有效的无监督TAL。具体来说,我们通过探索具有上下文鲁棒性的视觉信息来提高聚类的置信度。随后,我们设计了两种(恒速和变速)增量实例学习策略,以便从简单到复杂的模型训练,从而确保这些视频伪标签的可靠性,并进一步提高整体定位性能。在两个公共数据集上的广泛实验表明,我们的模型优于几款最先进的竞争模型。

AI摘要

AI生成的摘要(实验性)

该摘要是使用自动化工具生成的,并非由文章作者编写或审核。它旨在帮助发现、评估相关性,并帮助来自相关研究领域的读者理解该工作。它旨在补充作者提供的摘要,后者仍然是论文的主要摘要。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

要查看此由AI生成的简单语言摘要,您必须具有高级访问权限。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号