朝向一种有效的动作区域跟踪框架：用于细粒度视频动作识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Computation》：Toward an Effective Action-Region Tracking Framework for Fine-Grained Video Action Recognition

【字体：大中小】 时间：2026年01月09日 来源：Neural Computation 2.1

编辑推荐：

　　细粒度动作识别研究提出ART框架，通过查询响应机制和区域特定语义激活模块捕捉局部动态细节，结合多级对比约束优化和视觉语言模型微调，有效区分相似动作。

摘要：

细粒度动作识别（FGAR）旨在识别细粒度动作类别之间的细微和显著差异。然而，当前的识别方法往往只能捕捉到粗粒度的运动模式，难以识别随时间变化的局部区域中的细微细节。在这项工作中，我们提出了动作区域跟踪（ART）框架，这是一种利用查询-响应机制来发现和跟踪显著局部细节动态的新方法，从而能够有效区分相似的动作。具体来说，我们设计了一个特定于区域的语义激活模块，该模块采用具有区分性和文本约束的语义作为查询，以捕捉每个视频帧中最与动作相关的区域响应，促进空间和时间维度与相应视频特征之间的交互。捕获的区域响应被组织成动作轨迹片段，这些轨迹片段通过将不同视频帧中的相关响应连接起来，来表征基于区域的动作动态。文本约束的查询旨在明确编码从视觉语言模型中的语言分支提取的动作标签的文本描述中得出的细微语义表示。为了优化生成的动作轨迹片段，我们在空间和时间层面上设计了多级轨迹片段对比约束，这可以有效地区分每个视频帧中的单个区域响应（空间层面），并建立相邻视频帧之间相似区域响应的相关性（时间层面）。此外，我们还实现了一种针对特定任务的微调机制，在训练过程中细化文本语义。这确保了视觉语言模型（VLMs）编码的语义表示不仅得到保留，而且还针对特定任务需求进行了优化。我们在几个广泛使用的动作识别基准测试上进行了全面实验，例如FineG...

显示更多

引言

细粒度动作识别（FGAR）旨在区分细粒度动作类别之间的细微和显著差异，这与现实世界中人类活动的日益复杂性更加契合。这一新兴领域推动了动作识别任务向更细粒度的发展，由于其能够增强各种视觉分析应用（包括智能监控[1]、社交场景理解[2]和体育视频分析[3]）的潜力，因此在研究社区中引起了广泛关注。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号