Vision-Semantics-Label:一种结合大型语言模型的新型双步动作识别范式

《IEEE Transactions on Circuits and Systems for Video Technology》:Vision-Semantics-Label: A New Two-Step Paradigm for Action Recognition With Large Language Model

【字体: 时间:2026年02月21日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐:

  针对视频对话模型在动作识别中的性能不足问题,本文提出Vision-Semantics-Label映射框架。首先通过VS-LLM模型利用人体关键点补偿缺失的运动信息,再采用VN-Match和ALL-Match方法提取文本中的动作描述,并构建语义动作数据集,在五个基准数据集上验证模型效果优于现有方法。

  

摘要:

近年来,多模态大型语言模型的快速发展推动了基于视频的对话模型的发展。由于这些模型具有出色的视频理解能力,人们常常期望它们能够处理所有与视频相关的任务,包括动作识别。然而,由于动作识别数据集通常缺乏语义信息,这限制了对话模型的性能。此外,由于这些对话模型是为视频理解而设计的,它们在模型架构和训练数据集配置中经常忽略了动作识别所需的关键信息——连续运动。为了解决这些挑战,我们首先提出了一种基于大型语言模型的新颖两步映射框架,称为“视觉-语义-标签”(Vision-Semantics-Label)映射,以更好地适应基于视频的大型语言模型进行动作识别。第一步,我们提出了一个视觉-骨骼协同学习的大型语言模型(VS-LLM),该模型利用人体关键点来补充缺失的运动细节,而不会增加大型语言模型的输入token长度。第二步,我们设计了两种映射方法:动词名词匹配(VN-Match)和全文本匹配(ALL-Match),这两种方法可以从文本中有效提取相关的动作描述。最后,我们构建了语义动作识别数据集,以确保训练数据本身包含动作细节,从而使模型能够更好地实现动作识别。我们在五个基准数据集上评估了我们的方法,展示了大型语言模型在动作识别方面的领先性能。源代码和数据集可在以下链接公开获取:https://github.com/xiaoyu92568/VS-LLM。

引言

随着大型语言模型(LLMs)[1]、[2]和多模态大型语言模型(MLLMs)[3]、[4]、[5]的快速发展,这些模型在预训练的大型语言模型的基础上加入了视觉编码器和其他可学习模块,从而创建了以视觉为中心的对话系统。当可学习模块中包含时间序列信息时,就可以形成基于视频的对话模型。这类模型可以通过对话处理视频理解任务,如视频字幕和视频问答(Video-QA),展示了它们解释视频内容并与人类交互的能力。然而,由于模型容量的限制,基于视频的模型往往依赖于时间采样。这可能导致在优先考虑运动连续性的任务(尤其是在动作识别[6]、[7]中)性能显著下降。此外,这种连接视觉和语义的方法对于缺乏丰富语义信息的传统视觉任务(如视频动作识别)仍然存在局限性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号