
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Vision-Semantics-Label:一种结合大型语言模型的新型双步动作识别范式
《IEEE Transactions on Circuits and Systems for Video Technology》:Vision-Semantics-Label: A New Two-Step Paradigm for Action Recognition With Large Language Model
【字体: 大 中 小 】 时间:2026年02月21日 来源:IEEE Transactions on Circuits and Systems for Video Technology 11.1
编辑推荐:
针对视频对话模型在动作识别中的性能不足问题,本文提出Vision-Semantics-Label映射框架。首先通过VS-LLM模型利用人体关键点补偿缺失的运动信息,再采用VN-Match和ALL-Match方法提取文本中的动作描述,并构建语义动作数据集,在五个基准数据集上验证模型效果优于现有方法。
随着大型语言模型(LLMs)[1]、[2]和多模态大型语言模型(MLLMs)[3]、[4]、[5]的快速发展,这些模型在预训练的大型语言模型的基础上加入了视觉编码器和其他可学习模块,从而创建了以视觉为中心的对话系统。当可学习模块中包含时间序列信息时,就可以形成基于视频的对话模型。这类模型可以通过对话处理视频理解任务,如视频字幕和视频问答(Video-QA),展示了它们解释视频内容并与人类交互的能力。然而,由于模型容量的限制,基于视频的模型往往依赖于时间采样。这可能导致在优先考虑运动连续性的任务(尤其是在动作识别[6]、[7]中)性能显著下降。此外,这种连接视觉和语义的方法对于缺乏丰富语义信息的传统视觉任务(如视频动作识别)仍然存在局限性。