利用大型语言模型进行视频理解：一项综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

利用大型语言模型进行视频理解：一项综述

《IEEE Transactions on Circuits and Systems for Video Technology》：Video Understanding With Large Language Models: A Survey

【字体：大中小】 时间：2026年02月21日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　大语言模型（LLMs）在视频理解中的应用进展综述，涵盖三种架构类型及五种子功能角色，分析其任务、数据集、评估方法与应用场景，总结现存局限及未来研究方向。

摘要：

随着在线视频平台的迅速发展以及视频内容的不断增加，对高效视频理解工具的需求显著增加。鉴于大型语言模型（LLMs）在语言和多模态任务中的卓越能力，本调查详细概述了最近利用LLMs（Vid-LLMs）在视频理解方面的进展。Vid-LLMs的新能力令人惊讶地先进，尤其是它们在开放式多粒度（抽象、时间和时空）推理方面的能力，结合了常识知识，为未来的视频理解指明了有希望的方向。我们研究了Vid-LLMs的独特特性和能力，并将其方法分为三种主要类型：视频分析器（Video Analyzer LLM）、视频嵌入器（Video Embedder LLM）以及（分析器+嵌入器）（Analyzer + Embedder LLM）。根据LLMs在Vid-LLMs中的功能，我们确定了五种子类型：作为总结器的LLM（LLM as Summarizer）、作为管理器的LLM（LLM as Manager）、作为文本解码器的LLM（LLM as Text Decoder）、作为回归器的LLM（LLM as Regressor）以及作为隐藏层的LLM（LLM as Hidden Layer）。该调查还全面研究了Vid-LLMs的任务、数据集、基准测试和评估方法。此外，它探讨了Vid-LLMs在各个领域的广泛应用，强调了它们在现实世界视频理解挑战中的出色可扩展性和多功能性。同时，它总结了现有Vid-LLMs的局限性，并指出了未来研究的方向。欲了解更多信息，读者可以访问仓库：https://github.com/yunlong10/Awesome-LLMs-for-Video-Understanding

引言

我们生活在一个多模态的世界中，视频已成为主要的媒体形式。随着在线视频平台的迅速扩张以及摄像头在监控、娱乐和自动驾驶中的日益普及，视频内容作为一种高度吸引人和丰富的媒介而脱颖而出，其深度和吸引力都超过了传统的文本和图文组合。这一进步推动了视频制作的指数级增长，每天都有数百万视频被创建。然而，手动处理如此大量的视频内容既费力又耗时。因此，迫切需要工具来有效地管理和处理这些丰富的视频内容。为了满足这一需求，出现了使用智能分析技术自动识别和解释视频内容的视频理解方法，大大减轻了人工操作员的工作负担。此外，这些方法的持续发展提高了它们的任务解决能力，使它们能够以越来越高的效率处理各种视频理解任务。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号