《Neural Networks》:KE-VUM: Knowledge-Enhanced Video Understanding Model for Fine-Grained Movie Description
编辑推荐:
细粒度电影描述面临标注有限和跨模态语义鸿沟的挑战,尤其对复杂长时叙事结构。KE-VUM通过视频多模态大语言模型与脚本知识图谱的协作推理,首先提取视觉特征生成初步描述,继而进行两阶段优化:第一阶段利用知识图谱修正实体指代和关系推理,解决角色混淆问题;第二阶段基于脚本叙事结构重组描述,增强跨镜头事件连贯性。构建MovieClip数据集和VD-Eval评估框架,实验表明KE-VUM在BERTScore F1上提升6.7%,且在延迟叙事场景中表现稳健。
Xiaojing Gu | Gen Xu | Xiaolu Zhang | Yijie Wang | Jiangjian Xiao
中国科学院大学,北京,中国
摘要
由于注释有限以及跨模态语义差距持续存在,细粒度电影描述具有挑战性,尤其是对于具有复杂和长距离叙事结构的片段。现有的视频描述模型很少利用电影剧本中的结构化知识,导致语义浅显、类似字幕,并且经常出现角色混淆。我们提出了KE-VUM,这是一种基于知识的视频理解模型,它在基于视频的多模态骨干网络和剧本知识库之间进行协作推理。骨干网络首先生成一个描述草案,然后通过一个由剧本驱动的两阶段优化策略进行细化:使用从剧本派生的知识图谱进行实体和关系校正,接着根据剧本级别的情节进展进行叙事重构,以提高时间和因果一致性。为了支持评估,我们构建了MovieClip基准数据集,其中包含叙事丰富的电影片段,并开发了VD-Eval框架,该框架基于大语言模型(LLM),可以同时测量语义准确性得分(SAS)和叙事连贯性得分(NCS)。在MovieClip上的实验表明,KE-VUM在描述准确性和叙事连贯性方面始终优于强大的基线模型,在BERTScore F1上实现了6.7%的绝对提升,并且在延迟叙事场景中保持了稳健的性能。
引言
视频理解已成为智能多媒体系统的基本能力,使得自动分析、检索和生成丰富的视听内容成为可能。在各种视频理解任务中,长形式电影理解对于智能编辑、内容分析和电影电视行业的个性化分发尤为重要。然而,与短形式视频相比,故事片具有更丰富的叙事逻辑、长距离的时间依赖性和复杂的多模态结构,这使得细粒度、剧本级别的理解尤其具有挑战性。最近的多模态大语言模型(MLLMs)在视频理解方面取得了显著进展(Li等人(2023年);Maaz等人(2023年);Zhang等人(2023年)),但由于高质量长视频注释数据集的稀缺以及视频、字幕和角色等异构模态对齐的难度,直接将它们应用于全长电影仍然很困难。即使是像MovieNet(Huang等人(2020年)这样的结构化资源也存在语义模糊的问题,这限制了对叙事结构的准确建模。
大多数现有的电影描述方法强调开放领域理解,通常将帧与字幕对齐(Li等人(2023年);Wang等人(2023年);Xu等人(2024年);Zhang等人(2023年))。因此,它们倾向于生成仅限于可观察到的动作或特征的表层描述,并且在角色消歧、跨镜头事件链接和长距离推理方面存在困难(见图1,左侧)。相比之下,我们的目标是针对故事驱动的电影进行剧本级别的叙事理解。我们认为,电影剧本作为一种明确且结构化的文本资源,是一个未被充分利用但信息量很大的知识来源:它包含对话、场景描述和镜头注释,这些信息仅从视觉和字幕流中很难推断出来。因此,利用这种剧本知识对于实现稳健、细粒度的电影理解至关重要。
最近,检索增强生成(RAG)作为一种强大的范式出现,它将外部知识库与大型语言模型相结合,显著提高了知识整合和长上下文推理的能力(Chan等人(2024年);Li等人(2024d);Mansurova等人(2024年);Ren等人(2025年))。在电影理解中,我们将电影剧本视为可以索引和检索的外部记忆,以补充视觉证据。我们提出的KE-VUM模型不是简单地附加检索到的剧本片段——这些片段通常在局部上合理但在全局上不一致——而是通过RAG风格的协作推理框架将长视频MLLM与剧本知识库相结合。KE-VUM首先提取多粒度的视觉特征(角色、场景、空间转换)以获得初始片段描述,然后从剧本派生的知识图谱中检索和整合相关剧本片段(对话、角色背景、情节线索),以支持跨模态推理,并在剧本中包含关键信息的复杂场景中超越纯视觉或基于字幕的基线模型(见图1,右侧)。
除了简单的检索之外,我们还引入了一种分层描述优化策略,以进一步提高语义深度和叙事连贯性。在第一阶段,KE-VUM使用剧本知识图谱进行实体级别的细化,处理角色、对象和场景之间的命名实体消歧和关系推理。在第二阶段,它根据剧本的情节线重新组织和完善片段描述,从而产生连贯的跨镜头事件链(见图2)。这种“从实体到情节”的层次结构将仅基于视觉的片段描述转化为与剧本一致的故事叙述,并能够自然处理延迟线索,其中解释性文本和视觉后果被长时间间隔分开。
为了定量评估长形式电影描述,我们开发了VD-Eval(视频描述评估)框架,该框架基于LLM,可以测量两个关键维度:语义准确性得分(SAS)和叙事连贯性得分(NCS)。使用结构化的提示模板,VD-Eval生成的分数范围从1到10,这些分数同时反映了角色和内容的准确性以及叙事的完整性,同时将人工注释成本降低了90%以上。
在MovieClip和MovieNet上的实验显示了我们方法的有效性。在MovieClip上,KE-VUM将BERTScore F1从0.649(电影LLM基线)提高到0.696,并将SAS/NCS从6.02/5.62(仅基于视觉的基线)提高到6.95/6.77;在MovieNet上,它也比所有竞争基线模型获得了更高的BERTScore和SAS/NCS。这些结果表明,利用剧本知识和结构化推理显著增强了对具有延迟事件和线索的长形式叙事的理解。
总结来说,本文的主要贡献如下:
- •
我们提出了KE-VUM,这是一个视频-剧本协作推理框架,它利用剧本知识作为外部记忆来增强电影视频描述中的角色消歧和场景级语义理解,超越了传统的基于字幕的方法。
•我们设计了一种两阶段描述优化机制,首先细化实体关系,然后改进情节连贯性,将仅基于视觉的片段描述转化为具有正确角色身份和连贯跨镜头事件链的与剧本一致的故事叙述。
•我们构建了MovieClip数据集以及VD-Eval评估框架,能够沿着语义和叙事维度对视频描述进行细粒度评估,同时大幅降低人工注释成本。
部分片段
多模态大语言模型
多模态大语言模型(MLLMs)最近已成为视觉-语言理解的核心范式。通过联合建模视频、图像和文本信号,它们支持诸如视频字幕生成、问答、摘要和内容创建等任务(Ataallah等人(2024年);Islam等人(2024年);Li等人(2024a);Team等人(2023年);Wu和Krahenbuhl(2021年);Zhang等人(2025年))。与传统的单模态视频模型不同,MLLMs能够遵循自然语言指令
模型架构
KE-VUM的总体架构如图3所示。该框架将视频MLLM与外部剧本知识库相结合,以支持对复杂电影叙事的协作推理。通过结合视觉感知和知识检索,KE-VUM解决了传统视频描述模型中的常见问题,如实体引用模糊、事件链断裂和语义浅显(类似字幕)等问题。
我们将RAG流程集成到视频描述过程中。首先,
测试数据
为了评估KE-VUM在细粒度电影片段描述方面的有效性,我们首先构建了一个名为MovieClip的专用基准数据集。该数据集由来自69部国际知名故事片的精心挑选的片段组成,这些电影涵盖了不同的时代、类型和文化背景,因此涵盖了广泛的叙事结构和风格模式(见图7)。
在片段挖掘过程中,我们遵循两个设计原则:(i)叙事丰富性,要求每个片段都包含
实验
在本节中,我们将KE-VUM与先进的多模态模型在MovieClip数据集上进行比较,详细分析每个模型的性能,然后进行消融研究。对于所有比较模型,包括LLaMA-VID(Li等人(2024e))、MovieLLM(Song等人(2024))、Video-XL(Shu等人(2024))、LongVA-NeXT-Video-DPO(Liu等人(2024)和LongVA(Zhang等人(2024)),我们使用它们官方发布的预训练检查点,无需任何额外的训练或微调。
结论
在本文中,我们提出了KE-VUM,这是一种基于知识的视频理解模型,用于电影描述。通过结合检索增强生成框架和两阶段分层描述优化,KE-VUM利用结构化的剧本知识来解决实体引用问题并提高情节连贯性。在MovieClip和MovieNet基准数据集上的实验,通过定量指标、定性分析和延迟场景评估,证明了其相对于强大模型的持续优势
CRediT作者贡献声明
Xiaojing Gu:撰写——原始草稿、方法论。
Gen Xu:撰写——审阅与编辑、项目管理。
Xiaolu Zhang:撰写——审阅与编辑、方法论。
Yijie Wang:形式分析、数据管理。
Jiangjian Xiao:撰写——审阅与编辑、概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
作者感谢宁波市关键研发计划(特别是科技创新 Yongjiang 2035 计划)提供的财政支持,资助编号为2024Z120和2025Z053。