Disco：基于LLM的身份感知篮球视频字幕处理的身份-动作提取与时空上下文建模

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition》：Disco: Disentangled Identity-Action Extraction and Spatiotemporal Context Modeling for LLM-Based Identity-Aware Basketball Video Captioning

【字体：大中小】 时间：2026年02月11日 来源：Pattern Recognition 7.6

编辑推荐：

　　身份感知体育视频字幕生成方法，提出Disco框架通过解耦身份与动作提取网络(IADN)和自适应时空上下文建模(ASCM)模块，结合关键球员交互模块与LLM生成精准字幕，实验验证在NBA数据集上显著优于现有方法。

作者：Zeyu Xi, Ya Jing, Haoying Sun, Haoran Zhang, Lifang Wu

北京工业大学信息科学与技术学院，北京，100124，中国

摘要

身份感知型体育视频字幕生成（IAVC）是一项具有挑战性的任务，它涉及识别运动员并描述详细的动作。现有方法主要关注运动员的识别，往往忽视了从动作信息中挖掘以提升字幕质量的巨大潜力。在本文中，我们提出了一种新型的身份感知型篮球视频字幕生成网络，该网络具有解耦的身份-动作提取和时空上下文建模功能（简称Disco）。具体而言，关键运动员是根据他们与球之间的互动来选择的。同时，我们使用了一个预训练的身份-动作解耦网络（IADN）来联合提取关键运动员的身份和动作语义。为了增强上下文理解，我们的自适应时空上下文建模（ASCM）模块采用了可学习的查询向量来捕捉场景级的视觉线索。我们还设计了一个运动员-场景互动（PSI）模块，将运动员与场景背景关联起来。上述组件的输出被合并成一个包含身份和动作信息的提示，引导大型语言模型（LLM）生成准确的字幕。在VC-NBA-2022和NBA-Identity数据集上的广泛实验表明，Disco取得了令人印象深刻的结果，显著优于现有的先进方法。代码可在以下链接公开获取：https://github.com/Zeyu1226-mt/Disco

引言

身份感知型体育视频字幕生成（IAVC）旨在生成包含运动员姓名及其相应详细动作的自然语言描述，以总结给定视频片段的主要内容。由于其广泛的应用领域，包括自动评论生成[1]、[2]、实时文本广播[3]和体育新闻生成[4]，这项技术受到了越来越多的关注。

传统的视频字幕生成模型[5]难以直接从视频中提取运动员身份信息，导致生成的描述缺乏明确的运动员参考（例如：“一群人在打篮球”）。这种泛化的字幕在体育等需要准确实体识别的领域中是不够用的。最近，一些研究结合了来自外部知识库[1]、[6]、[7]的游戏相关信息，如比赛报道、运动员名单、球队资料和运动员统计数据，来帮助模型生成包含运动员姓名和相应动作的字幕。这些方法在提高实体感知能力方面取得了进展。由于外部知识与视觉内容是独立的，运动员身份通常是通过外部信息间接推断出来的，而不是通过视觉线索直接识别的。这导致了较低的准确性，表明模型并没有真正理解视频内容（见图1（a））。

为了实现基于视觉的运动员身份识别，Xi等人[8]预训练了一个运动员识别网络（PIN），通过多目标跟踪器[9]提取的运动员序列来分类身份。然后使用大型语言模型（LLM）将运动员特征和身份标签与场景特征融合，生成包含身份感知的字幕。Wu等人[10]使用对象检测器提取运动员、篮球和篮筐，并共同建模这些视觉实体以生成包含运动员身份的字幕。这种方法利用了从封闭集合中学到的视觉特征与身份标签之间的映射，提高了实体感知能力。然而，上述两种方法主要关注静态身份特征，忽略了嵌入在运动员序列中的动作线索，导致动作生成的准确性较低（见图1（b）。

实际上，运动员序列不仅包含静态身份线索，还包含动态动作模式，为视频理解提供了丰富的语义信息。尽管如此，从视频中准确提取详细动作特征仍然具有挑战性，因为运动员在每一帧中通常只占据很小的空间区域[11]，导致视觉信号有限。此外，视觉实例之间的关系多种多样[12]。特别是在球类运动比赛中，最关键的关系是运动员与篮球之间的互动，这主导了主要事件和动作。因此，专注于与篮球相关的运动员序列来联合提取身份和动作信息，为实现更准确的身份感知型体育视频字幕提供了一种更有针对性和有效的方法。

受到上述见解的启发，本文提出了一种新型的身份感知型篮球视频字幕生成网络，具有解耦的身份-动作提取和时空上下文建模功能（简称Disco）（见图1（c））。具体来说，我们首先基于篮球知识图谱[6]构建了一个身份-动作集。利用这个集合并预训练了一个身份-动作解耦网络（IADN），从运动员序列中联合提取身份和动作信息。接下来，我们使用对象检测器和多目标跟踪器选择与篮球互动的关键运动员，并利用预训练的IADN提取他们的身份和动作特征。然后，我们的创新自适应时空上下文建模（ASCM）模块利用可学习的查询向量捕捉视频特征中的场景级信息。进一步引入了运动员-场景互动（PSI）模块，将运动员与相关场景背景关联起来。最后，将提取的运动员-动作文本信息、场景表示和场景增强后的视觉运动员特征输入到LLM中，生成包含运动员身份和详细动作的字幕。

本文的主要贡献如下：

•
我们提出了Disco框架，该框架能够进行解耦的身份-动作提取和时空上下文建模，生成包含准确运动员身份和详细动作的字幕。该框架专注于与篮球相关的运动员序列，联合挖掘身份和动作语义，提高了生成描述的相关性和准确性。
•
身份-动作解耦网络（IADN）经过预训练，能够使用单一共享特征网络同时从与篮球相关的运动员序列中解耦并提取运动员身份和动作信息，从而减少了多个独立模型的成本，同时增强了身份和动作表示之间的相关性。
•
自适应时空上下文建模（ASCM）模块应用空间和时间注意力来编码时空动态，并利用可学习的查询向量提取关键场景特征，增强了模型对复杂上下文信息的表示能力。
•
在VC-NBA-2022 [6]和NBA-Identity [8]数据集上的广泛实验表明，所提出的Disco取得了最先进的性能。

部分内容摘录

视频字幕生成

基于深度学习的编码器-解码器框架已成为该领域的主流方法。编码器从多个视频帧中提取视觉特征，解码器生成视频内容的文本描述。视觉-语言领域取得了显著进展，越来越强大的模型能够同时理解视觉内容和自然语言[13]。基于这种框架，Tang等人[14]引入了图像-文本知识

架构概述

如图2所示，Disco包含五个关键组件：1）关键运动员选择（KPS）模块，2）身份-动作解耦网络（IADN），3）自适应时空上下文建模（ASCM）模块，4）运动员-场景互动（PSI）模块，5）基于LLM的解码器。给定一个视频片段，KPS首先使用多目标跟踪器和篮球检测器提取运动员和篮球。根据每个运动员与篮球之间的互动，选择排名前k的运动员。

实验

为了验证所提出的Disco的有效性，我们在两个基于实体的篮球视频字幕数据集VC-NBA-2022 [6]和NBA-Identity [8]上进行了全面实验。此外，还进行了一系列消融研究，系统地评估了Disco中每个关键组件的贡献。

结论、局限性和未来工作

在本文中，我们提出了一种具有解耦身份-动作提取和时空上下文建模的新型身份感知型篮球视频字幕生成网络（Disco）。所提出的身份-动作解耦网络使Disco能够从关键运动员序列中捕获详细的运动员身份和动作语义，这对于理解复杂的多运动员场景至关重要。自适应时空上下文建模模块进一步增强了场景理解能力。

CRediT作者贡献声明

Zeyu Xi：撰写 – 审稿与编辑，撰写 – 原稿撰写，可视化，验证，资源管理，方法论，形式分析，数据整理，概念化。Ya Jing：撰写 – 审稿与编辑，形式分析。Haoying Sun：撰写 – 审稿与编辑，验证，形式分析。Haoran Zhang：可视化，形式分析。Lifang Wu：撰写 – 审稿与编辑，监督，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了中国自然科学基金（项目编号62236010、62576017）和北京自然科学基金（项目编号L233008）的支持。

Zeyu Xi于2022年在中国秦皇岛的燕山大学获得了控制科学与工程硕士学位。他目前正在北京工业大学攻读电子科学与技术博士学位。他的研究兴趣包括单目标跟踪、视频字幕生成、多模态大型语言模型和多模态知识图谱。

联系信箱：

粤ICP备09063491号

摘要

引言