一种基于线索关系和受限镜头描述的新型电影场景检测方法

《Neural Networks》:A novel Movie Scene Detection method based on Clue Relationship and Constrained Shot Description

【字体: 时间:2026年01月16日 来源:Neural Networks 6.3

编辑推荐:

  电影场景检测方法CRCSD通过自线索与纠缠线索的关联性重构,结合基于元数据和镜头属性的Shotboard生成受限描述,构建双模态线索图并通过门控图迁移融合增强特征,有效区分相似场景和连接差异场景的镜头,在MovieNet等数据集上AP提升5.5%。

  
Kai Jiang|Shangkun Liu|Qingtian Zeng|Guiyuan Yuan|Hua Duan|Weijian Ni
山东科技大学计算机科学与工程学院,中国青岛市266590

摘要

电影场景检测具有挑战性,因为它需要准确测量镜头之间的关系以找到场景边界。大多数现有方法基于相似性进行测量,这可能导致无法区分来自不同场景的相似镜头,并忽略同一场景内不相似镜头之间的关系。在本文中,我们提出了一种基于线索关系和受限镜头描述(CRCSD)的电影场景检测方法来应对上述挑战。首先,我们提出了自线索和纠缠线索,并通过线索相关性(CR)重新平衡镜头之间的关系,以区分来自不同场景的相似镜头,并连接同一场景内的不相似镜头。我们利用整个线索的信息而不是离散镜头来进行电影场景检测,这更符合人类的思维习惯。其次,我们提出了Shotboard,它通过元数据和镜头属性添加约束,从摄像机的角度生成镜头描述。使用BEncoder提取这些镜头描述的板特征,从而在镜头之间建立潜在的关联,进一步缓解上述挑战。最后,我们构建了两个模态线索图,在图之间传递权重,并在图内传播信息,以学习带有线索上下文的镜头特征,从而识别场景的结束镜头。在多个公共数据集上的实验表明,我们的方法可以显著提高电影场景检测的性能。例如,在MovieNet数据集上,我们将平均精度(AP)提高了5.5%。代码可在以下链接获取:https://github.com/KJWQYY/CRCSD

引言

电影场景检测将电影分割成场景序列,这可以将电影划分为逻辑故事单元,并使情节更易于理解。一旦视频内容被结构化,我们就可以更高效地解析长视频,从而促进各种视频理解任务,如最小干扰的视频广告插入(Chen等人,2021年)、电影预览检索(Gaikwad等人,加拿大魁北克省蒙特利尔,2021年)和电影故事理解(Na等人,2017年)。
现有方法(Islam等人,加拿大不列颠哥伦比亚省温哥华,2023年;Mun等人,中国澳门,2022年)通过探索镜头之间的相似性来确定场景是否发生变化。它们通常增强同一场景内的镜头相似性,并降低不同场景之间的镜头相似性。然而,面对复杂线索的变化时,它们难以区分场景边界,导致分割和合并错误。原因是相似性使得区分来自不同场景的相似镜头变得困难,同时连接同一场景内的不相似镜头也很棘手,如图1(a)和图1(b)所示。
实际上,仅基于镜头之间的相似性是无法检测场景的。因为场景变化是合乎逻辑的,并且根据人类习惯演变。除了镜头内容外,线索也是人类判断场景是否发生变化的重要依据。因此,我们提出了线索相关性(CR),它利用局部时间内的线索关系来帮助测量镜头之间的关系。具体来说,我们将输入序列中与目标镜头相似且时间距离小于设定范围的镜头系列称为其自线索,而该目标镜头周围其他镜头的自线索称为其纠缠线索。所提出的自线索相关性(SCR)可以通过利用自线索的上下文有效测量镜头相似性。所提出的纠缠线索相关性(ECR)在相似镜头属于不同场景时测量两个镜头的纠缠线索关系,并获得低相似性,如图1(a)所示。所提出的自纠缠线索相关性(SECR)在场景内不相似镜头之间测量一个镜头的自线索与另一个镜头的纠缠线索之间的关系,并获得高相似性,如图1(b)所示。
现有方法(Rao等人,美国华盛顿州西雅图,2020年;Wei等人,法国巴黎,2023年)使用不同的模态来挖掘视觉内容中不可用的信息。不幸的是,理想的注释数据(如剧本和分镜)并不总是可用的(Sadoughi等人,法国巴黎,2023年)。尽管可以通过生成方法(Brown等人,2020年;OpenAI Achiam等人,2023年;Touvron等人,2023年)获得描述,但这些生成的描述是通用的,缺乏专业性,且质量无法保证。为了确保生成描述的可用性,我们提出了基于分镜的Shotboard来生成描述。Shotboard提供元数据和镜头属性,作为强制生成过程遵循预设规则的替代方案,从而获得从摄像机角度的受限描述。
在本文中,我们提出了一种新颖的电影场景检测方法——线索关系和受限镜头描述(CRCSD)。如图2所示,CRCSD利用CR来测量镜头之间的关系,以帮助构建线索图。借助Shotboard,生成了从摄像机角度的受限镜头描述,并使用这些镜头描述来扩展板模态的线索图。为了融合不同模态的信息,我们使用门控边权重传递(GEWT)函数在门控图传递和融合(GGTF)模块中为两种模态的线索图建立通信机制。然后,在这些图中进行信息传播,为镜头特征添加与线索相关的上下文,有助于确定每个镜头是否是场景的结束。为了便于阅读,我们在表1中总结了所提出的概念并提供了更多细节。我们的贡献总结如下:
我们是第一个引入线索来测量镜头之间关系以进行电影场景检测的团队。我们考虑了线索中的上下文知识,并利用CR重新平衡镜头之间的关系,这使我们能够有效处理复杂的线索变化。
  • 我们提出了Shotboard,它利用元数据和镜头属性来约束镜头描述的生成,从而解决了缺乏专业镜头描述的问题。通过挖掘板模态信息,我们可以进一步缓解同一场景中镜头视觉差异的问题。此外,我们在GGTF模块中融合了两种模态的图和特征。
  • 我们在三个公共数据集上评估了我们的方法:Movienet(Huang等人,2020年)、BBC Baraldi等人(澳大利亚布里斯班,2015年)和OVSD Rotman等人(美国加利福尼亚州圣何塞,2016年)。实验结果表明,我们的方法可以与最先进的方法相媲美,例如,在Movienet数据集上,我们的方法将平均精度(AP)提高了5.5%。
  • 部分片段

    电影的多模态数据

    基于视频数据的电影理解方法(Baraldi等人,意大利博尔扎诺,2015年;Rotman等人,美国加利福尼亚州圣何塞,2016年;Zhou等人,2003年)在早期阶段占据了主导地位。最近,Huang等人引入了一个大规模的多模态数据集——MovieNet(Huang等人,2020年),它成为了电影理解领域的基准。一些方法(Papalampidi等人,2021年;Rao等人,美国华盛顿州西雅图,2020年;Wei等人,法国巴黎,2023年)使用文本和语音来辅助

    问题表述和我们的框架

    给定一部电影,其中si代表一个镜头,N是镜头的数量。镜头是一段时间内从摄像机捕获的一系列帧,是电影的基本单位。场景是电影的一个逻辑故事单元,由一系列镜头组成。电影叙事是通过场景排序和连接实现的。我们将电影场景检测定义为镜头的二分类任务。具体来说,我们需要确定每个镜头是否是

    实验设置

    数据集:我们在三个广泛使用的视频场景检测数据集上评估我们的方法:MovieNet(Huang等人,2020年)、BBC Baraldi等人(澳大利亚布里斯班,2015年)和OVSD Rotman等人(美国加利福尼亚州圣何塞,2016年)。
    (1)MovieNet。这是一个大规模、全面的数据集,包含1,100部电影和160万个镜头。MovieNet中的318部电影具有标注的场景边界,形成了MovieScenes数据集(Rao等人,美国华盛顿州西雅图,2020年)。MovieScenes数据集被分为190部电影、64部电影和64部电影

    结论

    我们提出了一种新颖的电影场景检测方法CRCSD。它构建了两种模态的线索图,并通过在这些图中传播信息来增强特征。Shotboard可以帮助构建板模态的线索图。CR可以重新平衡这些线索图中镜头之间的关系。实验结果表明,我们的方法在电影场景检测方面表现出色。未来,我们计划探索更多信息,如人物和地点等。

    数据可用性和访问

    数据将应要求提供。

    CRediT作者贡献声明

    Kai Jiang:撰写——原始草案,软件,概念化。Shangkun Liu:撰写——审阅与编辑。Qingtian Zeng:撰写——审阅与编辑,验证,方法论。Guiyuan Yuan:撰写——审阅与编辑,软件。Hua Duan:撰写——审阅与编辑,软件。Weijian Ni:监督,项目管理。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

    致谢

    本工作得到了中国国家重点研发计划2022ZD0119501;国家自然科学基金52374221;山东省科技发展基金ZR2022MF288、ZR2023MF097和ZR2024QF107;泰山学者计划ts20190936;以及山东科技大学研究基金2015TDJH102和2019KJN024;山东重庆科技合作项目cstc2020jscx-lyjsAX0008的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号