编辑推荐:
视频摘要旨在生成简明且有意义的长期视频序列摘要,但现有方法难以捕捉被遮挡或非连续帧,且忽略关键帧与非关键帧的不平衡。本文提出FLO-Net框架,通过帧级动态偏移学习机制自适应调整时间注意力,引入局部化时间损失平衡帧重要性,并优化特征表示。实验表明FLO-Net在SumMe和TVSum数据集上F值分别达到62.2%和68.8%,显著优于现有方法。
哈斯纳特·霍森·阿拉法特博士(Md. Hasnat Hosen Arafat)、拉努·辛格(Ranu Singh)、卡温德·辛格(Kavinder Singh)、阿尼尔·辛格·帕里哈尔(Anil Singh Parihar)、帕亚尔·达巴斯(Payal Dabas)
印度新德里德里技术大学计算机科学与工程系
摘要
视频摘要旨在生成简洁而有意义的长时间视频序列摘要,以实现高效的存储和检索。然而,现有方法难以捕捉到被遮挡或非连续的帧,同时忽略了关键帧和非关键帧之间的不平衡。与在所有帧上应用统一注意力的现有方法不同,本文提出了一种基于帧的偏移学习机制,该机制动态调整时间焦点并缓解帧不平衡问题,从而提高视频摘要的质量。我们提出了基于帧的学习偏移网络(FLO-Net),它整合了三个关键模块:一个基于帧的学习偏移模块,用于自适应地对齐帧间的时间依赖性;一个学习到的帧表示模块,用于细化语义特征;以及一个局部化时间损失模块,通过基于窗口的优化来平衡帧不平衡。实验使用四个基准数据集进行,结果表明FLO-Net的性能优于现有方法,在SumMe和TVSum数据集上的F分数分别为62.2%和68.8%。FLO-Net为视频摘要提供了一个强大且高效的框架,适用于监控、多模态检索和生成内容分析。
引言
在智能系统时代,视频内容已成为各种应用中的主要数据类型,包括实时无人机巡逻、自主监控、医疗监控、教育分析和多模态内容生成。这些应用不断产生大量视频流,需要实时分析和简洁的摘要以便有效存储、检索和决策。手动检查如此庞大的数据是不可行的,因此迫切需要能够提取最具信息量和上下文相关性的片段的自动化视频摘要系统。一个有效的摘要模型必须应对高数据量、时间复杂性和语义多样性带来的挑战,同时在大规模或实时应用中高效运行。例如,在紧急救援任务中,可能会拍摄数小时的无人机视频来寻找自然灾害后的幸存者,如图1所示。一个有效的视频摘要框架可以将这些小时的视频压缩成简短而有意义的片段,突出关键时刻,如检测到人体运动或 distress 的迹象,使响应者能够迅速采取行动。这一能力突显了自动化视频摘要作为智能决策的关键推动者以及在现实世界场景中推进应用人工智能的重要性。
尽管取得了显著进展,现有的视频摘要方法仍存在一些重要的局限性,这些局限性限制了它们的性能和可扩展性,主要可以分为两个方面。首先,许多最先进的方法依赖于顺序处理(Zhang等人,2016年;Rochan等人,2018年)或基于变压器的机制(Fajtl等人,2019年;Ji等人,2020年;Li等人,2021年;Li等人,2025年),这些方法对所有帧赋予相同的重要性,无法有效捕捉长时间的时间依赖性、被遮挡的事件或帧间的非连续关系。这导致时间上不一致且语义上碎片化的摘要,特别是在现实世界环境中常见的动态场景变化下。其次,大多数优化策略未能充分解决帧不平衡问题,即只有少数帧具有信息量,而大多数帧是冗余的。传统的损失函数(如交叉熵或均方误差)对每个帧赋予相同的权重,导致模型倾向于关注频繁但不重要的视觉内容。据我们所知,将局部权重适应于摘要任务的时间帧不平衡问题尚未得到探索。有限的时间适应性和学习不平衡是两个主要问题,共同限制了模型生成简洁且上下文连贯的摘要的能力,特别是在紧急操作或城市监控等动态、事件驱动的环境中。
为了解决这些挑战,我们提出了FLO-Net(基于帧的学习偏移网络)。FLO-Net受到了用于对象检测的可变形注意力机制(X. Zhu等人,2020年)的启发,并将其概念扩展到时间领域。FLO-Net不是在所有帧上应用统一注意力,而是学习基于帧的时间偏移,动态地将注意力转移到被遮挡的、非连续的和语义上重要的帧上,从而保持时间连贯性并捕捉长时间依赖性。为了解决帧不平衡问题,我们进一步引入了局部化时间损失(LTL),它在时间窗口内聚合帧级损失,强调难以分类或代表性不足的帧,同时抑制冗余帧。这种局部优化框架增强了模型的稳定性和区分能力。整体架构整合了三个关键模块:(i)基于帧的学习偏移模块(FLOM),用于自适应的时间注意力;(ii)学习到的深度帧表示模块(LFRM),用于细化特征嵌入;以及(iii)局部化时间损失(LTL),用于平衡学习。FLOM和LFRM模块的融合输出产生了丰富的帧表示,全面编码了时空关系,使FLO-Net能够生成语义上有意义的摘要。该方法在多个基准测试上的表现优于现有方法。
我们工作的主要贡献如下:
- •
我们提出了一种新的基于帧的学习偏移模块(FLOM),它在注意力机制中引入了时间自适应偏移。FLOM动态调整帧间的时间注意力,增强了动态内容的表示,并解决了时间建模中的挑战,如被遮挡和非连续帧的问题。
- •
我们引入了局部化时间损失(LTL),它在窗口内聚合帧级损失,解决了帧不平衡问题,并指导基于帧的重要性学习。据我们所知,我们将局部权重适应于时间帧不平衡是首个解决视频摘要任务中帧不平衡的方法。
- •
所提出的FLO-Net在基准视频摘要数据集上取得了最先进的性能,展示了在定量和定性结果方面的有效性。
其余部分的组织结构如下:第2节介绍视频摘要的相关主题。第3节描述了所提出的方法。第4节展示了实验分析。第5节讨论了局限性。最后,第6节提供了结论。
部分摘录
监督技术
传统方法依赖于手动设计的特征来编码视频帧中的信息。虽然这些特征试图捕捉语义内容,但它们往往无法表示高层次的时间动态和帧间的上下文依赖性。最近的方法利用深度学习自动提取更具信息量和任务特定性的特征。基于LSTM的方法(Zhang等人,2016年;Ji等人,2020年)有效地捕捉了帧间的时间依赖性。
所提出的方法
在本节中,我们介绍了用于视频摘要的FLO-Net(基于帧的学习偏移网络,带有局部损失),通过自适应地学习时间特征。所提出的方法解决了视频摘要中的两个关键挑战:(i)捕捉视频帧间长时间依赖性的难度;(ii)关键帧和非关键帧之间明显的不平衡,这往往导致学习偏差。为了克服这些限制,FLO-Net整合了各种模块
实现细节
所有实验均在配备Intel Xeon处理器、128 GB RAM和NVIDIA Titan RTX GPU的Ubuntu机器上使用Pytorch进行。所有视频帧都被统一调整为224 × 224大小以进行特征提取。使用预训练的ResNet-18模型(He等人,2016年)提取帧级特征,该模型为每个帧生成512维的嵌入。FLO-Net使用随机梯度下降(SGD)进行优化,动量为0.9,批量大小为40。
局限性
尽管FLO-Net在生成的摘要的定量和定性指标上表现优异,但仍存在一些限制其整体有效性的挑战。图11展示了典型的失败案例。如图2行所示,FLO-Net包括了1190和5355附近的不相关帧,这些帧在视觉上显著但语义上无意义,表明模型可能更重视外观显著性而非叙事重要性。此外,FLO-Net
结论
在这项工作中,我们提出了FLO-Net,这是一个带有局部损失的基于帧的学习偏移网络,旨在解决视频摘要中的关键挑战,包括时间不对齐、被遮挡和非连续帧以及帧不平衡问题。FLO-Net引入了三个模块:一个基于帧的学习偏移模块,用于自适应地调整帧间的时间注意力;一个学习到的帧表示模块,用于细化语义表示;以及一个局部化时间损失,用于平衡关键帧和非关键帧
CRediT作者贡献声明
哈斯纳特·霍森·阿拉法特博士(Md. Hasnat Hosen Arafat):撰写 – 审稿与编辑、原始草稿撰写、可视化、验证、方法论、概念化。拉努·辛格(Ranu Singh):验证、方法论、调查、形式分析。卡温德·辛格(Kavinder Singh):撰写 – 审稿与编辑、原始草稿撰写、监督、资源管理、方法论、概念化。阿尼尔·辛格·帕里哈尔(Anil Singh Parihar):撰写 – 审稿与编辑、监督、资源管理。帕亚尔·达巴斯(Payal Dabas):撰写 – 审稿与编辑、原始草稿撰写
资助信息
本工作得到了印度新德里德里技术大学授予卡温德·辛格博士的青年教师研究基金的支持。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。