编辑推荐:
动态时空图网络通过融合全局与局部特征解决过平滑问题,提升视频摘要准确率与效率。
李玉洁|贾浩楠|徐英英|王宇|迈克尔·迈耶|谭本英
桂林电子科技大学,中国桂林,541004
摘要
视频摘要旨在提取长视频的简洁且信息丰富的表示,以节省存储空间并实现高效处理。然而,传统的基于序列的模型往往无法捕捉非连续的语义相关性,而现有的基于图的方法则受到刚性、静态拓扑结构的限制,无法适应变化的叙事节奏。此外,深度图层经常会出现“过度平滑”效应,这会模糊细粒度的局部运动细节,并导致特征整合失衡。为直接解决这些限制,我们提出了一种新颖的动态时空图网络(DSTG-VS),该网络结合了全局和局部特征融合技术来进行视频摘要。帧对之间的语义相关性通过时间衰减和帧相似性矩阵动态确定。进一步设计了一种双路径融合机制:全局特征(来自自适应平均池化)可以减轻图卷积中的过度平滑现象,而局部特征通过动态门控模块的自适应贡献平衡来保留关键的细粒度运动细节。在SumMe和TVSum数据集上,DSTG-VS分别获得了64.5%和61.7%的F分数,比现有最佳方法(Wang等人)在SumMe上的性能提高了7.1%,并且在参数数量仅为后者20.7%的情况下,在TVSum上达到了与最佳方法TCVT相当的性能。DSTG-VS在连续未编辑的视频上展现了卓越的效率和效果,为基于图的时空视频建模树立了新的行业标准。
引言
视频摘要是计算机视觉和多媒体分析中的基本任务,旨在从长视频中自动提取最具信息量的关键帧或片段,生成紧凑、连贯且语义上有意义的摘要。通过应对海量数据和信息冗余的挑战,视频摘要显著提高了视频的可浏览性和检索效率,同时支持了大规模视频数据库管理、实时监控、个性化推荐和下一代人机交互等多种应用。如图1所示的整体处理流程直观地展示了从原始视频输入到生成简洁且信息丰富摘要的转换过程。
深度学习的最新进展,特别是卷积神经网络、循环神经网络(RNN)及其变体(如长短期记忆(LSTM)和门控循环单元(GRU),以及基于Transformer的注意力模型,显著提升了视频摘要的质量。然而,大多数现有方法(如基于RNN或LSTM的序列模型[1]、基于Transformer的注意力机制[2]和混合架构[3])主要关注捕捉局部或线性依赖关系。虽然基于序列的模型在局部时间排序方面表现优异,但它们通常难以处理具有较大时间间隔的视觉相似场景之间的长距离非线性依赖关系。因此,这些方法不足以建模维持语义连贯性和叙事完整性的整体长距离依赖关系[4],常常产生无法反映视频主题进展的碎片化摘要。
图卷积网络(GCNs)通过将视频表示为图来捕捉非局部关系,提供了一个有前景的解决方案[5]。尽管具有这种潜力,当前基于图的方法仍存在两个关键限制,阻碍了其性能。首先,它们通常依赖于预定义的静态邻接矩阵或对象级图,这种刚性使得它们无法适应不受约束视频的变化叙事节奏,并导致较高的计算开销。其次,深度时空GCNs中的一个重要但常被忽视的限制是“过度平滑”效应和特征整合失衡。重复的图卷积会导致节点特征变得难以区分,从而抹去了细粒度的局部运动细节,同时无法保持连贯的全局语义主题。
为了解决这些挑战,我们提出了一种新颖的动态时空图网络(DSTG-VS)。与之前基于预定义连接的模型不同,DSTG-VS在高效的帧级别操作,并通过融合时间衰减和帧相似性动态学习图结构,确保模型能够捕捉到不断变化的依赖关系,而无需进行对象级处理。所提出方法的主要贡献可以概括为以下四个方面:
•我们提出了一种名为DSTG-VS的新框架,它将视频序列动态转换为自适应图结构,以克服静态图建模的局限性。在SumMe数据集上,该框架取得了64.5%的F分数,首次超过了60%的阈值,同时仅使用了874万个参数。这一结果在准确性和效率方面都显示出显著进步。
•为了解决序列模型无法捕捉非线性、长距离相关性的问题,我们提出了一种动态图构建策略。它通过整合时间衰减矩阵来适应局部运动的连续性,并利用帧相似性矩阵加强帧对之间的长距离语义相关性。
•为了对抗GCNs中固有的特征过度平滑和特征整合失衡问题,我们设计了一种双路径DGC(动态图构建)架构,包括一个使用自适应池化的全局路径来减轻特征平滑并提取高层次语义,以及一个保留细粒度空间细节的局部路径。这两条路径通过动态门控融合模块进行集成,以增强特征表示。
•我们开发了视觉LSTM和GCN的混合集成,以弥合局部序列建模和非局部关系推理之间的差距。视觉LSTM用于建模局部时空块,而GCN捕捉全局语义相关性,从而实现对视频内容的更全面理解。
本文的其余部分结构如下:第2节回顾相关工作,第3节描述所提出的DSTG-VS模型,第4节介绍实验设置、数据集、评估指标和结果,第5节总结未来的研究方向。
相关工作
相关工作
视频摘要旨在通过提取关键帧或片段将原始视频压缩成简洁的摘要,从而提高浏览和检索效率。随着视频数据的快速增长,视频摘要在各个领域(包括安全监控、社交媒体分析和医学视频解释)变得越来越重要。
早期的方法主要依赖于手工制作的特征和启发式规则。例如,de Avila等人提出了VSUMM [6]
概述
受VideoSAGE [5]的启发,我们提出DSTG-VS,将视频摘要视为一个基于图的时空关系学习问题。如图2所示,该框架分为三个阶段:特征提取和预处理,其中原始帧被转换为高级特征,并通过归一化和降维处理转换为富含时空上下文的低维节点表示;全局和局部特征融合图卷积,
实验
实验评估系统地验证了所提出框架的有效性,包括三个主要阶段:首先,定量基准测试阶段使用F分数[1]、Kendall的τ [16]和Spearman的ρ [17]相关系数来评估预测准确性和排名一致性;随后,敏感性分析研究关键超参数的影响,以确定多尺度时空建模的最佳配置;
结论
本文提出了DSTG-VS,这是一种用于视频摘要的轻量级动态时空图网络。通过将动态图构建(DGC)机制与视觉LSTM和全局-局部特征融合(GLF)相结合,该框架有效地捕捉了复杂的时空依赖关系和细粒度的运动动态,同时减轻了深度GCNs中固有的过度平滑问题。广泛的实验表明,DSTG-VS建立了新的行业标准
CRediT作者贡献声明
李玉洁:撰写——原始草稿、方法论、概念化、资金获取、资源协调、监督、验证。贾浩楠:撰写——原始草稿、可视化、软件开发、方法论、数据整理、调查。徐英英:撰写——审稿与编辑、验证、数据整理。王宇:撰写——审稿与编辑、验证。迈克尔·迈耶:撰写——审稿与编辑、可视化。谭本英:撰写——审稿与编辑、概念化、形式分析、资金支持
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作部分得到了广西重点研发计划项目(2025FN9637998)、国家自然科学基金(项目编号62076077)和广西人工智能研究院研究生创新项目(C25YJRGZZN06)的支持。