多图提示学习与注意力融合技术在事件图补全中的应用

《Neural Networks》:Multiplex graph prompt learning and attentive fusion for event graph completion

【字体: 时间:2026年02月21日 来源:Neural Networks 6.3

编辑推荐:

  针对长期视频预测中存在的预测模糊性和误差累积问题,本文提出了一种分层时空残差模型,通过建模先验与后验的残差分布,增强空间特征捕捉能力,有效降低误差累积,并在多个数据集上验证优于现有方法。

  
王贵琴|赵鹏|郭浩然|郑云|赵聪|郭青海|杨树森
西安交通大学计算机科学与技术学院,中国陕西省西安市,710049

摘要

由于预测的不确定性以及误差随时间的累积,预测视频中的长期未来帧是一个具有挑战性的任务。在远处的帧中,这些问题更加明显,因为小误差会累积成显著的差异。很少有研究关注能够有效管理视频随机性的层次化时空表示方法,尤其是在具有不同空间分布的数据集上。鉴于空间分布分析在计算机视觉中的重要性,层次化空间建模已被证明优于许多基于非自回归似然的模型,特别是在视频空间分析方面。在这项工作中,我们提出了一种层次化时空残差模型用于长期视频预测,该模型能够捕捉先验和后验之间的残差分布,从而更丰富地表示视频中存在的随机特征。具体来说,我们提出了一种层次化残差生成模型,该模型提高了潜在状态空间捕捉视频空间特征的能力。这种方法增强了模型对视频数据中不同空间分布的泛化能力。通过明确建模数据的残差性质并将近似后验与先验对齐,我们的方法能够更好地捕捉随机变化。因此,在长期视频预测任务中显著提高了性能。在三个具有挑战性的数据集上的评估表明,我们的模型优于基于时间模型和卷积神经网络的方法。我们的代码可在以下链接公开获取:https://github.com/fengpany/Implicit_video_prediction

引言

近年来,视频预测引起了研究人员的广泛关注,其目标是基于已知的条件帧序列生成可能的未来帧。它在预测视觉序列的未来方面有广泛的应用,包括轨迹预测(Gu等人,2023年)、自动驾驶(Yang等人,2024年)和未来事件预测(Saxena等人,2021年;Zakharov等人,2022年)。视频序列包含复杂的时间动态和丰富的空间结构,这使得视频预测高度依赖于准确建模时间依赖性(例如,物体运动和场景转换)和空间细节(例如,噪声、物体位置和形状)(Chang等人,2022a;Hsieh等人,2018年;Jin等人,2020年)。建模长时段视频(例如,数百帧未来帧)(Chen等人,2020年;Slack等人,2025年)进一步挑战了模型保持时空一致性和防止随机误差漂移的能力,而短期时段(例如,20-50帧)仅捕捉局部动态。因此,这些挑战限制了大多数现有方法仅适用于短期预测场景。
在探索长期视频预测领域时,研究人员主要遵循两种关键范式:像素空间预测和潜在动态预测。前者方法(Alfarano等人,2025年;Gao等人,2022年;Tan等人,2023年)通过视频级别的卷积网络从过去帧预测未来帧。然而,这些方法由于难以捕捉高维性和长期运动动态而计算成本高昂(Hsieh等人,2018年;Lee等人,2021年;Villar-Corrales和Behnke,2025年)。后者方法(Liu等人,2021年;Rakhimov等人,2021年;Saxena等人,2021年;Walker等人,2021年)通过生成模型(例如,变分自编码器(VAE)、生成对抗网络(GAN)在潜在空间中学习视频序列的隐式特征和高维表示,从而在低维潜在空间中推断未来信息以预测后续帧。
此外,在生成潜在动态领域,一个关键挑战在于设计能够在长预测时段内保持保真度的模型。虽然VAE被广泛采用,但将其应用于视频预测需要与用于静态图像生成的架构不同的专门架构。当前的最先进方法严重依赖于层次化VAE,旨在构建能够表示不同时间尺度变化的深度潜在结构。例如,Saxena等人(2021年);Zakharov、Guo、Fountas(2022年)的方法专注于优化深度VAE以捕捉具有不同时间动态的确定性表示。例如,CW-VAE(Saxena等人,2021年)利用在不同时钟时间尺度上操作的层次化潜在序列空间,而VPR(Zakharov等人,2022年)提出了一种事件检测机制,将连续数据建模为层次化更新过程。
然而,这些方法的一个关键局限性是它们主要关注时间动态而忽视了空间建模。从根本上说,视频主题的未来演变不仅受时间趋势的影响,还受到内在空间随机性的影响(Oprea等人,2020年)。换句话说,给定相同的条件帧,潜在分布允许多个等概率且有效的空间结果。现有方法往往无法考虑这一点,导致长期预测中的不精确性和误差累积。特别是在标准的深度层次化VAE中,缺乏显式的空间残差建模经常导致后验崩溃和无界的Kullback-Leibler(KL)散度(Vahdat和Kautz,2020年),最终使生成的未来帧退化为模糊的平均值。
在这项工作中,我们专注于通用长期视频预测,这是一个需要稳健建模复杂动态的具有挑战性的任务。虽然早期研究使用基于记忆或随机模型解决了长期预测问题,但最近的研究主要集中在短期预测或特定领域应用上。为了弥合这一差距,我们在一个通用设置中重新审视了这个问题,超越了固定时间范围或任务依赖性约束的限制。我们提出了一种统一的概率框架,旨在捕捉不同场景中的长时段时间动态。具体来说,我们提出了一种隐式层次化时空残差模型,该模型使用深度层次化变分自编码器(VAE)在潜在空间中重建高维空间特征。这种设计有效地减轻了时间不确定性和信息损失。为了进一步完善后验学习,我们结合了残差参数化策略和残差后验空间重建模块。这些组件共同增强了近似后验与真实数据分布之间的对齐,通过更准确的KL正则化确保了VAE训练的稳定性。
主要贡献如下:
  • 我们提出了一种新颖的隐式层次化空间重建架构,通过建模先验和后验之间的残差分布来增强层次化信息传输,而不会过度增加计算成本。
  • 我们引入了一种用于视频预测任务的时间-空间分解空间重建框架,该框架通过建模后验分布来学习空间维度中的变量先验分布。
  • 实验结果表明,与当前最先进的基于循环和基于CNN的预测方法相比,我们的方法取得了最佳的整体性能。我们通过消融研究验证了所提出方法的有效性。
  • 部分摘录

    短期视频预测

    短期视频预测侧重于通过建模基于观察到的过去帧的时间依赖性来预测有限数量的未来帧。已经提出了许多方法来完成这项任务,主要基于卷积神经网络(CNN)或基于卷积的循环神经网络(RNN)来共同捕捉空间和时间动态(Chang等人,2022b;Chen和Wang,2019年;Gao等人,2022年;Slack等人,2025年;Tan等人,2023年;Tang等人,2025年)。

    问题定义

    视频预测任务的目标可以如下表述。设序列X1:TRT×W×H×C表示视频输入,其中T表示输入视频的长度,W, H, C分别对应于每帧的宽度、高度和通道数。这里,Xt表示视频输入序列中的第t帧。我们的目标是使用给定的条件帧X1: T作为输入,来预测接下来的帧XT+1:T+T
    因此,视频预测的目标是优化

    数据集

    Moving MNIST数据集(Srivastava等人,2015年)包含视频,其中两个数字在帧中独立移动。训练集包含20,000个视频,每个视频长度为100帧,测试集包含100个视频,每个视频长度为500帧。
    GQN-Mazes数据集(Eslami等人,2018年)包含一系列迷宫场景,每个场景包含从不同视角拍摄的多帧。训练集包含108,000个视频,而测试集

    结论

    在本文中,我们提出了一种新颖的隐式层次化残差编码器-解码器架构,以提高视频预测中空间信息传输的效率。此外,我们引入了一种新的优化方法来学习变量先验分布,其中后验分布通过残差得到准确建模,以指导变量先验的学习。这种创新的随机分布优化方法可以扩展到其他变分模型中

    未引用的参考文献

    缺少引用:图1。

    CRediT作者贡献声明

    王贵琴:撰写 – 审稿与编辑,撰写 – 原稿,验证,软件,资源,项目管理,方法论,形式分析,数据管理,概念化。赵鹏:撰写 – 审稿与编辑,监督,项目管理,调查。郭浩然:可视化,验证,方法论。郑云:可视化,验证,方法论。赵聪:撰写 – 审稿与编辑,监督,资源,项目管理。郭青海:撰写 – 审稿

    利益冲突声明

    作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号