用于长期视频预测的隐式层次化时空残差模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Implicit hierarchical temporal-spatial residual model for long-term video prediction

【字体：大中小】 时间：2026年02月22日 来源：Neural Networks 6.3

编辑推荐：

　　长期视频预测中提出隐式分层时空残差模型，通过空间残差建模与分层VAE架构解决误差累积问题，提升远期预测精度。

王贵勤|赵鹏|郭浩然|郑云|赵聪|郭青海|杨树森

西安交通大学计算机科学与技术学院，中国陕西省西安市710049

摘要

由于预测的不确定性和随时间累积的误差放大，预测视频中的长期未来帧具有挑战性。在远距离帧中，这些问题变得更加明显，因为小的误差会累积成显著的差异。很少有研究关注能够有效管理视频随机性的层次化时空表示，尤其是在具有不同空间分布的数据集中。鉴于空间分布分析在计算机视觉中的重要性，层次化空间建模已被证明优于许多非自回归似然模型，特别是在视频空间分析方面。在这项工作中，我们提出了一种层次化时空残差模型用于长期视频预测，该模型捕捉了先验和后验之间的残差分布，从而更丰富地表示视频中存在的随机特征。具体来说，我们提出了一种层次化残差生成模型，该模型提高了潜在状态空间捕捉视频中空间特征的能力。这种方法增强了视频数据中不同空间分布的泛化能力。通过明确建模数据的残差特性并将近似后验与先验对齐，我们的方法更好地捕捉了随机变化。因此，它在长期视频预测任务中的性能得到了显著提升。在三个具有挑战性的数据集上的评估表明，我们的模型优于基于时间模型和基于卷积神经网络的方法。我们的代码可在以下链接公开获取：https://github.com/fengpany/Implicit_video_prediction。

引言

近年来，视频预测引起了研究人员的广泛关注，其目标是基于已知条件帧的短序列生成可能的未来帧。它在预测视觉序列的未来方面有广泛的应用，包括轨迹预测（Gu等人，2023年）、自动驾驶（Yang等人，2024年）和未来事件预测（Saxena, Ba, Hafner, 2021年；Zakharov, Guo, Fountas, 2022年）。视频序列包含复杂的时间动态和丰富的空间结构，这使得视频预测高度依赖于准确建模时间依赖性（例如，物体运动和场景转换）和空间细节（例如，噪声、物体位置和形状）（Chang, Zhang, Wang, Ma, Gao, 2022a；Hsieh, Liu, Huang, Fei-Fei, Niebles, 2018年；Jin, Hu, Tang, Niu, Shi, Han, Li, 2020年）。预测长距离视频（例如，数百帧未来帧）（Chen, Xu, Yang, Tao, 2020年；Slack, Hudson, Winterbottom, Al Moubayed, 2025年）进一步挑战了模型保持时空一致性和防止随机误差漂移的能力，而短期预测范围（例如，20-50帧）仅捕捉局部动态。因此，这些挑战将大多数现有方法限制在短期预测场景中。

在探索长期视频预测领域时，研究人员主要遵循两种关键范式：像素空间预测和潜在动态预测。前者方法（Alfarano, Alfarano, Friso, Bacciu, Amerini, Silvestri, 2025年；Gao, Tan, Wu, Li, 2022年；Tan, Gao, Wu, Xu, Xia, Li, Li, 2023年）通过视频级别的卷积网络从过去帧预测未来帧。然而，这些方法由于难以捕捉高维性和长期运动动态而计算成本高昂（Hsieh, Liu, Huang, Fei-Fei, Niebles, 2018年；Lee, Kim, Choi, Kim, Ro, 2021年；Villar-Corrales, & Behnke）。后者方法（Liu, Chen, Liu, Kim, 2021年；Rakhimov, Volkhonskiy, Artemov, Zorin, Burnaev, 2021年；Saxena, Ba, Hafner, 2021年；Walker, Razavi, & van den）通过生成模型（例如，变分自编码器（VAE）、生成对抗网络（GAN）在潜在空间中学习视频序列的隐含特征和高维表示，从而在低维潜在空间中推断未来信息以预测后续帧。

此外，在生成潜在动态领域，一个关键挑战在于设计能够在长期预测范围内保持保真度的模型。虽然VAE被广泛采用，但将其应用于视频预测需要专门针对静态图像生成的架构。当前的最先进方法严重依赖层次化VAE，旨在构建能够表示不同时间尺度变化的深度潜在结构。具体来说，一些方法（Saxena, Ba, Hafner, 2021年；Zakharov, Guo, Fountas, 2022年；Zakharov, Guo, & Fountas）专注于优化深度VAE以捕捉具有不同时间动态的确定性表示。例如，CW-VAE（Saxena等人，2021年）利用在不同时钟时间尺度上操作的层次化潜在序列空间，而VPR（Zakharov等人，2022年）提出了一种事件检测机制，将连续数据建模为层次化更新过程。

然而，如图1所示，这些方法的一个关键局限性是它们主要关注时间动态而忽视了空间建模。从根本上说，视频主体的未来演变不仅受时间趋势的影响，还受内在空间随机性的影响（Oprea等人，2020年）。换句话说，给定相同的条件帧，潜在分布允许多个等概率和有效的空间结果。现有方法往往未能考虑到这一点，导致长期预测中的不精确性和误差累积。特别是在标准的深度层次化VAE中，缺乏显式的空间残差建模经常导致后验崩溃和无界的Kullback-Leibler（KL）散度（Vahdat和Kautz，2020年），最终使得生成的未来帧退化为模糊的平均值。

在这项工作中，我们专注于通用长期视频预测，这是一个需要强健建模复杂动态的挑战性任务。虽然早期研究使用基于记忆或随机模型来解决长期预测问题，但最近的研究主要转向短期预测或特定领域应用。为了弥合这一差距，我们在一般设置中重新审视了这个问题，超越了固定预测范围或任务依赖性约束的限制。我们引入了一个统一的概率框架，旨在捕捉不同场景中的长距离时间动态。具体来说，我们提出了一种隐式层次化时空残差模型，该模型使用深度层次化变分自编码器（VAE）在潜在空间中重建高维空间特征。这种设计有效地缓解了时间不确定性和信息损失。为了进一步完善后验学习，我们结合了残差参数化和残差后验空间重建模块。这些组件共同增强了近似后验与真实数据分布之间的对齐，通过更准确的KL正则化确保了VAE训练的稳定性。

主要贡献如下：

我们提出了一种新颖的隐式层次化空间重建架构，通过建模先验和后验之间的残差分布来增强层次化信息传输，而不会过度增加计算成本。

我们引入了一种用于视频预测任务的时间-空间分解空间重建框架，该框架通过建模后验分布来学习空间维度中的可变先验分布。

实验结果表明，与当前最先进的基于循环和CNN的预测方法相比，我们的方法取得了最佳的整体性能。我们通过消融研究验证了所提出方法的有效性。

章节片段

短期视频预测

短期视频预测专注于通过建模基于观察到的过去帧的时间依赖性来预测有限数量的未来帧。已经提出了许多方法来完成这项任务，主要基于卷积神经网络（CNN）或基于卷积的循环神经网络（RNN）来共同捕捉空间和时间动态（Chang, Zhang, Wang, Ma, Gao, 2022b；Chen, Wang, 2019年；Gao, Tan, Wu, Li, 2022年；Slack, Hudson, Winterbottom, Al Moubayed, 2025年；Tan，

问题定义

视频预测任务的目标可以如下表述。设序列

X_{1 : T} \in R^{T \times W \times H \times C}

表示视频输入，其中T表示输入视频的长度，W, H, C分别对应于每帧的宽度、高度和通道数。这里，X_t表示视频输入序列中的第t帧。我们的目标是通过使用给定的条件帧X_{1: T}作为输入来预测接下来的帧

X_{T + 1 : T + T^{'}}

。因此，视频预测的目标是优化

数据集

Moving MNIST数据集（Srivastava等人，2015年）包含视频，其中两个数字在帧中独立移动。训练集包含20,000个视频，每个视频长度为100帧，测试集包含100个视频，每个视频长度为500帧。

GQN-Mazes数据集（Eslami等人，2018年）包含一系列迷宫场景，每个场景包含从不同视角拍摄的多帧。训练集包含108,000个视频，而测试集

结论

在本文中，我们提出了一种新颖的隐式层次化残差编码器-解码器架构，以提高视频预测中的空间信息传输效率。此外，我们引入了一种新的优化方法来学习可变先验分布，其中后验分布通过残差得到准确建模，以指导可变先验的学习。这种创新的随机分布优化方法可以扩展到其他变分

CRediT作者贡献声明

王贵勤：撰写 – 审稿与编辑，撰写 – 原始草稿，验证，软件，资源，项目管理，方法论，形式分析，数据策划，概念化。赵鹏：撰写 – 审稿与编辑，监督，项目管理，调查。郭浩然：可视化，验证，方法论。郑云：可视化，验证，方法论。赵聪：撰写 – 审稿与编辑，监督，资源，项目管理。郭青海：撰写 – 审稿

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号