近年来,视频预测引起了研究人员的广泛关注,其目标是基于已知条件帧的短序列生成可能的未来帧。它在预测视觉序列的未来方面有广泛的应用,包括轨迹预测(Gu等人,2023年)、自动驾驶(Yang等人,2024年)和未来事件预测(Saxena, Ba, Hafner, 2021年;Zakharov, Guo, Fountas, 2022年)。视频序列包含复杂的时间动态和丰富的空间结构,这使得视频预测高度依赖于准确建模时间依赖性(例如,物体运动和场景转换)和空间细节(例如,噪声、物体位置和形状)(Chang, Zhang, Wang, Ma, Gao, 2022a;Hsieh, Liu, Huang, Fei-Fei, Niebles, 2018年;Jin, Hu, Tang, Niu, Shi, Han, Li, 2020年)。预测长距离视频(例如,数百帧未来帧)(Chen, Xu, Yang, Tao, 2020年;Slack, Hudson, Winterbottom, Al Moubayed, 2025年)进一步挑战了模型保持时空一致性和防止随机误差漂移的能力,而短期预测范围(例如,20-50帧)仅捕捉局部动态。因此,这些挑战将大多数现有方法限制在短期预测场景中。
在探索长期视频预测领域时,研究人员主要遵循两种关键范式:像素空间预测和潜在动态预测。前者方法(Alfarano, Alfarano, Friso, Bacciu, Amerini, Silvestri, 2025年;Gao, Tan, Wu, Li, 2022年;Tan, Gao, Wu, Xu, Xia, Li, Li, 2023年)通过视频级别的卷积网络从过去帧预测未来帧。然而,这些方法由于难以捕捉高维性和长期运动动态而计算成本高昂(Hsieh, Liu, Huang, Fei-Fei, Niebles, 2018年;Lee, Kim, Choi, Kim, Ro, 2021年;Villar-Corrales, & Behnke)。后者方法(Liu, Chen, Liu, Kim, 2021年;Rakhimov, Volkhonskiy, Artemov, Zorin, Burnaev, 2021年;Saxena, Ba, Hafner, 2021年;Walker, Razavi, & van den)通过生成模型(例如,变分自编码器(VAE)、生成对抗网络(GAN)在潜在空间中学习视频序列的隐含特征和高维表示,从而在低维潜在空间中推断未来信息以预测后续帧。
此外,在生成潜在动态领域,一个关键挑战在于设计能够在长期预测范围内保持保真度的模型。虽然VAE被广泛采用,但将其应用于视频预测需要专门针对静态图像生成的架构。当前的最先进方法严重依赖层次化VAE,旨在构建能够表示不同时间尺度变化的深度潜在结构。具体来说,一些方法(Saxena, Ba, Hafner, 2021年;Zakharov, Guo, Fountas, 2022年;Zakharov, Guo, & Fountas)专注于优化深度VAE以捕捉具有不同时间动态的确定性表示。例如,CW-VAE(Saxena等人,2021年)利用在不同时钟时间尺度上操作的层次化潜在序列空间,而VPR(Zakharov等人,2022年)提出了一种事件检测机制,将连续数据建模为层次化更新过程。
然而,如图1所示,这些方法的一个关键局限性是它们主要关注时间动态而忽视了空间建模。从根本上说,视频主体的未来演变不仅受时间趋势的影响,还受内在空间随机性的影响(Oprea等人,2020年)。换句话说,给定相同的条件帧,潜在分布允许多个等概率和有效的空间结果。现有方法往往未能考虑到这一点,导致长期预测中的不精确性和误差累积。特别是在标准的深度层次化VAE中,缺乏显式的空间残差建模经常导致后验崩溃和无界的Kullback-Leibler(KL)散度(Vahdat和Kautz,2020年),最终使得生成的未来帧退化为模糊的平均值。
在这项工作中,我们专注于通用长期视频预测,这是一个需要强健建模复杂动态的挑战性任务。虽然早期研究使用基于记忆或随机模型来解决长期预测问题,但最近的研究主要转向短期预测或特定领域应用。为了弥合这一差距,我们在一般设置中重新审视了这个问题,超越了固定预测范围或任务依赖性约束的限制。我们引入了一个统一的概率框架,旨在捕捉不同场景中的长距离时间动态。具体来说,我们提出了一种隐式层次化时空残差模型,该模型使用深度层次化变分自编码器(VAE)在潜在空间中重建高维空间特征。这种设计有效地缓解了时间不确定性和信息损失。为了进一步完善后验学习,我们结合了残差参数化和残差后验空间重建模块。这些组件共同增强了近似后验与真实数据分布之间的对齐,通过更准确的KL正则化确保了VAE训练的稳定性。
主要贡献如下:
我们提出了一种新颖的隐式层次化空间重建架构,通过建模先验和后验之间的残差分布来增强层次化信息传输,而不会过度增加计算成本。
我们引入了一种用于视频预测任务的时间-空间分解空间重建框架,该框架通过建模后验分布来学习空间维度中的可变先验分布。
实验结果表明,与当前最先进的基于循环和CNN的预测方法相比,我们的方法取得了最佳的整体性能。我们通过消融研究验证了所提出方法的有效性。