综述：端到端学习式视频压缩：全面综述

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

综述：端到端学习式视频压缩：全面综述

《Neurocomputing》：End-to-end learned video compression: A comprehensive review

【字体：大中小】 时间：2026年05月10日 来源：Neurocomputing 6.5

编辑推荐：

　　栾洁何｜沈云辉｜王金｜梁九珍｜林楠｜尹宝才北京工业大学信息科学与技术学院，北京，100124，中国摘要视频数据的爆炸性增长迫切需要更高效的压缩技术。尽管传统的视频编码标准经过了几十年的迭代优化，但它们正逐渐接近其理论极限。端到端学习视频压缩作为一种新兴范式，利

　　栾洁何｜沈云辉｜王金｜梁九珍｜林楠｜尹宝才
北京工业大学信息科学与技术学院，北京，100124，中国

摘要
视频数据的爆炸性增长迫切需要更高效的压缩技术。尽管传统的视频编码标准经过了几十年的迭代优化，但它们正逐渐接近其理论极限。端到端学习视频压缩作为一种新兴范式，利用深度神经网络联合优化各个压缩模块，显示出巨大的发展潜力。本文旨在全面概述该领域的最新进展，系统地回顾帧间编码架构的演变，并清晰地勾勒出从早期残差编码到新的视频压缩范式的的发展轨迹。在某些场景中，端到端学习视频压缩的性能已经超过了多用途视频编码测试模型，同时也指出了当前的挑战，包括高计算复杂性、处理复杂运动的难度以及缺乏标准化。本文深入分析了典型方法的性能和复杂性，总结了当前的挑战和未来的发展方向，并为该领域的未来研究提供有价值的见解。

引言
在数字时代，视频通信工具（如视频会议、直播和视频博客）的普及极大地增加了数据量。与此同时，对更高分辨率视频内容的需求激增，从标准定义（SD）发展到高清（HD）再到超高清（UHD）。这种量和质量的双重增长给传输带宽和存储容量带来了巨大压力。因此，开发高效的视频压缩算法以紧凑地表示视频数据对于减轻传输和存储负担至关重要。
国际视频编码标准化机构专注于几个关键领域：优化现有的混合编码技术、在混合框架内开发基于神经网络（NN）的工具，以及研究基于深度学习的端到端编码解决方案。混合编码方法通过分析内容特征（如纹理复杂性和运动强度）来动态确定最佳配置，例如块划分方案和预测模式。随着混合编码框架的发展，人工智能的集成带来了更多好处。例如，联合视频专家团队（JVET）在其2020年的会议上启动了对基于NN的端到端和混合视频编码框架的探索。通过神经网络优化多功能视频编码（VVC）采用了模块化方法，针对编码单元划分、帧内/帧间预测、环路滤波和后处理等各个组件。将人工智能集成到视频编码中不仅扩展了设计空间，还显著提高了压缩效率。
传统混合编码框架的优势是无可否认的。然而，根据JPEG AI工作报告，使用VVC [14]帧内编码器对单个8160×6120图像进行编码而不进行速度优化需要超过五个小时。这种计算强度使得该过程与在线神经网络训练一样耗时。此外，基于NN的模块需要单独的训练程序。例如，JVET NNVC后处理工具（如超分辨率和滤波）依赖于由VVC编解码器预压缩和重构的数据。使用这些处理后的数据进行NN工具的训练需要大量时间。因此，基于NN的混合编码框架通常意味着与联合在线和离线训练相当的复杂性。尽管如此，长时间的编码问题仍然存在。转向离线训练是否可以提供一个可行的解决方案？
随着深度学习和技术的进步，端到端图像和视频压缩显示出显著的潜力，经常超越早期的方法[43]。与依赖于手工设计模块的传统混合编码不同，Lu等人[101]建立了端到端视频压缩的基础范式，激发了一系列性能有望的学习方法。最新研究[57]以VVC测试模型（VTM-17.0）为基准，在UVG数据集上实现了24.0%的比特率节省。此外，这些方法在编码速度上也优于VTM-17.0。在AI技术的推动下，研究人员继续探索新的压缩方法以处理多种数据类型并实现更高效的压缩性能。虽然存在针对屏幕内容和立体视频的专用方法，但自然视频仍然是评估压缩性能的主要基准。鉴于此，我们将本综述的范围限制在自然视频的端到端压缩上。
根据编码类型，视频压缩方法通常分为两类：帧内编码和帧间编码。基于学习的端到端视频压缩整合了传统混合编码和端到端图像压缩框架的原理。图像压缩技术为压缩视频序列中的关键帧（帧内帧）提供了基础。由于通过帧间编码利用时间冗余是视频压缩的核心，因此端到端学习领域的研究主要关注帧间预测。因此，为了保持焦点，本综述不将帧内编码作为一个独立的部分；相反，我们建议读者参考已建立的端到端图像压缩方法[6]、[7]、[8]、[22]、[33]、[62]、[112]、[113]以获取基础见解。
帧间编码主要包括预测帧（P帧）和双向预测帧（B帧）编码。大多数端到端视频压缩架构采用P帧编码，典型的例子是深视频压缩（DVC）框架。DVC [101]借鉴了H.264 [149]和H.265 [132]等传统标准，采用了经典的预测编码方案，同时集成了深度神经网络（DNN）的非线性表示能力，实现了超越H.264的性能。此外，还有各种端到端框架出现，如条件编码框架[80]和其他预测编码范式[103]。在帧间编码领域内，P帧编码框架展现出明显的结构差异。我们提供了P帧编码的详细分类，以澄清基于学习的视频压缩方法的发展和现状。
近年来，基于学习的端到端视频压缩表现出优异的性能，但标准化工作面临重大挑战。由于预训练模型在处理多样化数据集时经常遇到泛化问题，因此开发实用且强大的框架与优化率失真性能同样重要。本文关注过去五年端到端视频编码的进展，追溯该领域的发展历程，探讨研究趋势及实际意义。

IEEE 1857.111
IEEE 1857工作组成立于2012年，旨在为多媒体数据的压缩、解压缩、处理和表示提供高质量和高效的工具。IEEE 1857.11子工作组（也称为未来视频编码研究组）专注于图像压缩和视频编码技术，特别是基于学习的技术。混合编码框架将神经网络工具应用于部分或所有子模块，如变换、熵编码和滤波。与IEEE Std 1857.4帧内编码（IEEE 1857视频编码的第二代）和IEEE Std 1857.10帧内编码（IEEE 1857视频编码的第三代）相比，基于神经网络的工具显著提高了压缩效率。截至2024年12月，IEEE 1857.11子工作组定期举行会议，继续探索用于图像和/或视频压缩的神经网络。
响应IEEE 1857.11的提案呼吁，Dong等人[26]介绍了一种新的图像编码框架，该框架结合了类小波变换和感知友好的质量指标，在Kodak数据集上实现了最先进的性能。以VTM 19.0为基准，所提出的方法实现了11.07%的Bj?ntegaard Delta比特率（BD-rate）降低。Zhang等人[179]将非局部注意力机制引入变换网络以提高表示能力并限制复杂性。Zhang等人[180]设计了一个解耦框架，可以顺序处理自回归上下文和熵解码，从而节省解码时间。与VVC帧内编码[14]相比，所提出的方法实现了29.6%的BD-rate降低。

JPEG AI
JPEG AI致力于开发一种基于学习的图像编码标准，提供单一流式的紧凑压缩域表示。压缩域中的潜在表示可以执行熵编码和标准重建，或者可以跳过标准重建，直接使用编码器生成的潜在表示在解码器端执行图像处理和其他计算机视觉任务。JPEG AI框架如图1所示。基于学习的图像编码方案使用先进的机器学习工具（如深度神经网络）实现了比传统解决方案更高的压缩效率。特别是对于某些目标比特率，基于学习的编码方案可以在感知质量上优于JPEG [136]、JPEG 2000 [121]和高效率视频编码（HEVC）[132]的帧内编码。除了高压缩效率外，基于学习的图像编码方法可以直接使用图像的潜在表示来适应图像处理和计算机视觉任务，如对象检测、语义分割、动作识别、面部识别等，而无需将潜在表示解码为图像。然而，经典方法首先需要解码压缩比特流以获得基于像素的表示，然后才能执行后续的图像处理和计算机视觉任务，如超分辨率、去噪和低光增强。然而，这种经典的解码方法可能会导致计算复杂度增加。
2024年5月，在第103届JPEG会议上，JPEG委员会制定了JPEG AI第1部分的核心编码引擎的草案国际标准（DIS）。2024年12月，在第105届会议上，第4部分（一致性）进入了委员会草案（CD）阶段，预计第2部分和第3部分将在下次会议提交给DIS。在允许的计算复杂性范围内，通过广泛的复杂性权衡，JPEG AI提供了一种标准重建的编码解决方案。与VVC帧内编码相比，所提出的方法实现了高达27.9%的BD-rate降低。

JVET NNVC
2015年，ITU-T VCEG和ISO/IEC MPEG成立了联合视频探索团队（JVET）。2018年，它转变为联合视频专家团队（Joint Video Experts Team），以开发新的标准。由此产生的H.266/VVC标准优化了传统的混合编码工具，提高了压缩性能。另外，JVET开始探索基于神经网络的工具以实现潜在的未来标准。
自JVET成立以来，从效率和复杂性的角度研究了基于神经网络的技术。2018年4月，JVET研究了神经网络在滤波方面对视频编码性能的改进（JVET-J0009）。在2020年7月的第19次JVET会议上，研究了用于视频编码的基于NN的编码工具，如划分和帧内/帧间预测模式。传统的视频编码模块或工具可以被训练有素的离线神经网络替换，或者应用端到端神经网络框架进行视频编码（JVET T0011）。两年后，在2022年7月的第27次JVET会议上，提案的研究方向主要集中在环路滤波和超分辨率上。
JVET-AA0111关于神经网络环路滤波的提案实现了近10%的性能提升，但基于神经网络的超分辨率和端到端编码的性能优势相对较低。2023年4月，腾讯多媒体实验室提出了一种基于Transformer和CNN的神经网络环路滤波器，实现了平均15.5%的BD-rate降低（JVET-AD0166）。截至2024年11月，在第36届JVET会议上，提案涉及滤波、帧内、帧间和超分辨率，其中大多数提案集中在滤波上。以NNVC-10为基准，不同方案的性能各异。尽管有将端到端图像编码集成到传统编解码器中的提案（JVET-AJ0208），但由此产生的高复杂性和解码延迟以及有限的性能提升严重限制了端到端视频压缩的实际可行性。

MPAI
人工智能在移动图像、音频和数据编码（MPAI）方面开发并发布了一些标准，如基于上下文的音频增强（MPAI-CAE）。目前正在开发的视频编码标准包括AI增强视频编码（MPAI-EVC）和端到端视频编码（MPAI-EEV）。MPAI-EVC旨在通过神经网络改进或替换现有工具，而MPAI-EEV试图通过完整的神经网络结构满足端到端视频编码标准的需求。
对AI视频编码文献的回顾表明，有潜力实现30%的BD-rate降低。此外，通过分析[92]中描述的参考编解码器架构，我们确定了10个可以替换或改进的模块。如果改进模块的复杂性是可以接受的，将其集成到MPAI-EVC工具中可以实现25%–30%的BD-rate降低。目前正在MPAI-EVC中开发的工具包括帧内预测、环路滤波和超分辨率。每个工具都包括数据库构建、学习阶段和推理阶段。
MPAI-EEV已经开发到参考模型的第四版本EEV-0.4。贾等人[56]详细介绍了EEV的开发过程。图2展示了EEV-0.4的框架。EEV-0.5通过在EEV-0.4的基础上引入帧插值技术而得到了进一步的提升，并取得了显著的进展。2024年11月的进展报告和计划指出，最新的参考模型EEV-0.5已经完成并发布。EEV-0.6正在开发中，其初步结果显示其编码性能优于H.266/VVC。本文的其余部分安排如下：第2节介绍视频编码的基础知识及标准评估指标；第3节重点讨论训练方法和优化策略，详细说明速率失真损失函数的设计，并阐述多阶段训练等特定训练策略，这些策略对于减少误差传播至关重要；第4节探讨了帧间编码架构的演变，系统回顾了早期的残差编码方法、条件编码模型、生成模型和循环模型、时间结构处理（如B帧）以及隐式神经表示（INR）技术。图3概述了第4节的内容结构；第5节提供了全面的性能评估，首先描述了实验设置，然后展示了不同技术路径的性能，并系统地比较了它们在压缩效率、计算复杂性和泛化能力方面的权衡；最后，第6节总结了学习型视频压缩中的关键挑战，并指出了未来的研究方向。

**视频编码基础**
本节回顾了视频编码的基础知识，包括视频编码的基本概念以及用于评估性能的评估指标。

**训练方法与优化**
视频编码的核心目标是在速率失真理论[9][114]的框架内实现比特率与重建质量之间的平衡，即以最低可能的比特率最小化原始视频与重建视频之间的失真。该理论源自香农的信息论，为传统的视频编码技术（如H.264/AVC、H.265/HEVC）提供了优化基础。然而，传统的混合编码方法往往依赖于……

**帧间编码架构的演变**
基于学习的视频压缩方法起源于传统编码标准的框架。传统的编解码器（如H.264/AVC和H.265/HEVC）通常采用混合编码框架（如图6(a)所示）。端到端的学习型图像压缩技术一直在持续研究中发展，许多研究正在整合先进的AI技术以探索和改进端到端视频压缩方法。2019年引入的DVC[101]……

**性能评估与比较分析**
视频压缩技术涵盖了I帧、B帧和P帧的编码。端到端学习型视频压缩方法通常为I帧编码使用独立的端到端图像压缩模型。尽管现有方法使用了不同复杂度的I帧模型，但强制应用统一的I帧压缩模型并不实际，也不合理，因为这种做法可能会由于帧内编码的差异而降低原始基线的性能表现。

**重要挑战、未来工作及结论**
本研究总结并讨论了现有视频压缩方法面临的各种挑战和未来发展方向，旨在帮助该领域的初学者获取相关知识。这些不足和未来发展方向有助于研究人员在该领域取得进步。因此，我们概述了当前视频压缩研究的热点和难点，并探讨了潜在的研究方向。

**作者贡献说明**
何欢杰：负责写作——审稿与编辑、撰写初稿；史云辉：负责写作——审稿与编辑；王瑾：负责写作——审稿与编辑；梁久珍：负责概念框架的构建；凌楠：负责概念框架的构建；尹宝财：负责资源收集。

**利益冲突声明**
作者声明没有已知的财务利益冲突或个人关系可能影响本文的研究内容。何欢杰毕业于常州大学，目前在中国北京工业大学控制科学与工程学院攻读博士学位，主要研究方向包括视频压缩及相关图像/视频处理技术。

联系信箱：

粤ICP备09063491号

热点排行