MSENet：通过多变量时空熵网络实现的高效视频压缩

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月12日 来源：Image and Vision Computing 4.2

编辑推荐：

　　基于神经网络的视频编码方法通过自适应通道修剪、多变量时空熵模型和Swin变换器提升压缩效率，比特率降低14.86%。

陆慧敏|史良帆|郑玉超|李玉杰

东南大学先进海洋研究所，中国南通市，226001

摘要

基于神经网络的视频编码器通常由于固定的潜在通道和静态编码结构而存在时空冗余问题。为了解决这些问题，我们提出了MSENet（一种多变量时空熵网络），用于高效的神经视频压缩。MSENet引入了一种自适应通道剪枝机制，以动态移除冗余信息，并结合了当前帧、前一帧、光流和自适应潜在通道之间的帧间依赖性，构建了一个多变量时空熵模型。此外，还加入了Swin Transformer来增强上下文建模和空间预测能力。通过统一的训练策略对速率控制参数

λ

进行优化，该方法实现了平滑的比特率调整和提升的速率-失真性能。实验结果表明，MSENet在压缩效率和重建质量方面优于H.266（VTM）和DCVC-HEM等现有技术，PSNR指标下最高可节省14.86%的比特率。

引言

据报道，目前视频数据占据了互联网流量的绝大部分[1]。随着短视频和视频会议的迅速普及，视频已成为日常信息交流和互动的主要媒介。因此，在有限的互联网带宽约束下，高效的视频压缩技术变得愈发重要。

在过去几十年中，传统的视频编码器取得了显著进展，如H.264/AVC[2]、H.265/HEVC[3]和H.266/VVC[4]等算法提供了高效的压缩性能。然而，这些编码器是手动设计的，缺乏端到端的联合优化，存在若干局限性。首先，它们的压缩性能已逐渐达到饱和点，进一步改进变得困难。其次，传统编码器通常依赖于基于块的运动估计，而不是实现运动估计和压缩的联合优化，从而导致性能下降。此外，这些编码器往往缺乏智能处理方法，无法充分利用视频数据的特性。因此，尽管在存储和传输效率方面取得了显著成就，但在应对日益增长的视频内容和不断变化的技术挑战时，传统视频编码器仍面临局限。

近年来，基于卷积神经网络（CNN）[5]、[6]、[7]、[8]、[9]的视频编码器取得了巨大进步，尤其是在传统编码方案接近性能极限的情况下。这些技术从增强传统视频编码模块[10]、[11]、[12]发展为实现端到端优化。早期的尝试用神经网络替换了传统的编码模块（如运动估计[13]、[14]和残差编码[15]、[16]、[17]、[18]），以生成运动补偿预测并编码这些预测与当前帧之间的差异。第一个端到端视频压缩模型DVC[19]利用神经网络替换了传统混合编解码器的所有组件。更近期的方法将时间帧或特征作为编码条件，条件上下文编码[20]、[21]、[22]、[23]、[24]、[25]提供了比残差编码更低的或等效的熵界限。

在熵建模方面，许多研究借鉴了神经图像编码器的技术，如超先验[26]和自回归先验[27]来编码潜在表示。与图像不同，视频包含额外的时间上下文信息，可以利用神经网络将图像非线性映射到编码空间，并使用概率质量函数（PMF）进行预测。虽然自回归熵模型[27]、[28]提高了压缩比，但其顺序性质限制了并行性和推理速度。受神经图像压缩中的棋盘格上下文模型的启发，DCVC-HEM[25]提出了一个适合并行处理的双重空间模型。然而，该模型的性能受到其简单划分策略的限制。

在本文中，我们探索了在潜在空间中进行非线性映射和16倍下采样后的潜在通道剪枝，这是神经视频编码器中较少研究的领域。我们提出了一种自适应潜在通道剪枝技术，通过将信息含量较低的通道置零来优化图像重建过程。引入了一个自适应动态掩码通道模块，用于聚合潜在先验、时间先验和超先验。该模块学习一个与潜在表示形状匹配的张量，在通道上执行平均池化，使用Sigmoid函数压缩结果张量，并通过软量化生成自适应剪枝掩码。

为了增强熵建模中的空间上下文预测，我们在棋盘格模型的两步编码方案基础上进行了改进，避免了简单的奇偶比特预测。我们采用多变量时空信息熵模型（MSIE）来确定初始编码数据，并在通道剪枝后自适应预测数据分布。Swin Transformer模块用于预测初始编码数据的上下文信息，作为第二次编码的空间先验。这种方法能够灵活适应不同的视频内容，防止固定编码序列导致的速率-失真（RD）性能下降。我们的贡献总结如下：

•
我们提出了一种基于通道剪枝的多变量时空熵模型，通过整合多种先验信息有效消除了潜在代码中的时空冗余，显著提升了模型的速率-失真性能。值得注意的是，与H.266（VTM）相比，我们的方法在所有测试数据集上平均节省了14.86%的比特率。
•
我们的模型根据视频内容动态调整通道信息，移除对图像重建没有贡献的通道，并基于多变量时空先验确定初始编码内容，作为后续编码的空间上下文先验。此外，通过加入Swin Transformer，我们进一步增强了上下文信息的预测能力，显著减少了空间冗余，从而提高了整体压缩效率和重建质量。
•
为了在单个模型中实现平滑的速率控制，我们在训练过程中扩展了超参数 $λ$ 的范围，并采用了随机采样策略。这种方法不仅提高了模型在多种比特率下的适应性，还在中低比特率下显著提升了性能，证明了模型在不同压缩要求下的优越性。

部分摘录

神经图像压缩

近年来，在基于学习的图像压缩[29]、[30]方面取得了显著进展，主要分为两种方法：基于自编码器的方法和基于小波变换的方法。自编码器利用神经网络进行非线性变换，将图像编码为紧凑的潜在表示，然后进行量化和熵编码。解码时，这些变换被逆转以重建原始图像。

概述

我们的方法利用了一个先进的条件编码框架[23]、[24]，旨在优化视频压缩中的速率-失真权衡。在运动估计[25]、[26]的基础工作之上，我们的方法有效捕获了连续帧之间的运动信息，这对于减少时间冗余至关重要。为了解决通道冗余和空间上下文冗余问题，我们引入了一种自适应通道剪枝技术，并结合了多变量

训练数据

在本研究中，我们使用了Vimeo-90K数据集[54]，该数据集在许多视频处理任务中被广泛用作训练数据集。Vimeo-90K是一个大规模的视频数据集，包含89,800个视频片段，每个片段由7帧组成。遵循现有的基于学习的视频压缩方案，在训练阶段，我们将原始帧随机裁剪为256 × 256的图像块。

测试条件

我们使用

结论

本文介绍了一种基于神经网络的新型视频压缩方法，该方法采用自适应掩码熵模型，增强了现有的压缩技术。通过实施自适应通道剪枝，该方法有效减少了数据冗余，同时保持了高重建质量。多变量空间信息熵模型利用当前帧和前一帧的数据以及光流来优化初始编码。此外，Swin Transformer

CRediT作者贡献声明

陆慧敏：资源、方法论、研究调查、资金获取。史良帆：软件、资源、项目管理、方法论。郑玉超：软件、项目管理、方法论。李玉杰：验证、资源、研究调查。

利益冲突声明

作者声明他们没有已知的可能会影响本文工作的竞争性财务利益或个人关系。

陆慧敏（IEEE高级会员）于2014年在日本北九州市的九州工业大学获得电气工程博士学位。2016年至2024年，他担任九州工业大学的副教授，并获得文部科学省优秀青年研究员称号。目前他是中国南京东南大学的教授。他的研究兴趣包括人工智能、计算机视觉和机器人技术。

联系信箱：

粤ICP备09063491号

摘要

引言