基于神经网络的视频编码中，具有压缩伪影检测能力的增量学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Compression artifact-aware incremental learning for neural network-based video coding

【字体：大中小】 时间：2026年03月01日 来源：Neurocomputing 6.5

编辑推荐：

　　压缩感知的增量学习与神经参考帧合成研究。通过构建多级压缩数据集并采用恒定量化参数差距的增量学习策略，有效缓解了传统神经视频编码模型训练中的压缩不均衡问题，显著提升了VVC框架下参考帧生成的编码效率，在低延迟和高随机访问配置中分别实现4.64%-12.31%的B-j metric速率下降。

秦启普|Jung Cheolkon

西安电子科技大学电子工程学院，中国西安710071

摘要

压缩伪像是视频编码中固有的现象，它们会显著影响基于神经网络的视频编码（NNVC）工具的训练动态和性能。在本文中，我们提出了一种基于一致量化参数间隔（QPG）的压缩伪像感知增量学习（CAIL）方法，称为QPG-CAIL。与传统的NNVC工具训练方法不同，后者使用未压缩的原始数据作为标签，QPG-CAIL使用压缩伪像较多的数据作为输入，而压缩伪像较少的数据作为标签，同时保持两者之间的一致QPG。为此，我们构建了具有不同失真水平的多个训练数据集，包括高失真、低失真和无失真的情况，以从小到大的QPG逐步训练NNVC工具，并全面分析其对编码效率的影响。为了验证QPG-CAIL在NNVC中的有效性，我们引入了一个统一的参考帧合成网络（URFS-Net），该网络集成在VVC中，位于解码图像缓冲区（DPB）和参考帧列表（RPL）之间，用于生成VVC帧间预测的神经参考帧。大量实验表明，通过提出的QPG-CAIL训练的URFS-Net在参考帧生成方面达到了最先进的性能。对于随机访问（RA）/低延迟B（LB）配置，与NNVC-12.0相比，它平均降低了{4.64%/3.21%（Y），5.15%/4.80%（U），6.01%/6.17%（V）的Bj?ntegaard Delta率（BD-rate）；与VTM-15.0相比，降低了{6.44%/6.07%（Y），12.80%/12.01%（U），12.31%/11.49%（V）的BD-rate。

引言

传统的视频编码标准[1]、[2]、[3]在平衡压缩效率和计算复杂性方面面临着日益增长的挑战。在这种情况下，基于混合人工智能（AI）的视频编码作为一种有前景的范式应运而生，它将数据驱动的深度学习技术[4]、[5]、[6]、[7]、[8]与传统的基于块的编码框架相结合。神经参考帧生成（NRFG）旨在合成高质量的参考帧，以增强传统视频编解码器中的帧间预测。作为新兴的基于神经网络的视频编码（NNVC）工具[4]、[5]、[6]、[9]、[10]、[11]、[12]、[13]、[14]的核心组成部分，NRFG通过利用深度学习捕捉复杂的运动和上下文信息，从而在提高编码效率方面发挥着关键作用。最近，深度神经网络（DNN）显著推进了NRFG方法[6]、[9]、[10]、[15]、[16]的发展，研究主要集中在设计更有效的光流估计、特征对齐和帧合成架构上。

然而，NRFG以及其他NNVC工具在实际视频编码系统中的有效性仍然受到训练数据质量的严重影响。通常，当前帧的参考帧是由存储在解码图像缓冲区（DPB）中的重建相邻帧生成的。然而，由于视频压缩的失真特性，这些重建帧不可避免地包含不同程度的压缩伪像，如块状伪像、振铃伪像和模糊伪像。这些伪像不仅降低了参考帧的视觉质量，还扭曲了运动线索和结构一致性——这两者是神经网络模型进行准确帧合成的关键因素。此外，大多数现有的NNVC工具[11]、[12]、[17]、[18]，包括NRFG模型[6]、[9]、[10]、[15]、[16]，都是使用带有压缩伪像的重建数据作为输入，并使用相应的原始未压缩数据作为监督信号（即真实值）进行训练的。这种传统的训练策略在压缩输入和原始未压缩标签之间引入了显著的量化参数（QP）不平衡。具体来说，由于QP设置直接决定了编码器中的压缩程度，因此在较高QP下重建的数据表现出更严重的压缩伪像和更低的质量，从而导致与相应未压缩数据相比在纹理和结构细节上的更大损失。在训练NNVC工具时，输入数据通常在22、27、32、37和42五个QP值下进行压缩，而监督标签则是未压缩数据，从而导致训练过程中的QP不平衡。例如，当输入在QP 22下压缩时，其与原始未压缩标签的差异较小；而当输入在QP 42下压缩时，与未压缩标签的差异则变得相当大。QP引起的不平衡不仅限制了网络的表示能力，还影响了其对实际视频编码的泛化能力。

为了解决这些限制，本研究系统地探讨了训练数据集中不同水平的压缩伪像如何影响NNVC工具的泛化性能。如图1所示，我们提出了一种基于一致QP间隔的压缩伪像感知增量学习策略，称为QPG-CAIL。与传统的训练方法[6]、[9]、[19]、[20]、[21]使用无伪像的真实值不同，提出的QPG-CAIL使用较高QP值的压缩数据作为输入，较低QP值的压缩数据作为标签。同时，随着QP间隔的增加，增量学习使网络能够更好地捕捉压缩伪像的潜在分布和转换模式，从而增强其在各种编码场景下的泛化能力。为了在这些条件下支持参考帧生成，我们进一步提出了一个统一的参考帧合成网络（URFS-Net），该网络在RA和LB配置下具有相同的架构，并集成在VTM中。如图2所示，URFS-Net由三个关键模块组成：1）一个分层特征提取器，用于从输入帧中捕获多尺度的空间和时间信息；2）一个自适应尺度的流估计器，用于在适应不同运动幅度和空间分辨率的同时预测粗略到精细的运动场；3）一个变形帧增强器，用于增强变形预测以恢复结构细节并抑制孔洞效应。最后，我们通过在具有低失真、高失真和无失真的数据集上训练URFS-Net进行了全面研究。实验表明，通过提出的QPG-CAIL训练的URFS-Net在VVC框架内一致地实现了卓越的参考帧生成性能，从而为视频压缩模型的训练策略提供了新的见解和方法。

章节片段

视频帧插值和外推

视频帧插值和外推（VFI和VFE）旨在根据观察到的帧合成中间帧或未来帧。最近的进展[22]、[23]、[24]、[25]利用深度学习技术进行流估计、特征变形和上下文融合。虽然这些任务和神经参考帧生成（NRFG）的目标都是从已知上下文中合成未见过的帧，但它们的目的和约束条件有很大的不同。

用于学习的一致QP间隔

现有的NNVC工具[6]、[9]、[10]、[11]、[12]、[15]、[16]、[31]主要关注于架构创新，如多尺度设计、运动细化和注意力机制，以提高传统编解码器的编码效率。然而，它们没有考虑带有压缩伪像的数据本身对NNVC工具训练和性能的影响。如图1上半部分和图3(a)所示，传统的训练范式[6]、[9]、[10]、[11]、[12]、[15]

训练设置

所提出的URFS-Net在PyTorch框架中实现，并在具有24 GB内存的NVIDIA RTX 4090 GPU上进行了训练。Vimeo-90K三元组数据集[34]包含73,171个原始三元组，分辨率为448×256。所有原始的8位RGB444三元组图像使用FFmpeg转换为10位YUV420视频序列。关于具有不同压缩伪像水平的多个训练数据集的构建细节在第3.2节中提供。

结论

在本文中，我们提出了一种基于一致QP间隔（QPG-CAIL）的压缩伪像感知增量学习范式，该范式明确模拟了不同伪像水平对NRFG的影响。通过逐步将监督标签与压缩输入的分布对齐，所提出的方法有效地缓解了传统训练方案依赖于无伪像标签所导致的表示差距。全面分析表明，选择适当的

CRediT作者贡献声明

秦启普：撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、数据管理、概念化。Jung Cheolkon：撰写——审阅与编辑、可视化、监督、资源管理、项目管理、方法论、调查、资金获取、形式分析、概念化。

利益冲突声明

作者声明他们没有已知的可能会影响本文所述工作的财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（项目编号62111540272）的支持。

秦启普于2017年在中国宁夏大学获得通信工程学士学位。他目前正在中国西安电子科技大学攻读电子工程博士学位。他的主要研究兴趣包括图像和视频处理、视频编码以及虚拟现实。

联系信箱：

粤ICP备09063491号

摘要

引言