《Neurocomputing》:Depth aware image compression with multi-reference dynamic entropy model
编辑推荐:
本文提出一种结合Depth-aware Adaptive Transformation(DAT)框架和Multi-reference Dynamic Entropy Model(MDEM)的图像压缩算法,通过多尺度能力感知特征增强模块(MCFE)提升特征提取能力,并利用自适应稀疏注意力机制和多维度上下文模型消除冗余信息,在Kodak、Tecnick和CLIC数据集上相比VTM-17.0实现BD-rate增益。
Jingyi He|Yongjun Li|Yifei Liang|Mengyan Lu|Haorui Liu|Jixing Zhou|Yi Wei|Hongyan Liu
河南大学物理与电子学院,开封475004,中国
摘要
为克服现有学习型图像压缩方法中静态特征提取的局限性和低效的上下文建模问题,本文提出了一种集成深度感知自适应变换(DAT)框架和多参考动态熵模型(MDEM)的图像压缩算法。该算法中嵌入了一个多尺度容量感知特征增强器(MCFE)模型,以提升特征提取能力。DAT架构将变分自编码器与MCFE相结合,增加了潜在表示的密度。此外,改进的软阈值稀疏注意力机制与多上下文模型结合使用,通过自适应权重消除潜在表示在局部、非局部和全局维度上的空间冗余,并引入通道上下文来捕捉通道依赖性。在此基础上,MDEM整合了DAT提供的侧信息以及空间和通道上下文信息,并采用通道级自回归模型实现精确的像素估计,从而提高压缩性能。在Kodak、Tecnick和CLIC(学习型图像压缩挑战)专业验证数据集上的评估结果显示,与VTM(多功能视频编码测试模型)-17.0基准相比,该方法分别获得了的BD率(Bj?ntegaard Delta率)提升。因此,所提出的算法克服了固定上下文和静态特征提取策略的局限性,通过动态资源分配和多维上下文建模实现了精确的概率估计和更优的压缩性能。
引言
由于媒体技术的快速发展,实时传输和存储对大量图像数据的需求呈指数级增长,基于深度学习的图像压缩成为了一个关键解决方案。近年来,这一领域取得了显著进展,早期方法[1]、[2]、[3]、[4]、[5]已经实现了与JPEG [6]、JPEG2000 [7]和BPG [8]等传统编解码器的竞争性能。此外,更先进的方法[6]、[7]、[8]最近已经超越了高级视频编码标准的速率-失真性能极限。
这些学习型图像压缩方法[1]、[2]、[3]、[4]、[5]、[10]、[11]、[12]大多采用基于自编码器的框架。该框架的核心是通过非线性变换将图像映射到紧凑的潜在表示空间。为了对这些潜在表示进行高效的熵编码,这些框架通常采用结合前向适应和后向适应的方法[2]。前向适应通过超先验提供全局信息,而后向适应使用上下文模型从解码的相邻潜在表示中提取上下文信息。上下文模型的性能直接决定了整个压缩框架的效率上限。因此,构建一个强大且高效的上下文模型成为该领域的研究重点和核心驱动力。
该领域的大量研究推动了上下文模型架构的持续发展。研究从使用2D掩码卷积来捕捉局部空间依赖性[13],发展到引入通道级自回归机制[14]来建模通道间相关性,最近又采用了注意力机制甚至Transformer架构来捕捉全局的、内容自适应的依赖性[15]、[16]、[17]。这些先进模型显著提高了潜在表示中复杂统计特征的建模能力,并推动了学习型图像压缩的性能边界。然而,核心挑战已从模型能力不足转变为模型利用效率和输入数据质量等更深层次的问题。因此,熵编码仍然具有挑战性。例如,上下文模型的性能受到其输入特征质量的限制。此外,固定上下文机制无法适应解码过程中的动态信息变化。在解码初期使用复杂模型会浪费计算资源,而在信息丰富时使用过于简单的模型则无法利用全局依赖性[18]。这些限制导致了次优的概率估计。为了解决这个问题,我们设计了一个基于解码进度自适应的多参考动态熵模型(MDEM)。它动态切换异构模块,形成具有全局指导和局部细化的协作信息流,实现了资源分配与建模能力之间的精确对齐。
此外,当潜在表示本身具有低信息密度或无效的多尺度特征表达时,熵模型的性能会受到根本限制[4]。大多数现有的学习型图像压缩方法采用静态且统一的特征提取网络来处理多样化的图像内容。这种设计缺乏根据网络深度动态调整处理强度的能力,也无法根据局部图像特征调整网络行为。因此,它经常生成无法充分发挥熵模型潜力的次优潜在表示。受ELIC[11]的启发,该方法通过使用不均匀的通道分组来区分高信息密度区域和低信息密度区域,从而在熵模型中利用先验信息密度知识进行计算资源优化,我们将这一概念扩展到了特征提取网络的结构设计中。如图1所示,特征的信息密度随着网络深度和分辨率的可预测变化而变化。这一观察促使我们提出了一个系统嵌入的自适应特征增强模块——多尺度容量感知特征增强器(MCFE)。该模块在浅层使用轻量级配置,在深层主干网络中使用高容量配置来增强语义捕获。这种方法实现了多尺度特征表示与计算资源之间的协同优化。
本文的主要贡献如下:
•我们提出了一种新的特征增强模块MFCE,并在变换模块的不同网络深度上采用不同的配置,共同形成了深度感知自适应变换(DAT)框架。该框架提取了高信息密度的潜在表示,为后续的熵预测奠定了坚实的基础。
•我们进一步设计了一个自适应的多上下文模型。其核心是一个具有自适应稀疏阈值的局部感知模块(LPM)。该模块与跨块模块(CPM)、全局感知模块(GPM)和通道建模组件协同工作。CPM和GPM都包含了自适应权重分支。它们的协作形成了一个统一的上下文提取框架。该框架显著提高了熵概率估计的准确性,成为提高整个熵模型编码效率的关键组成部分。
•在改进的超先验网络和自适应多上下文模型的基础上,我们提出了多参考动态熵模型(MDEM)。该模型形成了一个以全局指导和局部细化为特征的层次化估计过程。广泛的实验评估表明,我们提出的方法比大多数现有的学习型图像压缩技术更有效。
部分内容摘要
学习型图像压缩
学习型图像压缩方法代表了从手动设计到通过端到端速率-失真优化进行数据驱动建模的重大转变。Ballé等人[1]的基础工作确立了从基本自编码器到包含超先验的模型的发展过程[2]。层次化超先验概率模型的引入提高了重建图像的质量,并显著提高了条件熵估计的准确性。
后续
基本框架和动机
近期基于深度学习的 lossy 图像压缩模型[30]、[31]、[32]主要基于Ballé等人[2]建立的超先验变分自编码器架构。该框架通过利用强大的非线性变换能力和准确的熵估计机制实现了出色的性能。它使用熵约束自编码器[33]在保持高重建质量的同时降低比特率。输入图像首先通过进行映射
实验研究
本节对所提出方法进行了全面的性能评估。评估首先详细描述了实验设置,然后与最先进的方法进行了速率-失真性能比较。此外,还进行了彻底的分析和消融研究以评估所提模型的有效性。
结论与未来工作
本文通过提出DMIC方法,解决了学习型图像压缩中熵建模与特征提取之间的协同优化这一关键挑战。DMIC方法将DAT框架与MDEM集成在一起。在适应性原则的指导下,我们的方法根据压缩流程不同阶段的信息特征动态调整计算强度和上下文建模策略。MDEM通过
CRediT作者贡献声明
Jingyi He:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,监督,软件,资源,方法论,调查,形式分析,数据管理,概念化。Yongjun Li:资金获取,概念化。Yifei Liang:形式分析。Mengyan Lu:形式分析。Haorui Liu:数据管理。Jixing Zhou:数据管理。Yi Wei:撰写 – 审稿与编辑。Hongyan Liu:撰写 – 审稿与编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
致谢
本研究部分得到了河南省重点研发与推广项目(项目编号242102110343)、河南省高等教育机构重点研究项目(项目编号25A520013)、河南省知识产权软科学研究计划(项目编号20250106017)以及国家自然科学基金(项目编号U1704130)的支持。作者们表示感谢
Jingyi He于2023年获得河南大学民生学院通信工程学士学位,目前正在河南大学攻读电子信息硕士学位。她的研究兴趣包括计算机视觉、图像压缩和显著对象检测。