基于任务的图像压缩方法：在保持可解释性的同时提升图像分类性能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pattern Recognition Letters》：Task-Driven Learned Image Compression with Explainability Preservation for Image Classification

【字体：大中小】 时间：2026年02月28日 来源：Pattern Recognition Letters 3.3

编辑推荐：

　　本文提出了一种解释性感知的图像压缩方法，通过率失真正则化结合知识蒸馏，在保持压缩效率的同时提升注意力图（CAM）的准确性和定位能力，解决压缩导致的可解释性下降问题。

杨宇晴|刘丽卓|刘忠刚

西北工业大学自动化学院，中国陕西省西安市710129

摘要

用于图像分类任务的机器学习图像压缩方法需要在比特率和分类准确性之间找到有效的平衡；对于同时服务于机器和人类的应用来说，还必须保持重建质量。随着对可靠人工智能需求的增加，压缩表示应进一步保留支持模型决策的视觉证据。在本文中，我们首先展示了标准速率-失真（R-D）目标在机器学习图像压缩中会显著降低解释的准确性：即使预测结果正确，类别激活图也会向不相关区域偏移——尤其是在低比特率下，这可能会削弱下游部署的信任度。为了解决这个问题，我们引入了一种考虑可解释性的R-D正则化方法，该方法同时保留了对分类性能、重建质量和可解释性至关重要的信息。我们的方法专注于基于类别激活图（CAM）的解释，并在训练过程中结合了知识蒸馏技术来保留与解释相关的线索。实验表明，所提出的方法在显著提高视觉解释的准确性和定位能力的同时，也实现了R-D指标的持续改进。

引言

深度学习的快速发展——尤其是大规模模型——加剧了视觉数据流的存储和带宽需求，从而推动了数据高效传输和部署的需求。同时，来自社交媒体、视频会议和边缘设备的多媒体内容的激增进一步放大了这一需求，使得图像和视频压缩对于高效存储和低延迟通信变得不可或缺。因此，基于学习的压缩方法越来越受到关注。特别是深度神经压缩方法[1]、[2]、[3]、[4]、[5]、[6]在保持高压缩比的同时能够产生更紧凑的表示。速率-失真（R-D）理论[7]正式化了比特率（R）和失真（D）之间的基本权衡。许多图像和视频编解码器[1]、[2]使用均方误差（MSE）来衡量失真（D）。然而，MSE往往与人类感知不符，因此人们提出了诸如SSIM[8]之类的感知度量方法。最近，由于对计算机视觉（CV）应用需求的增长，压缩优化不仅关注感知质量，还关注下游性能，例如分类[9]。在这些以任务为导向的设置中，仅针对以人类为中心的R-D目标进行优化可能会导致比特被分配给对机器决策无关的内容。因此，以任务为导向的设计将任务准确性纳入了失真项中。一些工作[5]、[6]通过直接将中间压缩特征输入到推理模型来绕过完整的图像重建，并使用知识蒸馏（KD）[10]来学习有信息的中间特征。

随着压缩从纯粹的人类消费转向人机联合使用，保真度和任务准确性变得必要但不够。有效的人机交互还要求机器决策对人类来说是可解释的，特别是在医疗诊断[11]和自动驾驶[12]等高风险领域。可解释人工智能（XAI）[13]提供了分析模型推理的工具，而视觉解释（例如热图）对于CV模型[14]、[15]、[16]、[17]、[18]、[19]尤为重要。在机器图像编码（ICM）的背景下，保留解释不仅在事后可视化方面具有价值。在基于重建的流程中，重建后的图像可能在视觉上看起来合理，但压缩仍然改变了分类器依赖的证据（例如，将注意力转移到了伪影上），使得解释的保留对于审核模型逻辑非常有用。在没有重建的流程中，由于像素数据无法供人类检查，解释信号可以作为轻量级的证据来支持人类参与式的审查和故障诊断。我们的研究表明，压缩会显著降低解释质量。在较低的比特率下，即使分类器预测正确，视觉解释（即激活图）也可能向不相关区域偏移（见图1）。这种退化削弱了模型决策的证据可信度。

受此观察的启发，我们引入了一种考虑可解释性的压缩正则化方法，并重新定义了经典的R-D权衡，以同时考虑视觉质量、任务性能和解释质量。我们将我们的框架应用于图像分类任务，并考虑使用类别激活图（CAM）作为常用的解释工具。

我们工作的主要贡献总结如下：

•

我们通过评估在不同比特率下压缩表示上的分类器性能，研究了压缩如何影响视觉解释的质量，并揭示了一种之前未被充分探索的故障模式：尽管保持了分类准确性，解释图仍可能发生偏移。

•

我们提出了一种考虑可解释性的图像压缩框架，适用于有重建（解码图像）和无重建（模型使用的压缩特征）的以任务为导向的设置。实验表明，所提出的权衡策略在保持竞争性的速率-失真性能和分类准确性的同时，提高了解释的准确性。

•

我们使用捕捉（i）类别相关性和（ii）定位能力的客观指标来评估压缩下的解释质量，从而定量评估了不同比特率下的解释退化和保留情况。

本文的其余部分结构如下：第2节简要回顾了相关工作，第3节介绍了所提出的权衡策略并定义了量化可解释信息失真的差异标准。第4节从定量和定性的角度展示了结果。最后，第5节得出了本文的结论。

部分摘录

机器学习图像压缩

基于学习的编解码器已经从分析-合成自动编码器[1]迅速发展到改进了熵估计和速率-失真（R-D）效率的超先验和上下文模型[2]。后续的设计进一步增强了变换和上下文（例如注意力或改进的先验），但仍以R-D为中心。除了人类感知之外，以任务为导向的压缩还优化了下游视觉准确性，无论是针对重建后的图像[9]还是直接针对压缩/中间特征[4]、[5]。

提出的方法

我们的目标是学习一种考虑可解释性的图像压缩方案，以平衡压缩表示的比特率、任务性能和目标类别的视觉解释质量。当需要图像重建时，还应该考虑重建失真。图2展示了基于知识蒸馏技术的我们的框架。该框架由一个教师模型和一个学生模型组成。

实验设置

数据集。我们使用ILSVRC2012 ImageNet数据集进行训练和评估。它包含128万张训练图像和5万张来自1000个类别的验证图像。所有图像都被调整为256×256大小，并在训练和测试时居中裁剪为224×224。

实现。我们采用ResNet-50作为分类器骨干，并使用ImageNet预训练的权重。以原始图像作为输入，我们计算教师模型的激活图和logits，作为参考解释和软标签。

结论

我们提出了一种考虑可解释性的学习压缩方案，将经典的速率-失真权衡重新定义为统一的速率-任务-解释目标。通过结合基于类别加权的激活的解释-失真模块并利用知识蒸馏，我们的方法保留了与决策相关的线索，实现了具有竞争力的速率-失真效率，并提供了更可靠的视觉解释。虽然当前框架展示了有希望的结果

CRediT作者贡献声明

杨宇晴：撰写——审稿与编辑，撰写——初稿，可视化，验证，方法论，调查，形式分析，数据管理，概念化。刘丽卓：撰写——审稿与编辑，撰写——初稿，可视化，方法论。刘忠刚：撰写——审稿与编辑，撰写——初稿，验证。

利益冲突声明

作者声明以下可能的财务利益/个人关系可能被视为潜在的利益冲突：杨宇晴报告称得到了VUB大学的写作协助。如果还有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文所述的工作。

联系信箱：

粤ICP备09063491号

摘要

引言