在压缩领域中，将Mamba语义对齐技术与知识蒸馏方法相结合，应用于人与机器视觉

《Digital Signal Processing》：Synergizing Mamba Semantic Alignment and Knowledge Distillation for Human and Machine Vision in the Compression Domain

【字体：大中小】 时间：2026年05月10日 来源：Digital Signal Processing 3

编辑推荐：

　　王世培|魏娇|黄坤强|杨超|黄新鹏|平安特种光纤与光接入网络重点实验室，特种光纤与先进通信联合国际研究实验室，上海先进通信与数据科学研究院，上海大学通信与信息工程学院，中国上海200444摘要随着对图像压缩需求的增长，这种压缩需要同时服务于人类视觉和机器视觉，确保两者的高性能仍然

王世培|魏娇|黄坤强|杨超|黄新鹏|平安

特种光纤与光接入网络重点实验室，特种光纤与先进通信联合国际研究实验室，上海先进通信与数据科学研究院，上海大学通信与信息工程学院，中国上海200444

摘要

随着对图像压缩需求的增长，这种压缩需要同时服务于人类视觉和机器视觉，确保两者的高性能仍然是一个关键挑战。为了解决这个问题，我们提出了一种新的压缩框架，旨在联合优化人类感知和机器视觉的任务性能。具体来说，我们采用了一个成熟的学习型基础编码器，并冻结其权重以保证人类感知的保真度。我们工作的重点是有效地将面向人类视觉的特征转换为适合机器视觉的特征。因此，我们提出了一个mamba-bridge模块，该模块可以将面向人类视觉的特征转换为下游机器任务的半结构化输入。此外，我们在机器视觉后端模块中引入了知识蒸馏策略，进一步提高了这些特征的有效性。而且，所提出的mamba-bridge模块可以与多种标准编码器架构结合使用，该方法能够灵活适应不同的机器任务，展示了其泛化能力。广泛的实验结果表明，与现有技术相比，所提出的方法在模型复杂性、比特率和任务性能之间取得了更好的平衡。

引言

随着数字图像的快速增长，图像压缩技术在降低存储和传输成本方面不可或缺。传统的编码标准，如VVC [1]和HEVC [2]，主要通过去除感知上的冗余信息来优化人类视觉感知，从而实现高压缩效率。然而，在智能应用场景中，例如智慧城市 [3]，由城市环境中部署的监控摄像机捕获的图像数据主要由机器视觉任务使用，包括目标检测和语义分割，而当需要人工检查时才进行图像重建。例如，在交通监控应用中，实时监控录像会自动分析以检测车辆。当发生交通事故时，会重建相应的图像以支持手动验证。在传统框架中，机器视觉任务依赖于重建的图像进行人类感知，这可能导致关键语义信息的缺失。因此，开发一个同时满足人类视觉感知和机器视觉需求的图像压缩系统已成为研究重点。

近年来，基于深度学习的端到端图像编码器 [4]、[5]、[6]、[7]（称为基础编码器）由于能够生成高保真度的重建图像而迅速发展。为了更好地满足机器视觉任务的需求，研究人员尝试通过在这些基础编码器中加入额外的网络来增强重建图像的语义信息。我们将这些方法称为基于重建图像的方法。例如，提出了空间频率调制适配器（SFMA）模块 [8]和提示 [9] 来提高机器任务性能。尽管这些方法显著提高了任务性能，但压缩后的比特流通常是为特定机器任务优化的，无法灵活支持多种任务。此外，机器任务仍然依赖于重建的图像，导致模型复杂性高和计算效率低，这使得实时应用变得具有挑战性。

由于基于学习的基础设施编码器能够生成紧凑的潜在表示，一些研究绕过了图像重建，直接利用潜在表示来执行机器视觉任务。我们将这些方法称为基于潜在表示的方法。值得注意的是，这些方法已被联合摄影专家组（JPEG）确定为JPEG AI标准的核心研究方向 [10]，相关的标准化工作正在进行中。该领域的一个关键挑战是潜在表示与机器任务所需特征之间的语义差距。为了解决这个问题，[11] 应用了门模块来选择潜在表示，而 [12] 创建了一个动态优化比特率成本的潜在表示预测器。另外，[13] 提出了一种即插即用的语义推理解决方案。尽管这些方法取得了显著进展，但在机器任务性能方面仍有很大的改进空间。有效地对齐和转换潜在表示为与任务相关的特征仍然是一个关键的技术瓶颈，需要进一步的突破。

特征对齐不是一次性的线性映射，而是一个逐步细化特征分布的过程。这个过程可以自然地解释为一种长距离依赖性的形式。尽管传统的模型，如卷积神经网络和变换器 [14]、[15]，能够捕捉长距离依赖性，但在处理大规模特征时仍然面临效率可扩展性的挑战。受到Mamba [16] 在视觉任务中近期成功的启发，并得到 [17] 的支持，后者表明Mamba的状态空间模型（SSM）通过选择性记忆机制在建模长距离依赖性方面非常有效，我们提出了一个mamba-bridge模块，该模块逐步转换用于人类感知的特征，为下游机器任务提供半结构化的输入。此外，我们在机器视觉后端模块中引入了知识蒸馏策略，以进一步提高这些特征的有效性。

我们的主要贡献如下：

•
我们提出了一个同时适用于人类和机器的图像压缩框架。具体来说，冻结了基于学习的基础编码器的权重以保持图像重建的质量。此外，我们借鉴mamba模块的灵感，弥合了面向人类特征和面向机器特征之间的语义差距。
•
我们提出了mamba-bridge模块（MBM），并将其引入机器视觉后端模块。MBM有效提高了特征适用于机器任务的适用性，而知识蒸馏策略进一步增强了这些特征的有效性。此外，MBM可以与各种基于学习的基础设施编码器结合使用，该方法可以灵活应用于不同的机器任务，展示了其泛化能力。
•
我们进行了广泛的实验，结果表明，与现有的基于潜在表示的方法相比，我们的方法在机器任务性能上取得了更好的效果。此外，与基于重建图像的方法相比，它显著降低了模型复杂性。

本文的其余部分组织如下：第2节回顾了关于知识蒸馏、人类图像压缩和机器与人类图像压缩的相关工作。第3节详细介绍了我们提出的方法。第4节展示了我们的实验结果。最后，第5节总结了本文。

章节片段

知识蒸馏

知识蒸馏旨在将知识从高性能的教师网络传输到学生网络，并已广泛应用于各个领域。[18]、[19] 采用了基于logit的蒸馏方法，其中学生网络被训练以匹配教师网络的输出logits。特别是，Li等人 [19] 通过平滑教师网络的类内logit分布来提高预测多样性。研究表明，更大的类内方差可以揭示更丰富的“暗知识”，从而

提出的方法

我们方法的总体框架如图1所示，包括四个关键组成部分：基础编码器编码器 g_a、基础编码器解码器 g_s、mamba-bridge模块以及带有知识蒸馏的机器视觉后端模块。基础编码器编码器生成一个紧凑的潜在表示 y，该表示被量化后编码为二进制比特流以进行传输。在解码阶段，获得重建的潜在表示

实验设置

数据集。我们选择经典的图像分类作为机器任务，并使用ImageNet数据库 [42] 的ILSVRC2012子集来训练和评估图像分类和图像重建的性能。在这项工作中，训练是在ILSVRC2012训练集上进行的，该数据集包含大约128万张图像，评估是在包含50,000张图像的验证集上进行的。为了确保输入维度的一致性，图像会被调整大小

结论

我们提出了一种同时适用于人类和机器的新的图像压缩框架，使用单一流比特流。具体来说，冻结了基础编码器的权重以确保人类感知的性能。为了缩小基础编码器为人类视觉生成的潜在表示与机器任务所需特征之间的差距，我们利用了mamba的选择机制，并设计了mamba-bridge模块来转换潜在表示，提供半结构化的

CRediT作者贡献声明

王世培： 数据策划、形式分析、方法论、初稿撰写。魏娇： 可视化、验证。黄坤强： 软件开发、调查。杨超： 监督。黄新鹏： 项目管理。平安： 架构设计、资金筹集、资源协调、撰写 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文中报告的工作。

摘要

引言