从卷积神经网络（CNNs）中提取结构知识，并将其应用于视觉变换器（Vision Transformers），以实现数据高效化的视觉识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Distilling Structural Knowledge from CNNs to Vision Transformers for Data-Efficient Visual Recognition

【字体：大中小】 时间：2026年01月29日 来源：Neural Networks 6.3

编辑推荐：

　　知识蒸馏框架FSKD通过全局特征对齐、patch-wise相似性和注意力分布优化三个策略，将CNN的局部语义和结构知识有效迁移至ViT，解决ViT依赖大数据和全局建模的局限，显著提升小样本条件下的图像分类与分割性能。

陈丁尧|滕晓|沈星宇|杨勋|兰龙

中国湖南省长沙市国防科技大学计算机科学与技术学院，410073

摘要

知识蒸馏（KD）是一种有效的策略，用于将预训练的教师模型中学到的表示转移到较小的学生模型中。目前，从卷积神经网络（CNN）到视觉变换器（ViT）的知识转移方法主要关注输出logits的对齐。然而，这些方法往往忽略了CNN特征中编码的丰富语义结构，从而限制了ViT有效继承卷积架构中固有的归纳偏见。为此，本文提出了一种基于特征的CNN到ViT结构知识蒸馏框架，称为FSKD，它结合了CNN（教师）特征中嵌入的语义结构知识与ViT（学生）在捕捉长距离依赖关系方面的优势。具体而言，该框架包括一个特征对齐模块，以弥合CNN和ViT特征之间的表示差距，并引入了全局特征对齐损失。此外，我们还开发了块级和对齐级蒸馏损失，以传递块间相似性和注意力分布，从而促进从CNN到ViT的语义结构知识转移。实验结果表明，所提出的方法显著提高了ViT在视觉识别任务中的性能，尤其是在数据有限的场景下。代码可在Github获取。

引言

由于自注意力机制，视觉变换器（ViT）在图像分类（Dosovitskiy等人，2021年；Gao等人，2024年；Krizhevsky等人，2012年；Qiu等人，2024年）和语义分割（Ren等人，2015年）方面取得了出色的性能。然而，ViT在处理高分辨率图像时存在较高的计算和内存成本。此外，它们对大规模训练数据集的依赖性限制了其在资源受限环境中的适用性（Tian等人，2024年；Zhao等人，2024年）。相比之下，卷积神经网络（CNN）（He等人，2016年；Sandler等人，2018年；Simonyan和Zisserman，2015年）是经过验证的架构，具有强大的归纳偏见，包括局部感受野和平移不变性。这些特性使CNN即使在训练数据有限的情况下也能高效学习视觉表示（Liang等人，2024年；Liu，2024年）。因此，一种自然的解决方案是将CNN中的语义结构知识转移到ViT中（Hinton等人，2015年），从而注入归纳偏见，以提高ViT在数据有限场景下的性能（Huang等人，2022年；Wang等人，2024年；Zhang等人，2024年）。这种策略弥补了ViT中固有归纳偏见的不足，提高了它们的训练效率和视觉识别能力（Roy等人，2023年；Shang等人，2023年；Shi等人，2023年）。

然而，CNN和ViT在架构设计和归纳偏见方面的根本差异使得跨架构知识转移具有挑战性。因此，大多数现有的CNN到ViT蒸馏方法仍然主要集中在对齐输出logits上。DeiT（Touvron等人，2021年）在注意力机制中引入了蒸馏令牌，显著提高了ViT的训练效率和性能。然而，这些方法往往忽略了CNN中间层中嵌入的丰富语义和结构表示，使得ViT难以有效继承归纳偏见（Zhou等人，2023a；Zhu等人，2023年）。

与基于蒸馏的方法并行，研究人员还探索了将CNN的归纳偏见直接嵌入ViT设计中的架构修改。ConViT（d’Ascoli等人，2021年）在自注意力机制中引入了可学习的局部偏见，指导模型在早期训练阶段强调邻域信息，从而实现了更稳定的优化过程。PiT（Heo等人，2021年）构建了类似于CNN的分层空间下采样结构，有效增强了ViT捕捉局部特征的能力。这些研究强调了CNN诱导的结构语义在提高ViT表达能力和泛化能力方面的关键作用。

受这些观察结果的启发，我们认为CNN中编码的语义结构知识可以通过知识蒸馏有效地转移到ViT中。CNN擅长建模局部模式并突出语义重要区域。通过转移此类知识，ViT可以在早期训练阶段学习到区分性特征，并更好地利用CNN诱导的归纳先验来指导全局注意力学习。

然而，有效转移此类知识面临三个主要挑战：（

I

）表示差距。CNN擅长捕捉局部语义，而ViT强调全局上下文，导致特征分布存在根本差异。（

II

）缺乏结构建模。ViT将输入块视为独立单元，没有明确的机制来捕捉它们之间的语义关系。（

III

）注意力分布差异。CNN和ViT中的注意力分布存在显著差异，使得传统蒸馏方法难以指导ViT复制类似CNN的注意力行为。

为了解决这些挑战，我们提出了FSKD，这是一个结构知识蒸馏框架，以层次感知的方式将CNN的知识转移到ViT中。如图1所示，FSKD整合了三种互补的蒸馏策略：（

I

）全局蒸馏用于特征对齐，以从CNN转移局部语义；（

II

）块级蒸馏以保持块间相似性；以及（

III

）对齐级蒸馏以对齐架构间的注意力分布。通过多层次和多视角的知识转移，FSKD增强了ViT的结构建模，并在数据有限的情况下提高了其泛化能力（如图2中的橙色条形所示）。

总之，本文的主要贡献如下：

•

我们提出了FSKD，这是一种结构特征蒸馏框架，它将CNN教师的结构知识转移到ViT学生模型中，从而减少了ViT对大规模训练数据的依赖。

•

从全局特征模仿、块间相似性和注意力分布的角度出发，我们设计了三种互补的蒸馏损失，以全面增强结构知识转移。

•

我们在多个视觉任务上评估了FSKD，包括图像分类和语义分割，并证明它在数据有限的条件下始终优于现有的知识蒸馏方法。

部分片段

知识蒸馏

Hinton（Hinton等人，2015年）首次提出了知识蒸馏（KD），它使用温度作为超参数来“软化”预训练教师的输出logits。知识蒸馏可以大致分为基于logits的蒸馏（Li等人，2023年；Sun等人，2024年；Wei和Bai，2024年；Zhao、Cui、Song、Qiu、Liang，2022年；Zhao、Song、Liang，2023年）和基于特征的蒸馏（Park等人，2019年；Romero等人，2015年；Tung和Mori，2019年；Zagoruyko和Komodakis，2017年）。

方法论

在本节中，我们首先介绍了知识蒸馏的基本概念。然后，我们介绍了所提出的CNN–ViT跨架构蒸馏框架，并详细描述了我们方法中使用的三种蒸馏损失。

实验

在本节中，我们对图像分类和语义分割任务进行了广泛的实验。我们还通过迁移学习在几个下游任务上评估了FSKD的泛化能力。此外，进行了一系列消融研究来分析每个损失组分的贡献。最后，我们提供了可视化结果以提高可解释性。我们实验中使用的所有数据集的详细信息总结在表1中。

结论

本文解决了将CNN中的语义结构知识转移到ViT的挑战，因为ViT往往难以继承卷积架构的归纳偏见。我们提出了一个结构知识蒸馏框架FSKD，它利用了CNN特征中嵌入的丰富语义和结构知识。通过整合三种互补策略：全局级、块级和对齐级蒸馏，FSKD增强了ViT捕捉局部

CRediT作者贡献声明

陈丁尧：方法论、研究、形式分析、数据整理、概念化。滕晓：验证。沈星宇：可视化。杨勋：初稿撰写。兰龙：审稿与编辑。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号