MFBD：基于视觉-语言预训练模型的无模型后门防御机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2026年03月09日 来源：Neural Networks 6.3

编辑推荐：

　　视觉语言模型语义一致性检测方法有效防御多种后门攻击

黄瑞|郝梦佳|王和川|邢燕|张玉祥

中国民航大学，天津，300300，中国

摘要

后门攻击对深度神经网络（DNNs）构成了严重的安全威胁，当输入图像中嵌入了特定的触发模式时，这些网络会输出预定的目标标签。虽然现有的后门防御方法使用了额外的干净数据或受害网络模型，但它们在防御各种触发注入方法方面的有效性有限。我们发现，像BLIP-2和CLIP这样的视觉-语言模型在受到污染的图像中几乎不受后门触发的影响。基于这一观察，我们提出了MFBD，这是一种有效的无模型后门防御方法，它利用了双重视觉-语言描述符的语义一致性。具体来说，我们使用BLIP-2和CLIP分别生成图像及其显著性遮蔽图像的描述。然后，我们使用SBERT将描述和图像标签嵌入到语义空间中。为了区分干净和被污染的图像，我们计算它们的语义表示之间的余弦相似度。余弦相似度值较低的图像被分类为被污染的图像。我们在三个数据集上评估了八种后门防御方法对抗六种后门攻击的方法。实验结果表明，我们的方法能够在保持高性能的同时有效缓解各种复杂的后门威胁。

引言

训练深度神经网络（DNNs）需要大量的标记数据，解决训练数据不足问题的一个常见方法是使用第三方资源。互联网数据集可能会被篡改，在其中的一小部分数据中添加特定的触发器，导致模型在遇到触发输入时输出目标标签并实现恶意目的（Gao, Doan, Zhang, Ma, Zhang, Fu, Nepal, Kim, 2020, Gong, Wang, Chen, Xue, Wang, Shen, 2023, Hu, Zhou, Zhang, Zhang, Zheng, He, Jin, 2022, Wang, Zhai, Ma, 2022, Xia, Niu, Li, Li, 2023）。此类后门攻击对安全关键应用的DNNs构成了重大威胁，包括自动驾驶（Ni et al., 2024）、国家安全（Office, 2019）和恶意软件检测（Zhang et al., 2023）。更广泛地说，神经网络系统的安全性和鲁棒性已经在计算机视觉之外得到了广泛研究。先前的工作分析了在时间延迟、随机干扰和执行器故障等不确定性下的竞争神经网络的稳定性和容错能力，强调了抑制异常行为以确保模型响应可靠性的重要性（Cao, Subhashri, Chandrasekar, Radhika, Przybyszewski, 2024, Subhashri, Radhika, Chandrasekar, 2025）。相比之下，后门攻击在现代深度学习管道的数据层操作，这激发了本工作中探索的防御措施。

因此，确保深度学习模型的安全部署需要加强对训练过程的监督，并开发有效的检测后门和被污染图像的技术。现有的后门防御方法通常分为基于模型和基于数据的方法。基于模型的防御针对可疑模型进行操作，旨在通过利用异常模型行为或输出响应来分析或修复受损网络，例如触发器逆向工程（Wang et al., 2019）、神经元剪枝（Liu et al., 2018a）或输出操纵（Gao et al., 2023）。相比之下，基于数据的防御侧重于在训练或推理过程中通过分析特征分布（Hayase, Kong, Somani, & Oh, Tran, Li, Madry, 2018）、频率伪影（Zeng et al., 2021）或输入扰动一致性（Liu et al., 2023）来识别被污染的样本。然而，大多数现有方法依赖于访问内部模型结构、额外的干净数据或对触发器特征的强假设，这限制了它们在现实世界部署场景中的适用性。

最近在视觉-语言预训练模型（VLMs）方面的进展展示了它们在多种视觉任务中的出色跨模态语义理解能力（Lu et al., 2019）。如图1所示，我们使用BLIP-2（Li et al., 2023）和CLIP（Radford et al., 2021）来分析干净和被污染的图像。具体来说，BLIP-2一致地生成了包含前景对象和背景上下文的全面描述，而CLIP则为图像中的主要对象生成分类标签。我们观察到，即使对于被污染的图像，BLIP-2和CLIP也不受部分遮挡（例如BadNet（Gu et al., 2019）或图像混合（例如Blended Blended（Li et al., 2021a））的影响，并且能够准确描述主要视觉内容。然而，仅文本输出往往不足以评估语义一致性。通过将它们投影到语义嵌入空间中，我们观察到图像描述与图像标签之间的距离小于与被污染图像的目标标签之间的距离（见图1的右侧部分）。

受上述发现的启发，我们提出了一种基于VLMs的无模型后门防御方法，称为MFBD。具体来说，我们使用BLIP-2提取输入图像的文本描述。尽管BLIP-2可以生成详细的图像描述，但它可能不会使用给定图像标签集中的单词（见图1左侧的第一行）。为了解决这个问题，我们提出使用CLIP为显著性遮蔽的图像分配标签，通过选择给定图像标签集中最准确的单词。注意我们使用显著性掩码来保持图像中的主要对象。我们将BLIP-2和CLIP的描述连接起来，然后使用SBERT（Reimers and Gurevych, 2019）提取语义嵌入。在这个语义空间中，图像描述与图像标签之间的距离小于图像描述与被污染图像的目标标签之间的距离。因此，可以轻松检测到被污染的图像。我们将我们的方法与八种后门防御方法在三个数据集上进行了比较，对抗六种后门攻击者。实验结果表明，我们的方法能够在保持不同数据集高性能的同时有效缓解各种复杂的后门威胁。我们工作的主要贡献可以总结如下：•

我们发现了一个有趣的现象，即VLMs不受后门触发的影响，这可以揭示被污染图像的固有语义信息。

•

我们设计了一种无模型后门防御方法，该方法使用BLIP-2和CLIP作为两个互补的文本描述提取器，并将语义嵌入与给定标签的嵌入进行比较以检测被污染的图像。

•

在三个基准数据集上对六种流行攻击的全面实验验证了我们方法的有效性和泛化能力。即使在隐蔽的触发器和复杂的数据集上，我们的方法也表现出优越的性能，例如ImageNet。

本文的其余部分组织如下。第2节回顾了关于后门攻击和后门防御的相关工作。第3节介绍了初步知识。第4节详细介绍了提出的MFBD框架。第5节给出了实验结果和分析。第6节讨论了局限性和未来工作的方向。第7节总结了本文。

部分摘录

后门攻击

后门攻击通过在正常操作期间保持休眠状态但在特定触发模式存在时激活恶意功能，对深度神经网络构成严重安全威胁。BadNets（Gu et al., 2019）首次提出了这种攻击范式，展示了如何在训练期间在良性图像上 stamp 简单的几何图案，使模型将包含这些触发器的输入错误分类为预定的目标标签，同时保持正常性能

初步知识

设

D = {(x_{i}, y_{i})}_{i = 1}^{N}

表示一个包含 N 个独立同分布（i.i.d.）样本的训练集，其中

x_{i} \in R^{H \times W \times C}

表示一个图像，y_i 是相应的标签。对于在

D

上训练的通用图像分类器 ?(?·?, θ)，它将为良性图像 x_i 生成正确的标签 y_i。然而，一些恶意攻击者经常通过采样

D = {(x_{i}, y_{i})}_{}} i = 1 N

来污染

ρ \cdot | D |

具有固定触发模式的图像来构建一个被污染的集合

({\hat{x}}_{i}, {\hat{y}}_{i}) = ψ (x_{i}, t)

方法

图2概述了我们的方法，该方法包括三个主要阶段：鲁棒的视觉-语言描述生成、在语义空间中的后门检测以及使用清理后的数据集进行良性模型训练。具体来说，我们使用BLIP-2生成不受限制的图像描述，以捕获丰富的语义信息（第4.1.1节），同时利用基于显著性的CLIP进行标签受限的图像描述（第4.1.2节）。基于语义一致性原则，我们融合

实验设置

数据集和DNN模型。我们在三个基准数据集上评估了不同的后门防御方法：CIFAR-10和CIFAR-100（Krizhevsky, 2009），以及ImageNet的一个子集（Deng et al., 2009）。CIFAR-10和CIFAR-100使用的图像大小为32?×?32?×?3，而ImageNet子集的大小调整为224?×?224?×?3。对于CIFAR-10和CIFAR-100，训练集和测试集分别包含50,000和10,000张图像。遵循（Saha et al., 2022）的方法，我们通过随机选择100张图像来构建一个ImageNet子集

局限性和未来工作

尽管我们的方法表现出了有希望的性能，但它仍然存在几个需要进一步研究的局限性。首先，我们的方法无法抵抗干净标签攻击，因为它依赖于标签和视觉内容之间的不一致性。如果标签没有损坏，我们的方法就无法检测到这些类型的攻击。为了解决这一限制，未来的工作可以通过引入辅助机制来扩展框架，例如类内语义一致性分析、跨图像分散

结论

在本文中，我们提出了一种无模型后门防御方法MFBD，它只需要预训练的语言模型和可疑图像，无需重新训练任何模型。MFBD使用了三个预训练模型：BLIP-2、CLIP和SBERT。BLIP-2用于提取捕捉图像整体语义的高级文本标题。而CLIP负责在封闭集标签内生成图像描述。我们通过比较语义相似性来识别被污染的图像

未引用的参考文献

图4。

CRediT作者贡献声明

黄瑞：撰写——原始草稿。郝梦佳：撰写——原始草稿。王和川：撰写——原始草稿。邢燕：撰写——原始草稿。张玉祥：撰写——原始草稿。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言