训练深度神经网络(DNNs)需要大量的标记数据,解决训练数据不足问题的一个常见方法是使用第三方资源。互联网数据集可能会被篡改,在其中的一小部分数据中添加特定的触发器,导致模型在遇到触发输入时输出目标标签并实现恶意目的(Gao, Doan, Zhang, Ma, Zhang, Fu, Nepal, Kim, 2020, Gong, Wang, Chen, Xue, Wang, Shen, 2023, Hu, Zhou, Zhang, Zhang, Zheng, He, Jin, 2022, Wang, Zhai, Ma, 2022, Xia, Niu, Li, Li, 2023)。此类后门攻击对安全关键应用的DNNs构成了重大威胁,包括自动驾驶(Ni et al., 2024)、国家安全(Office, 2019)和恶意软件检测(Zhang et al., 2023)。更广泛地说,神经网络系统的安全性和鲁棒性已经在计算机视觉之外得到了广泛研究。先前的工作分析了在时间延迟、随机干扰和执行器故障等不确定性下的竞争神经网络的稳定性和容错能力,强调了抑制异常行为以确保模型响应可靠性的重要性(Cao, Subhashri, Chandrasekar, Radhika, Przybyszewski, 2024, Subhashri, Radhika, Chandrasekar, 2025)。相比之下,后门攻击在现代深度学习管道的数据层操作,这激发了本工作中探索的防御措施。
因此,确保深度学习模型的安全部署需要加强对训练过程的监督,并开发有效的检测后门和被污染图像的技术。现有的后门防御方法通常分为基于模型和基于数据的方法。基于模型的防御针对可疑模型进行操作,旨在通过利用异常模型行为或输出响应来分析或修复受损网络,例如触发器逆向工程(Wang et al., 2019)、神经元剪枝(Liu et al., 2018a)或输出操纵(Gao et al., 2023)。相比之下,基于数据的防御侧重于在训练或推理过程中通过分析特征分布(Hayase, Kong, Somani, & Oh, Tran, Li, Madry, 2018)、频率伪影(Zeng et al., 2021)或输入扰动一致性(Liu et al., 2023)来识别被污染的样本。然而,大多数现有方法依赖于访问内部模型结构、额外的干净数据或对触发器特征的强假设,这限制了它们在现实世界部署场景中的适用性。
最近在视觉-语言预训练模型(VLMs)方面的进展展示了它们在多种视觉任务中的出色跨模态语义理解能力(Lu et al., 2019)。如图1所示,我们使用BLIP-2(Li et al., 2023)和CLIP(Radford et al., 2021)来分析干净和被污染的图像。具体来说,BLIP-2一致地生成了包含前景对象和背景上下文的全面描述,而CLIP则为图像中的主要对象生成分类标签。我们观察到,即使对于被污染的图像,BLIP-2和CLIP也不受部分遮挡(例如BadNet(Gu et al., 2019)或图像混合(例如Blended Blended(Li et al., 2021a))的影响,并且能够准确描述主要视觉内容。然而,仅文本输出往往不足以评估语义一致性。通过将它们投影到语义嵌入空间中,我们观察到图像描述与图像标签之间的距离小于与被污染图像的目标标签之间的距离(见图1的右侧部分)。
受上述发现的启发,我们提出了一种基于VLMs的无模型后门防御方法,称为MFBD。具体来说,我们使用BLIP-2提取输入图像的文本描述。尽管BLIP-2可以生成详细的图像描述,但它可能不会使用给定图像标签集中的单词(见图1左侧的第一行)。为了解决这个问题,我们提出使用CLIP为显著性遮蔽的图像分配标签,通过选择给定图像标签集中最准确的单词。注意我们使用显著性掩码来保持图像中的主要对象。我们将BLIP-2和CLIP的描述连接起来,然后使用SBERT(Reimers and Gurevych, 2019)提取语义嵌入。在这个语义空间中,图像描述与图像标签之间的距离小于图像描述与被污染图像的目标标签之间的距离。因此,可以轻松检测到被污染的图像。我们将我们的方法与八种后门防御方法在三个数据集上进行了比较,对抗六种后门攻击者。实验结果表明,我们的方法能够在保持不同数据集高性能的同时有效缓解各种复杂的后门威胁。我们工作的主要贡献可以总结如下:
•我们发现了一个有趣的现象,即VLMs不受后门触发的影响,这可以揭示被污染图像的固有语义信息。
•我们设计了一种无模型后门防御方法,该方法使用BLIP-2和CLIP作为两个互补的文本描述提取器,并将语义嵌入与给定标签的嵌入进行比较以检测被污染的图像。
•在三个基准数据集上对六种流行攻击的全面实验验证了我们方法的有效性和泛化能力。即使在隐蔽的触发器和复杂的数据集上,我们的方法也表现出优越的性能,例如ImageNet。
本文的其余部分组织如下。第2节回顾了关于后门攻击和后门防御的相关工作。第3节介绍了初步知识。第4节详细介绍了提出的MFBD框架。第5节给出了实验结果和分析。第6节讨论了局限性和未来工作的方向。第7节总结了本文。