深度神经网络(DNN)在各个领域取得了显著的性能。然而,它们仍然容易受到小型、经过对抗性设计的扰动的影响,这些扰动可能导致严重的预测错误(Goodfellow, Shlens, Szegedy, 2015; Kaviani, Shamshiri, Sohn, 2023; Macas, Wu, Fuertes, 2024; Szegedy, Zaremba, Sutskever, Bruna, Erhan, Goodfellow, Fergus, 2014; Yuan, He, Zhu, Li, 2019)。这种脆弱性在医疗诊断(Buch, Ahmed, & Maruthappu, 2018)和自动驾驶(Zhang, Hu, Sun, Chen, & Mao, 2022)等安全关键应用中带来了重大风险,因为在这些应用中鲁棒性和可靠性至关重要。
为了减轻对抗性威胁,已经开发了许多防御策略。其中,对抗性训练(Kanai, Yamada, Takahashi, Yamanaka, Ida, 2024; Madry, Makelov, Schmidt, Tsipras, Vladu, 2018; Wu, Xia, Wang, 2020; Ye, Li, Zhou, Zhu, 2023; Zhang, Yu, Jiao, Xing, El Ghaoui, Jordan, 2019)是最有效的范式,因为它在训练过程中明确引入了对抗性样本以提高鲁棒性。同时,对抗性净化方法(Carlini, Tramèr, Dvijotham, Rice, Sun, Kolter, 2023; Nie, Guo, Huang, Xiao, Vahdat, Anandkumar, 2022; Wang, Lyu, & Lin, Wu, Ye, & Gu)旨在通过在分类前将输入投影回良性流形来在推理时去除对抗性扰动。这两种范式代表了实现鲁棒预测的根本不同途径。
尽管取得了进展,当前的防御机制仍面临一些实际限制。对抗性训练虽然在一定程度上有效,但常常会出现性能饱和。例如,在RobustBench(Croce et al., 2021)这一对抗性鲁棒性的标准化基准测试中,即使使用超过3亿张合成图像训练的先进模型(如WideResNet-94-16(Zagoruyko & Komodakis, 2016),在CIFAR-10上的鲁棒准确率也只有73.71%。另一方面,对抗性净化技术通常依赖于大型辅助模型(Laykaviriyakul & Phaisangittisagul, 2023),如变分自编码器(Kingma & Welling, 2014)或扩散模型(Ho, Jain, & Abbeel, 2020),这显著增加了计算复杂性,限制了实际应用。
最近的努力试图减轻这种计算负担。PuriDefense(Guo, Yang, Lin, Zhao, & Zhang, 2024)和ZeroPur(Liu, Yang, Liu, Xiao, & Bi, 2025)提出了基于随机局部隐式采样或扩散启发式重建的无训练或轻量级净化策略。虽然这些方法减少了对重型辅助模型的依赖,但它们的净化方向仍然是随机的:通过随机噪声注入破坏对抗性模式,然后进行重建,而没有明确利用目标分类器的决策几何结构。因此,不能保证正确类别的一致恢复。相比之下,SOAP(Shi, Holtz, & Mishne, 2021)通过引入额外的优化目标避免了辅助模型,但代价是重新训练或修改原始分类器,限制了其在部署时防御中的适用性。
这些限制引出了本文的核心问题:
我们能否仅使用鲁棒分类器本身,无需辅助模型或重新训练,来确定一个有原则且定向的净化路径?
为了回答这个问题,我们从局部几何的角度重新审视了对抗性训练模型的行为。通过对鲁棒模型进行针对性对抗性攻击的分析(表4),我们观察到一个一致的现象:对于大多数正确分类的样本x,在范数有界邻域内的对抗区域只占邻域的一小部分。换句话说,在鲁棒模型诱导的表示中,良性区域主导了x周围的局部邻域。
这一观察导致了局部相对鲁棒性的概念:这一属性表明,在模型诱导的(隐式的)特征空间中,保持预测标签的输入体积超过了在内被错误分类的输入的体积。重要的是,这一概念不需要绝对的鲁棒性(即没有对抗性样本),而是捕捉了正确类别在局部决策几何结构中的相对优势。这种属性自然源于对抗性训练,它有效地将决策边界从数据流形中推开,并压缩了对抗性区域。
基于这一见解,我们提出了Self Purification(SelfPure,图1d),这是一种利用局部相对鲁棒性进行定向对抗性净化的新防御机制。与其随机破坏对抗性模式或依赖辅助生成模型,SelfPure利用鲁棒分类器本身来推断净化方向。具体来说,使用有界的针对性对抗性攻击作为探针来探索内的局部邻域,并识别占据最大良性区域的类别。然后,输入被逐步引导到这个主导区域,通过遵循分类器决策景观的内在几何结构有效地逆转对抗性扰动。尽管概念简单,SelfPure在实证上取得了显著收益。在RobustBench(Croce et al., 2021)上的广泛评估表明,SelfPure在对抗AutoAttack等强攻击时一致提高了鲁棒性,同时保持了较高的准确率,且没有引入额外的计算开销。值得注意的是,我们观察到基于变换器的模型在绝对意义上可能不太鲁棒,但表现出更强的局部相对鲁棒性,使其特别适合通过SelfPure进行改进。
本文的主要贡献总结如下:
•我们从局部几何角度重新审视了对抗性鲁棒性,并形式化了局部相对鲁棒性的概念,描述了鲁棒模型中良性区域在范数有界邻域内的优势。
•我们提出了SelfPure
,这是一种无需训练且不依赖辅助模型的净化框架,它利用局部相对鲁棒性进行定向对抗性净化。