自我净化：通过利用局部相对鲁棒性来增强对抗防御能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Self-Purification: Enhancing Adversarial Defense by Leveraging Local Relative Robustness

【字体：大中小】 时间：2026年02月28日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文提出了一种新型对抗鲁棒性提升方法SelfPure，通过利用对抗训练模型中局部相对鲁棒性特性，无需外部模型或重新训练，即可定向修正对抗扰动，显著提升模型在AutoAttack等强攻击下的鲁棒性，同时保持清洁精度。实验表明，SelfPure特别适用于Transformer等相对鲁棒性较强的模型。

张瑞|约尔格·威克尔|卡塔琳娜·多斯特|杨秦莉|陈泽宇|邵俊明

中国电子科技大学计算机科学与工程学院，成都，611731，中国

摘要

机器学习模型在面对现实世界的意外情况时往往无法可靠地运行，尤其是在遇到对抗性干扰时。尽管现有的防御策略（如对抗性训练、净化和去噪）提供了一些解决方案，但它们存在实际限制。对抗性训练通常会导致性能瓶颈，而净化或去噪方法往往依赖于大型辅助模型，增加了部署复杂性。在这项研究中，我们重新审视了对抗性训练模型的鲁棒性，并发现了一个关键特性：对抗性训练倾向于缩小对抗空间，从而产生局部相对鲁棒性。基于这一见解，我们提出了一种新颖且轻量级的自我净化框架SelfPure，它利用鲁棒模型本身在推理过程中逆转对抗性效应，而无需任何外部模型。与随机去噪方法不同，SelfPure采用有界的针对性攻击来确定引导净化方向，有效恢复对抗性样本的原始标签。在RobustBench基准测试上的广泛实验表明，SelfPure显著提高了标准对抗性训练模型对AutoAttack等强攻击的鲁棒性，同时保持了较高的准确率。该方法为提高实际AI系统中的模型鲁棒性提供了一种实用的即插即用解决方案。

引言

深度神经网络（DNN）在各个领域取得了显著的性能。然而，它们仍然容易受到小型、经过对抗性设计的扰动的影响，这些扰动可能导致严重的预测错误（Goodfellow, Shlens, Szegedy, 2015; Kaviani, Shamshiri, Sohn, 2023; Macas, Wu, Fuertes, 2024; Szegedy, Zaremba, Sutskever, Bruna, Erhan, Goodfellow, Fergus, 2014; Yuan, He, Zhu, Li, 2019）。这种脆弱性在医疗诊断（Buch, Ahmed, & Maruthappu, 2018）和自动驾驶（Zhang, Hu, Sun, Chen, & Mao, 2022）等安全关键应用中带来了重大风险，因为在这些应用中鲁棒性和可靠性至关重要。

为了减轻对抗性威胁，已经开发了许多防御策略。其中，对抗性训练（Kanai, Yamada, Takahashi, Yamanaka, Ida, 2024; Madry, Makelov, Schmidt, Tsipras, Vladu, 2018; Wu, Xia, Wang, 2020; Ye, Li, Zhou, Zhu, 2023; Zhang, Yu, Jiao, Xing, El Ghaoui, Jordan, 2019）是最有效的范式，因为它在训练过程中明确引入了对抗性样本以提高鲁棒性。同时，对抗性净化方法（Carlini, Tramèr, Dvijotham, Rice, Sun, Kolter, 2023; Nie, Guo, Huang, Xiao, Vahdat, Anandkumar, 2022; Wang, Lyu, & Lin, Wu, Ye, & Gu）旨在通过在分类前将输入投影回良性流形来在推理时去除对抗性扰动。这两种范式代表了实现鲁棒预测的根本不同途径。

尽管取得了进展，当前的防御机制仍面临一些实际限制。对抗性训练虽然在一定程度上有效，但常常会出现性能饱和。例如，在RobustBench（Croce et al., 2021）这一对抗性鲁棒性的标准化基准测试中，即使使用超过3亿张合成图像训练的先进模型（如WideResNet-94-16（Zagoruyko & Komodakis, 2016），在CIFAR-10上的鲁棒准确率也只有73.71%。另一方面，对抗性净化技术通常依赖于大型辅助模型（Laykaviriyakul & Phaisangittisagul, 2023），如变分自编码器（Kingma & Welling, 2014）或扩散模型（Ho, Jain, & Abbeel, 2020），这显著增加了计算复杂性，限制了实际应用。

最近的努力试图减轻这种计算负担。PuriDefense（Guo, Yang, Lin, Zhao, & Zhang, 2024）和ZeroPur（Liu, Yang, Liu, Xiao, & Bi, 2025）提出了基于随机局部隐式采样或扩散启发式重建的无训练或轻量级净化策略。虽然这些方法减少了对重型辅助模型的依赖，但它们的净化方向仍然是随机的：通过随机噪声注入破坏对抗性模式，然后进行重建，而没有明确利用目标分类器的决策几何结构。因此，不能保证正确类别的一致恢复。相比之下，SOAP（Shi, Holtz, & Mishne, 2021）通过引入额外的优化目标避免了辅助模型，但代价是重新训练或修改原始分类器，限制了其在部署时防御中的适用性。

这些限制引出了本文的核心问题：

我们能否仅使用鲁棒分类器本身，无需辅助模型或重新训练，来确定一个有原则且定向的净化路径？

为了回答这个问题，我们从局部几何的角度重新审视了对抗性训练模型的行为。通过对鲁棒模型进行针对性对抗性攻击的分析（表4），我们观察到一个一致的现象：对于大多数正确分类的样本x，在范数有界邻域

B_{ε} (x) = {x^{'} ∣ ∥ x? x^{'} ∥_{d} < />

内的对抗区域只占邻域的一小部分。换句话说，在鲁棒模型诱导的表示中，良性区域主导了x周围的局部邻域。

这一观察导致了局部相对鲁棒性的概念：这一属性表明，在模型诱导的（隐式的）特征空间中，保持预测标签的输入体积超过了在

B_{ε} (x)

内被错误分类的输入的体积。重要的是，这一概念不需要绝对的鲁棒性（即没有对抗性样本），而是捕捉了正确类别在局部决策几何结构中的相对优势。这种属性自然源于对抗性训练，它有效地将决策边界从数据流形中推开，并压缩了对抗性区域。

基于这一见解，我们提出了Self Purification（SelfPure，图1d），这是一种利用局部相对鲁棒性进行定向对抗性净化的新防御机制。与其随机破坏对抗性模式或依赖辅助生成模型，SelfPure利用鲁棒分类器本身来推断净化方向。具体来说，使用有界的针对性对抗性攻击作为探针来探索

B_{ε} (x)

内的局部邻域，并识别占据最大良性区域的类别。然后，输入被逐步引导到这个主导区域，通过遵循分类器决策景观的内在几何结构有效地逆转对抗性扰动。尽管概念简单，SelfPure在实证上取得了显著收益。在RobustBench（Croce et al., 2021）上的广泛评估表明，SelfPure在对抗AutoAttack等强攻击时一致提高了鲁棒性，同时保持了较高的准确率，且没有引入额外的计算开销。值得注意的是，我们观察到基于变换器的模型在绝对意义上可能不太鲁棒，但表现出更强的局部相对鲁棒性，使其特别适合通过SelfPure进行改进。

本文的主要贡献总结如下：

•

我们从局部几何角度重新审视了对抗性鲁棒性，并形式化了局部相对鲁棒性的概念，描述了鲁棒模型中良性区域在范数有界邻域内的优势。

•

我们提出了SelfPure

，这是一种无需训练且不依赖辅助模型的净化框架，它利用局部相对鲁棒性进行定向对抗性净化。

•

为了辅助分析SelfPure

，我们重新思考了模型的准确率和鲁棒性，并提出了Adv-F1-Score，这是一个结合了模型预测准确率和鲁棒性的综合指标。这为进一步研究提供了新的视角和评估标准。

•

通过广泛的实验，我们展示了SelfPure

在标准基准测试中显著提高了对抗性鲁棒性。值得注意的是，尽管基于变换器的模型总体上不太鲁棒，但它们表现出更高的局部相对鲁棒性，使其特别适合通过SelfPure进行改进。

方法论

为了找到在不依赖任何辅助模型的情况下纠正模型预测的净化方向，我们回顾了准确率和鲁棒性的概念，并发现鲁棒模型通常对于p?>?0.5是

p ? ?

-鲁棒的，即每个数据样本邻域内的对抗空间小于良性空间。我们将这一属性称为“局部相对鲁棒性”。这一属性构成了SelfPure的理论基础，因为它提供了一个标准

实验

在本节中，我们首先提出了基于重新定义的ε-鲁棒性（定义1）的对抗性F1-Score（Adv-F1），以评估SelfPure的有效性。接下来，我们验证了SelfPure，评估了其对超参数选择的敏感性及其对抗自适应攻击的鲁棒性，并最终将其与RobustBench（Croce et al., 2021）中排名最高的鲁棒模型的随机方法进行了基准测试。

局限性

尽管SelfPure在提高对抗性鲁棒性方面表现出强大的实证效果，但仍存在一些需要进一步研究的局限性。首先，该方法依赖于对抗性训练模型中局部相对鲁棒性的假设，即在一个受限的表示空间邻域内，良性区域占主导地位。尽管这一假设在多个鲁棒视觉模型中得到了实证支持，但在极端情况下可能不普遍成立

结论

本文解决了随机对抗性净化方法的一个根本局限性：缺乏一个有原则且定向的平滑路径。我们提出了SelfPure，这是一种新的净化框架，它利用对抗性训练模型的局部相对鲁棒性以确定性和方向感知的方式将输入引导到良性区域，而不需要依赖辅助生成模型或重新训练。广泛的实证评估表明SelfPure一致地

CRediT作者贡献声明

张瑞：撰写——原始草稿，概念化，方法论，调查，形式分析，软件。约尔格·威克尔：监督，资源，撰写——审阅与编辑。卡塔琳娜·多斯特：可视化，撰写——审阅与编辑，形式分析。杨秦莉：撰写——审阅与编辑。陈泽宇：撰写——审阅与编辑。邵俊明：监督，资源，可视化，撰写——审阅与编辑。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

相关工作

方法论

实验

局限性

结论

CRediT作者贡献声明

利益冲突声明

热点排行

新闻专题