通过基于曲率的惩罚机制提升对抗性迁移能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Enhancing Adversarial Transferability via Curvature-Aware Penalization

【字体：大中小】 时间：2026年02月02日 来源：Neural Networks 6.3

编辑推荐：

　　对抗样本生成中梯度上升后期效率衰减问题，本文提出曲率感知正则化方法CAP。通过融合梯度范数与曲率感知项构建联合优化目标，结合有限差分法近似Hessian矩阵计算，有效维持损失表面平坦性。实验表明CAP在ResNet、EfficientNet等模型上实现18.7%更高的跨模型攻击成功率，同时抵御FGSM、PGD等12种防御方法。研究揭示损失表面非凸性对梯度近似的关键影响，为提升对抗攻击鲁棒性提供新思路。

程鹏|陶泽泽|刘俊宇|彭金佳

中国河北省河北大学网络安全与计算机学院

摘要

基于迁移的攻击在替代模型上生成对抗性样本，并利用迁移性的特点来欺骗其他未知模型，使其在现实世界场景中具有实用性。最近的研究试图通过最小化损失函数的最大值来优化损失函数，但实际上这个最大值无法精确计算，通常通过梯度上升法来近似。然而，在攻击的后期阶段，损失函数的非线性变得越来越强，导致梯度上升法的有效性降低。为了解决这个问题，我们提出了一种名为“曲率感知惩罚”（Curvature-Aware Penalization，简称CAP）的新攻击方法，该方法结合了梯度范数和曲率感知项作为正则化项，以保持损失函数的平坦性。由于直接计算Hessian矩阵计算成本较高，我们采用有限差分法来降低计算复杂度。具体来说，我们从样本的邻域中随机选择一个样本，并在其梯度方向上的三个邻近点插值梯度来近似Hessian矩阵。此外，为了减少随机采样引起的方差，我们对多个随机样本的梯度进行平均。全面的实验结果表明，我们的CAP不仅可以生成在各种网络架构上具有更强迁移性的对抗性样本，而且对最先进的防御方法也表现出更强的抵抗力。代码可在以下链接获取：https://github.com/PC614/CAP。

引言

深度神经网络（DNNs）在众多计算机视觉任务中表现出出色的性能（Bojarski, Del Testa, Dworakowski, Firner, Flepp, Goyal, Jackel, Monfort, Muller, Zhang等，He, Zhang, Ren, Sun, 2016; Sutton, Zhou, Tyukin, Gorban, Bastounis, Higham, 2024; Wang, Wang, Zhou, Ji, Gong, Zhou, Li, Liu, 2018）。尽管它们表现优异，但最近的研究表明它们容易受到对抗性样本的影响（Goodfellow, Shlens, & Szegedy, Kurakin, Goodfellow, Bengio, 2018; Li, Chen, Liu, Bai, Yang, Xiang, Zhang, 2025; Moosavi-Dezfooli, Fawzi, Frossard, 2016），这些对抗性样本是精心设计的扰动，能够使模型产生误分类。这种现象反映了复杂系统中的一个普遍问题，即鲁棒性和韧性受到内部故障或外部扰动的挑战（Artime等，2024）。因此，这些对抗性扰动可能会破坏现实世界系统的可靠性，特别是在自动驾驶车辆（Ibrahum, Hussain, Hong, 2025; Zhang, Foroosh, David, Gong, 2018）、面部识别（Lin, Hsu, Chen, Yu, 2022; Sharif, Bhagavatula, Bauer, Reiter, 2016）和医疗诊断系统（Dong, Chen, Xie, Lai, Chen, 2024; Finlayson, Chung, Kohane, & Beam）等安全敏感领域。

对抗性攻击通常分为白盒攻击（Carlini, Wagner, 2017, Madry, Makelov, Schmidt, Tsipras, & Vladu）和黑盒攻击（Cheng, Luo, Wan, Pan, Li, 2025, Park, McLaughlin, & Alouani），两者之间的区别在于攻击者对目标模型的了解程度。在白盒攻击中，攻击者完全了解模型的结构和权重，因此可以有效地生成对抗性样本；而在黑盒攻击中，攻击者无法了解模型的内部参数或架构，这更符合现实世界的情景，因为在这些场景中存在安全限制或部署约束，无法直接访问模型内部。这种有限的可见性给攻击者带来了重大挑战，因为他们无法直接利用模型信息来生成扰动。

为了解决这个问题，人们采用了一种基于迁移的对抗性攻击方法，这种方法依赖于替代模型来生成适用于攻击黑盒目标的迁移性对抗性样本。这类攻击利用了对抗性样本的固有迁移性（Dong, Liao, Pang, Su, Zhu, Hu, Li, 2018; Dong, Pang, Su, Zhu, 2019; Lin, Song, He, Wang, & Hopcroft, Wu, Su, Lyu, King, 2021; Xie, Zhang, Zhou, Bai, Wang, Ren, Yuille, 2019），即在一个模型上生成的扰动也可以导致其他模型发生误分类。因此，提高迁移性已成为一个关键的研究领域。最近的研究受到启发，观察到平坦的最小值通常能带来更好的模型泛化能力（Foret, Kleiner, Mobahi, & Neyshabur, Neyshabur, Bhojanapalli, McAllester, Srebro, 2017; Shirish Keskar, Mudigere, Nocedal, Smelyanskiy, & Tang, Zhao, Zhang, Hu, 2022），因此一些研究专注于优化损失函数以提高对抗性迁移性（Qin, Fan, Liu, Shen, Zhang, Wang, Wu, 2022; Qiu, Duan, Zhao, & Wang, Wu, Luo, Wunsch, 2023）。

具体来说，这些方法旨在优化对抗性样本局部邻域内的平坦局部最大值。由于找到精确的最大值不切实际，通常使用梯度上升法作为近似解决方案。然而，这种近似在后续迭代中效果会迅速下降。如图1所示，这种现象主要是由于损失函数的复杂非凸结构造成的，该结构包含局部最大值、最小值和鞍点（Artime, Grassia, De Domenico, Gleeson, Makse, Mangioni, Perc, Radicchi, 2024; Ge, Liu, Xiaosen, Shang, Liu, 2023; Moosavi-Dezfooli, Fawzi, Fawzi, Frossard, & Soatto）。损失函数的这种复杂几何特性对梯度上升法的可靠性构成了重大挑战，使其无法准确估计真正的最大值。

受此启发，本文提出了一种名为“曲率感知惩罚”（CAP）的新攻击方法，该方法消除了梯度上升法近似效果的下降。与以往仅依赖梯度信息来约束损失函数的方法（Qin, Fan, Liu, Shen, Zhang, Wang, Wu, 2022; Qiu, Duan, Zhao, & Wang, Wu, Luo, Wunsch, 2023）不同，CAP结合了梯度范数和曲率感知项作为正则化项，同时约束和最大化初始损失，从而找到平坦的最大值。然而，这种优化过程依赖于Hessian矩阵的计算，这引入了O(n^2)的计算成本。为了解决这个问题，我们采用有限差分法来估计Hessian矩阵。这种方法每次迭代需要沿梯度方向计算三个梯度，将理论复杂度降低到O(3n)。此外，我们提出的CAP利用从局部邻域中随机抽取的多个样本计算的平均梯度来减少方差并提高更新方向的稳定性。广泛的实验验证了我们的方法不仅在各种网络架构上生成了具有更强迁移性的对抗性样本，而且对先进的防御策略也表现出更强的鲁棒性。我们的主要贡献总结如下：

•

据我们所知，这是第一项研究在攻击后期阶段探讨梯度上升法近似效果下降的研究。为了解决这个问题，我们在优化过程中加入了曲率感知项。

•

我们提出了一种新的攻击方法CAP，它同时优化了小邻域内的最大值和最小值，从而得到平滑且平坦的损失函数。

•

广泛的实验表明，我们的方法始终优于现有的基于迁移的对抗性攻击，并且可以与输入转换技术结合使用，以提高迁移性。

本文的其余部分安排如下：第2节简要回顾了相关技术和背景。第3节深入探讨了在攻击后期迭代中梯度近似效果下降的问题，并在此基础上提出了我们的CAP方法以促进平坦的局部最大值。第4节介绍了实验设置和实现细节。第5节展示了在不同场景下的全面实验结果，以验证我们方法的有效性。第6节讨论了尽管性能优越，但我们的方法在效率上的局限性。最后，第7节总结了本文并提出了未来工作的潜在方向。

提出的模型

在本节中，我们探讨了梯度上升法近似效果下降的问题。为了解决这个问题，我们提出了一种新的曲率感知惩罚框架，将梯度范数和曲率感知项纳入损失函数中，以寻找平坦的局部最大值。整个架构的概述见图2，所提出的方法在下一节中有详细说明。

实验程序

在本节中，我们介绍了研究的实验设置和实现细节。首先描述了用于评估的数据集和模型架构，然后介绍了用于比较的基线攻击方法。接下来，我们概述了超参数设置和实现细节以确保可重复性。

数据集。遵循NIPS 2017对抗性竞赛的协议（Kurakin等，2018），我们从ILSVRC 2012验证集中随机选择了1000张图像

结果

本节展示了在四个不同数据集上进行的全面实验结果。我们将我们提出的方法与几种基于梯度的方法在单个模型、鲁棒模型和集成模型上进行了比较。此外，我们的CAP方法与输入转换攻击结合使用，以验证方法的通用性，并在人员重新识别基准数据集上进行了对比实验，以进一步检验跨域鲁棒性。我们还进行了消融研究

讨论

尽管实验结果表明我们提出的方法在各种设置中表现优异，但攻击的效率仍然是一个重大挑战。尽管有限差分方法在表9中显著降低了计算成本，我们的方法仍然需要在每次迭代中沿梯度方向计算三个梯度。此外，为了减少随机方差并提高稳定性，我们采用了多次平均的策略

结论

在本文中，我们首先探讨了由于损失函数的非线性过高，在攻击后期阶段梯度上升法近似效果下降的问题。为了解决这个问题，我们提出了一种名为CAP的新攻击方法，使用梯度范数和曲率感知项作为正则化项来保持损失函数的平坦性。考虑到实际计算Hessian矩阵的成本较高，我们采用了有限差分法来简化计算

CRediT作者贡献声明

程鹏：撰写——原始草稿、可视化、软件设计、概念化。陶泽泽：验证、形式分析、数据整理。刘俊宇：撰写——审阅与编辑、概念化。彭金佳：撰写——审阅与编辑、监督、项目管理。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的竞争性财务利益或个人关系。

致谢

本工作得到了中国国家自然科学基金（62501226）、河北省自然科学基金（F2025201037）、石家庄市属高校基础研究项目（241791387A）和河北省高校跨学科研究计划（DXK202404）以及中国国家重点研发计划（2024YFB4710800）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关文献

相关工作