深度神经网络(DNNs)在众多计算机视觉任务中表现出出色的性能(Bojarski, Del Testa, Dworakowski, Firner, Flepp, Goyal, Jackel, Monfort, Muller, Zhang等,He, Zhang, Ren, Sun, 2016; Sutton, Zhou, Tyukin, Gorban, Bastounis, Higham, 2024; Wang, Wang, Zhou, Ji, Gong, Zhou, Li, Liu, 2018)。尽管它们表现优异,但最近的研究表明它们容易受到对抗性样本的影响(Goodfellow, Shlens, & Szegedy, Kurakin, Goodfellow, Bengio, 2018; Li, Chen, Liu, Bai, Yang, Xiang, Zhang, 2025; Moosavi-Dezfooli, Fawzi, Frossard, 2016),这些对抗性样本是精心设计的扰动,能够使模型产生误分类。这种现象反映了复杂系统中的一个普遍问题,即鲁棒性和韧性受到内部故障或外部扰动的挑战(Artime等,2024)。因此,这些对抗性扰动可能会破坏现实世界系统的可靠性,特别是在自动驾驶车辆(Ibrahum, Hussain, Hong, 2025; Zhang, Foroosh, David, Gong, 2018)、面部识别(Lin, Hsu, Chen, Yu, 2022; Sharif, Bhagavatula, Bauer, Reiter, 2016)和医疗诊断系统(Dong, Chen, Xie, Lai, Chen, 2024; Finlayson, Chung, Kohane, & Beam)等安全敏感领域。
对抗性攻击通常分为白盒攻击(Carlini, Wagner, 2017, Madry, Makelov, Schmidt, Tsipras, & Vladu)和黑盒攻击(Cheng, Luo, Wan, Pan, Li, 2025, Park, McLaughlin, & Alouani),两者之间的区别在于攻击者对目标模型的了解程度。在白盒攻击中,攻击者完全了解模型的结构和权重,因此可以有效地生成对抗性样本;而在黑盒攻击中,攻击者无法了解模型的内部参数或架构,这更符合现实世界的情景,因为在这些场景中存在安全限制或部署约束,无法直接访问模型内部。这种有限的可见性给攻击者带来了重大挑战,因为他们无法直接利用模型信息来生成扰动。
为了解决这个问题,人们采用了一种基于迁移的对抗性攻击方法,这种方法依赖于替代模型来生成适用于攻击黑盒目标的迁移性对抗性样本。这类攻击利用了对抗性样本的固有迁移性(Dong, Liao, Pang, Su, Zhu, Hu, Li, 2018; Dong, Pang, Su, Zhu, 2019; Lin, Song, He, Wang, & Hopcroft, Wu, Su, Lyu, King, 2021; Xie, Zhang, Zhou, Bai, Wang, Ren, Yuille, 2019),即在一个模型上生成的扰动也可以导致其他模型发生误分类。因此,提高迁移性已成为一个关键的研究领域。最近的研究受到启发,观察到平坦的最小值通常能带来更好的模型泛化能力(Foret, Kleiner, Mobahi, & Neyshabur, Neyshabur, Bhojanapalli, McAllester, Srebro, 2017; Shirish Keskar, Mudigere, Nocedal, Smelyanskiy, & Tang, Zhao, Zhang, Hu, 2022),因此一些研究专注于优化损失函数以提高对抗性迁移性(Qin, Fan, Liu, Shen, Zhang, Wang, Wu, 2022; Qiu, Duan, Zhao, & Wang, Wu, Luo, Wunsch, 2023)。
具体来说,这些方法旨在优化对抗性样本局部邻域内的平坦局部最大值。由于找到精确的最大值不切实际,通常使用梯度上升法作为近似解决方案。然而,这种近似在后续迭代中效果会迅速下降。如图1所示,这种现象主要是由于损失函数的复杂非凸结构造成的,该结构包含局部最大值、最小值和鞍点(Artime, Grassia, De Domenico, Gleeson, Makse, Mangioni, Perc, Radicchi, 2024; Ge, Liu, Xiaosen, Shang, Liu, 2023; Moosavi-Dezfooli, Fawzi, Fawzi, Frossard, & Soatto)。损失函数的这种复杂几何特性对梯度上升法的可靠性构成了重大挑战,使其无法准确估计真正的最大值。
受此启发,本文提出了一种名为“曲率感知惩罚”(CAP)的新攻击方法,该方法消除了梯度上升法近似效果的下降。与以往仅依赖梯度信息来约束损失函数的方法(Qin, Fan, Liu, Shen, Zhang, Wang, Wu, 2022; Qiu, Duan, Zhao, & Wang, Wu, Luo, Wunsch, 2023)不同,CAP结合了梯度范数和曲率感知项作为正则化项,同时约束和最大化初始损失,从而找到平坦的最大值。然而,这种优化过程依赖于Hessian矩阵的计算,这引入了O(n^2)的计算成本。为了解决这个问题,我们采用有限差分法来估计Hessian矩阵。这种方法每次迭代需要沿梯度方向计算三个梯度,将理论复杂度降低到O(3n)。此外,我们提出的CAP利用从局部邻域中随机抽取的多个样本计算的平均梯度来减少方差并提高更新方向的稳定性。广泛的实验验证了我们的方法不仅在各种网络架构上生成了具有更强迁移性的对抗性样本,而且对先进的防御策略也表现出更强的鲁棒性。我们的主要贡献总结如下:
•据我们所知,这是第一项研究在攻击后期阶段探讨梯度上升法近似效果下降的研究。为了解决这个问题,我们在优化过程中加入了曲率感知项。
•我们提出了一种新的攻击方法CAP,它同时优化了小邻域内的最大值和最小值,从而得到平滑且平坦的损失函数。
•广泛的实验表明,我们的方法始终优于现有的基于迁移的对抗性攻击,并且可以与输入转换技术结合使用,以提高迁移性。