近年来,深度神经网络(DNN)在计算机视觉领域取得了显著进展,在图像分类、对象检测和语义分割等任务中表现出强大的性能。这些模型越来越多地应用于实际场景,包括面部识别系统和自动驾驶。然而,许多研究表明,DNN对精心设计的对抗性样本非常脆弱[1],[2],这些样本通过向输入数据引入微不可见的扰动来诱导错误的预测。
根据实现方式的不同,对抗性攻击可以分为数字域[2],[3],[4],[5],[6]和物理域[7],[8],[9],[10],[11],[12],[13],[14]攻击。数字域攻击通常涉及对输入图像添加微小的、不可见的像素级扰动,而物理域攻击则通过操纵对象的视觉外观、表面纹理或环境背景来欺骗模型。与数字攻击相比,物理攻击面临更大的挑战,因为需要在不同的视角、距离和复杂的环境条件(如不同的天气或光照)下保持鲁棒性。
传统的数字攻击通常会微妙地修改整个图像,而物理攻击通常侧重于局部扰动,以实现实际应用,例如可打印的对抗性补丁[9]。尽管早期的二维(2D)对抗性补丁取得了一些成功,但在多视角条件下的效果显著下降。相比之下,三维(3D)物理对抗性攻击通过更准确地模拟真实世界场景,提供了更好的跨视图泛化能力。然而,大多数现有工作仅限于简化的室内环境或缩放模型[15],导致对真实世界复杂室外场景的泛化能力较差。
当前最先进的3D物理攻击方法在不同环境条件下的鲁棒性仍然存在问题。这些方法通常使用基于目标检测模型的损失最大化来将优化的对抗性纹理应用到对象表面(例如车辆)上。然而,这种渲染过程通常忽略了对象的自然环境线索,如自然光照和天气反射,这在动态条件(例如雨、雾或不同照明)下会削弱伪装效果。如图1所示,FCA [12]和ASA [16]等方法在这种设置下的性能明显下降。此外,现有的3D物理攻击技术严重依赖于特定对象的UV纹理图,限制了对抗性纹理在不同类别间的迁移能力。为特定车辆模型优化的方法往往无法泛化到其他类型(例如公交车或越野车),从而降低了其在实际异构环境中的适用性。最后,基于注意力的对抗性攻击方法通常在层间聚合注意力,而没有考虑每层的不同尺度敏感性。如图2所示,这一限制在基于无人机的图像中变得至关重要,因为多尺度感知是必不可少的。因此,当前方法在应对空中视角遇到的各种对象尺度时效果不佳。
为了解决这些挑战,我们提出了一个针对基于无人机的对象检测的新型3D对抗性伪装生成框架,旨在提高跨目标的迁移能力和物理世界的鲁棒性。
首先,我们引入了通用对抗性纹理生成(UATG)模块,该模块通过一系列几何增强(包括多尺度缩放、旋转、拼接和裁剪)来转换随机初始化的2D纹理种子,生成可迁移的伪装纹理。与依赖特定对象UV图的先前方法不同,UATG设计为形状无关的,显著提高了对各种对象类别和几何形状的泛化能力。
其次,我们开发了环境特征渲染生成器(EFRG),该生成器明确地对关键环境因素(如天气条件和光照)进行建模和渲染到对抗性样本上。通过利用由场景深度图指导的可微分渲染过程,EFRG能够真实地模拟3D环境效果,包括光线衰减、阴影遮挡以及雨滴和雾粒子的空间分布。这种几何感知的模拟确保了对抗性纹理在动态和复杂的室外条件下的有效性。
最后,为了充分利用检测模型的多层注意力机制,我们提出了注意力扰动优化策略(APOS)。该策略首先识别对检测结果有主导影响的注意力层,并在损失函数中放大它们的梯度。然后以尺度感知和对象敏感的方式重新分配注意力图,以优化关键区域的扰动显著性。这种双阶段调整——逐层重新加权后重新分配注意力图——提高了对抗性纹理的有效性和迁移能力,尤其是在具有显著尺度变化的无人机图像中。
此外,为了在高度非凸的通用对抗性纹理搜索空间中导航,传统梯度方法常常收敛到次优解,我们引入了基于元启发式的纹理改进策略(MTIS)。通过结合鲸鱼优化算法(WOA)和蛾火优化算法(MFO),MTIS在全局探索和局部细化之间提供了稳健的平衡。通过在降维的潜在空间内进行搜索,而不是在高维像素空间内进行搜索,该策略避免了“维度灾难”,发现了更稳健的对抗性模式,这些模式可以在不同模型和环境中泛化。
总的来说,我们的主要贡献有四点:
•通用对抗性纹理生成(UATG):我们提出了一种新型的、与形状无关的对抗性纹理生成模块,避免了依赖特定对象的UV映射。据我们所知,这是第一个应用于针对空中对象检测器的3D物理对抗性攻击的框架,实现了在不同3D姿态和对象实例之间的稳健泛化。
•环境特征渲染生成器(EFRG):通过结合深度感知的可微分渲染,EFRG能够真实地模拟复杂的天气和光照条件,生成在真实世界环境中保持高攻击成功率的物理上合理的对抗性纹理。
•注意力扰动优化策略(APOS):我们引入了一种多层注意力重新加权和重新分配机制,通过增强关键检测相关区域的扰动显著性来优化对抗性损失,从而提高了不同模型和场景下的攻击鲁棒性和迁移能力。
•基于元启发式的纹理改进策略(MTIS):一种结合了WOA的全局探索和MFO的细粒度利用的混合优化逻辑,以规避种子更新过程中的局部最优解陷阱。
总体而言,我们的框架在3D物理对抗性伪装方面取得了新的突破,提高了对象类别间的泛化能力、在复杂环境中的鲁棒性,以及为空中检测场景量身定制的注意力感知对抗性优化。