《Chinese Journal of Electronics》:Robust Features Learning Under the Guidance of Generalization Features
编辑推荐:
本文针对深度神经网络(DNN)在对抗攻击下的脆弱性问题,提出了一种新型对抗训练框架RFLGF。研究团队通过特征扰动策略和泛化特征引导机制,在CIFAR、SVHN等数据集上验证了该方法能显著提升模型鲁棒性(PGD攻击下准确率提升超5%)并保持自然数据准确性。该工作为安全关键领域的DNN部署提供了重要技术支撑。
当你在手机人脸识别时露出微笑,或看着自动驾驶汽车精准识别路标时,可能不会想到这些看似强大的AI系统其实脆弱得惊人——一张经过特殊噪点处理的贴纸,就足以让最先进的图像识别模型将停车标志误判为限速标志。这种被称为"对抗攻击"的安全威胁,正成为深度神经网络(Deep Neural Networks, DNN)在现实应用中最大的绊脚石。
如图1所示,这种脆弱性源于DNN学习特征的方式差异:理想模型M1仅依据青蛙头部关键特征就能准确分类,而存在漏洞的模型M2甚至会基于人类无法理解的扰动特征做出高置信度错误判断。更令人担忧的是,当前最有效的防御手段——对抗训练(Adversarial Training, AT)存在明显的"鲁棒性-准确性权衡"困境:模型在训练数据上表现强悍,但在实际测试中泛化能力大幅下降。
针对这一核心难题,安徽理工大学方贤进教授团队在《Chinese Journal of Electronics》上提出了创新解决方案RFLGF框架。该研究首次将特征扰动与泛化特征引导相结合,在保持模型对自然数据高精度的同时,显著提升了对抗攻击下的鲁棒性。
关键技术方法主要包括:1)基于改进SLIC(简单线性迭代聚类)算法的超像素特征扰动技术,通过自适应合并策略生成特征模板指导扰动;2)利用Grad-CAM(梯度加权类激活映射)可视化技术构建特征区域损失函数;3)通过清洁模型与鲁棒模型的逻辑输出对齐和特征空间距离约束,设计三重损失引导机制。实验在CIFAR-10、CIFAR-100和SVHN数据集上采用ResNet-18、WideResNet-34-10和ViT-B16等模型进行验证。
研究结果
特征扰动机制的有效性验证
研究团队设计的超像素级扰动策略与传统全局扰动方法形成鲜明对比。如表5消融实验所示,单独使用特征扰动组件时,模型在PGD-15攻击下鲁棒性达到57.83%,但自然数据准确率降至84.46%。这证实了特征定向扰动能有效提升模型抗攻击能力,但也会造成泛化性能下降。
泛化特征引导的平衡作用
当仅使用泛化特征引导组件时,模型在自然数据上的准确率升至86.91%,但对抗鲁棒性提升有限(PGD-15:55.04%)。这一结果印证了引入清洁模型指导确实能缓解自然准确率的衰减,但单独使用不足以构建强大的防御体系。
如图2所示的双组件协同工作机制,最终在多项测试中展现卓越性能。在ResNet-18上的实验表明(表1),RFLGF在AutoAttack(AA)测试下达到51.54%的准确率,较基准PGD-AT提升近10%。特别是在ViT-B16模型上的测试结果(表4)更具突破性——针对Transformer架构的全局注意力特性,超像素级扰动有效避免了全局扰动对注意力机制的破坏,使模型在PGD-50攻击下准确率提升至57.72%。
最坏情况鲁棒性突破
研究团队特别关注了模型在极端攻击下的表现。如图3所示,在SVHN数据集上,RFLGF的最坏情况鲁棒性与平均鲁棒性差值仅6.53%,显著优于其他方法。这一指标对自动驾驶等安全关键领域尤为重要,它意味着模型不会因特定类别的脆弱性而导致系统性失效。
结论与展望
该研究通过创新性地融合特征扰动和泛化特征引导,成功突破了对抗训练中鲁棒性与准确性的传统权衡困境。实验证明RFLGF框架不仅能提升模型对PGD、C&W(Carlini and Wagner)和AA等先进攻击的防御能力,还能保持对自然数据的高识别精度。特别是该方法对ViT等新兴架构的适应性,为视觉Transformer在安全敏感场景的应用提供了重要保障。
尽管RFLGF显著提升了对抗训练效果,研究团队也指出当前方法仍存在计算资源消耗较大的问题。未来工作将重点优化对抗样本生成效率,推动对抗训练在资源受限环境下的实际应用。这项研究为构建更安全、可靠的深度学习系统提供了新思路,对推动人工智能在医疗诊断、自动驾驶等关键领域的落地具有重要实践意义。