ADA-Lab：基于“对手的对手”标签调整框架解决对抗训练中精度与鲁棒性权衡难题

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Adversary’s adversary can be a good friend: Revisiting labels of low-margin examples to reconcile accuracy and robustness

【字体：大中小】 时间：2026年01月20日 来源：Neurocomputing 6.5

编辑推荐：

　　本文推荐一篇关于对抗训练（AT）的重要研究。针对AT存在的鲁棒性与泛化性能之间的固有矛盾，以及现有基于间隔（margin）的方法仅关注梯度大小而忽略方向信息的问题，作者团队提出了一种名为ADA-Lab（Adversary’s Adversary for Label Adjustment）的新型标签设计框架。该研究通过引入“对手的对手”概念，利用对抗样本的梯度下降方向来显式编码方向信息，从而为低间隔样本（low-margin examples）提供更精细的监督。理论分析和大量实验表明，该方法能有效减少标签分布不匹配，统一基于梯度大小的重要性加权和标签分布校正的优势，在CIFAR-10、CIFAR-100和Tiny-ImageNet等多个数据集上显著提升了模型的鲁棒性和泛化能力，为解决精度-鲁棒性权衡提供了新思路。

在深度学习模型日益广泛应用于自动驾驶、医疗健康、社交媒体和娱乐等现实场景的今天，构建可信赖的人工智能模型变得至关重要。然而，研究表明深度学习模型极易受到对抗性扰动（adversarial perturbations）的攻击，导致模型在看似微小的输入干扰下产生严重误判。因此，模型的鲁棒性（robustness）与准确性（accuracy）同等重要，尤其是在安全攸关的实际应用中。对抗训练（Adversarial Training, AT）作为提升模型鲁棒性最基础且广泛应用的方法之一，通过在内层最大化（生成对抗样本）和外层最小化（更新模型参数）的 min-max 优化框架下训练模型，旨在使模型即使面对未知输入或精心篡改的数据也能保持稳定的预测。尽管AT在提升鲁棒性方面成效显著，但大量实证和理论研究表明，鲁棒性与泛化性能之间存在难以调和的权衡（trade-off）。为了缓解这一矛盾，各种策略被提出，例如利用额外数据、应用标签平滑（label smoothing）等。其中，基于间隔（margin）的AT方法通过强调数据的几何特性（即间隔）来为不同样本分配不同重要性，从而有效缓解了这一矛盾。

间隔是指数据点到决策边界（decision boundary）的距离，可分为输入空间间隔（input-space margin）和输出空间间隔（output-space margin）。高间隔样本安全地位于决策边界内，而低间隔样本则靠近边界甚至被误分类，因此后者在训练中被认为更为关键，应给予更多关注。然而，现有的基于间隔的方法主要局限在于仅将梯度大小（gradient magnitude）作为样本重要性的代理，通常采用损失重加权（loss reweighting）方案来放大关键样本（如低间隔样本）的梯度。与此同时，有研究指出，基于硬标签（hard-label）的AT本身会引入标签噪声（label noise），即标注的标签分布与真实的底层标签分布之间存在不匹配。这种不匹配会导致从硬标签推导出的梯度方向可能并非最优，尤其对于对抗样本而言。先前的研究将样本重要性和标签质量视为两个独立的问题，但本文强调了一个关键却此前被忽视的联系：低间隔样本不仅更重要，而且更容易受到标签噪声的影响。这一观察揭示了一个潜在的陷阱——优先处理低间隔样本的基于间隔的方法，可能会无意中放大噪声标签的不利影响，从而限制其整体有效性。

为解决上述问题，来自仁荷大学（Inha University）电气与计算机工程系的Seongmin Kim、Yoojin Jung和Byung Cheol Song在《Neurocomputing》上发表了一项研究，提出了ADA-Lab（Adversary’s Adversary for Label Adjustment），一个新颖的标签设计框架。该框架的核心创新在于引入了“对手的对手”（adversary’s adversary）这一概念，旨在同时考虑梯度的大小和方向，以改进对低间隔样本的监督。具体而言，研究人员通过理论证明，使用“对手的对手”概念设计的标签能更好地近似真实标签分布，特别是对于低间隔样本。此外，通过基于到决策边界的距离来估计样本重要性，该方法能自适应地控制标签插值（label interpolation）的程度。其关键新颖性在于引入了基于“对手的对手”的方向感知标签细化（direction-aware label refinement），这一概念显式地利用了对抗样本的梯度下降方向来纠正标签不匹配（label mismatch）。这种统一的设计整合了基于梯度大小的重要性加权和标签分布校正，从而改善了鲁棒性和泛化性能。

为开展研究，作者团队采用了几个关键的技术方法。首先是基于间隔的样本重要性评估，利用概率间隔（probabilistic margin）来估计数据点与决策边界的距离，并据此评估样本重要性。其次是“对手的对手”的生成，通过一个最小化过程生成对抗样本的“对手”，其方向与梯度下降方向一致，从而提供指向决策边界内部的方向信息。第三是引入了方向感知的标签细化策略，根据估计的样本重要性（通过概率间隔）自适应地调整标签插值的程度，而非简单地使用硬标签或模型预测。最后，研究还设计了一个预训练阶段（burn-in period），在训练早期使用标准的PGD-AT进行模型预热，待模型预测相对稳定后再应用提出的ADA-Lab标签调整策略，以确保标签设计的有效性。实验在CIFAR-10、CIFAR-100和Tiny-ImageNet数据集上使用ResNet-18、ResNet-34和WideResNet-34-10等模型架构进行。

研究结果部分通过多个小节展示了详细的发现。在CIFAR-10上的性能评估表明，与PGD-AT相比，ADA-Lab在ResNet-18和WideResNet-34-10上分别将清洁准确率提高了约0.8%和0.5%，在PGD-20攻击下的鲁棒性则分别提升了6.2%和4.9%。在更具挑战性的CIFAR-100和Tiny-ImageNet数据集上，该方法也 consistently 优于其他基线方法，在清洁准确率和鲁棒性方面均取得最佳或次佳结果，证明了其良好的可扩展性。与标签平滑（Label Smoothing, LS）和对抗权重扰动（Adversarial Weight Perturbation, AWP）等方法的比较进一步显示，ADA-Lab在精度-鲁棒性权衡方面取得了更一致的改进。与近期其他关注噪声特征或间隔方面的AT方法（如F2AT、MGAT、DifAT）相比，ADA-Lab在CIFAR-10和CIFAR-100上分别实现了高达6.3%和6.7%的鲁棒性提升，以及1.6%和2.2%的准确率增益。对训练动态和间隔行为的分析揭示，ADA-Lab方法有效缓解了鲁棒过拟合（robust overfitting），并且随着训练进行，低间隔样本的梯度范数减小，与高间隔样本的梯度范数差距缩小，表明其缓解了由低间隔样本引起的梯度爆炸问题以及不同间隔样本间的学习不平衡。超参数敏感性分析表明，该方法对关键超参数（如控制标签插值程度的参数λ）的变化相对稳健。计算成本分析指出，虽然总训练时间相较于PGD-AT有所增加（约1.303倍），但考虑到性能提升，这是一个可接受的权衡。预训练周期（burn-in period）的消融研究确定，在第一次学习率衰减后（本研究中为第80个周期）启用ADA-Lab能获得最佳的性能权衡。

研究的结论与讨论部分对全文进行了总结。本文通过提出ADA-Lab框架，为解决对抗训练中长期存在的精度与鲁棒性权衡难题提供了新的视角。理论分析将梯度大小与通过间隔方差衡量的样本重要性联系起来，将梯度方向与通过分布不匹配衡量的标签正确性联系起来。ADA-Lab通过方向感知的标签细化统一了这两个方面，其设计基于间隔信息的重要性对标签进行插值。大量实验在多个数据集和模型架构上验证了该方法的有效性，表明其能够实现更优的精度-鲁棒性权衡。这项工作强调了在对抗训练中同时考虑梯度方向信息和样本重要性对于缓解分布不匹配和改善泛化的重要性。然而，如何确定最优的“对手的对手”（包括计算复杂度和预训练周期等因素的考量）仍然是一个开放性问题，为未来研究留下了空间。总体而言，这项研究为构建更安全、更可靠的深度学习模型，推动可信人工智能的发展提供了有价值的见解和方法。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号