一种基于深度神经网络（DNN）重新训练的新模型，用于防御数据窃取行为并保护决策边界

《Neurocomputing》：A new model stealing defense based on DNN retraining for decision boundary protection

【字体：大中小】 时间：2026年05月04日 来源：Neurocomputing 6.5

编辑推荐：

　　张晨龙|罗森林|潘立民|顾杜娟|袁军北京工业大学信息系统与安全对策实验中心，北京，100081，中国摘要深度神经网络（DNN）容易受到输入变换的影响，这在阻止模型窃取攻击方面带来了挑战。现有方法主要分析攻击样本的分布差异；然而，基于决策边界近似的方法往往模仿良性样本的分布，从而绕

张晨龙|罗森林|潘立民|顾杜娟|袁军

北京工业大学信息系统与安全对策实验中心，北京，100081，中国

摘要

深度神经网络（DNN）容易受到输入变换的影响，这在阻止模型窃取攻击方面带来了挑战。现有方法主要分析攻击样本的分布差异；然而，基于决策边界近似的方法往往模仿良性样本的分布，从而绕过了防御措施。此外，通过在受害者模型外部的复杂防御处理模块中添加欺骗性扰动来改变输出后验，会增加计算成本和处理延迟。为此，本文提出了一种名为PDB（保护决策界）的新训练技术，该技术能够在不依赖于对攻击样本分布假设的情况下有效抵御模型窃取。PDB通过将输入梯度惩罚集成到损失函数中来将决策边界从良性样本中移开。为了进一步增强保护效果，靠近这些边界的样本（称为过渡样本）被明确重新分类到一个新的专用类别中。这种重新分类是通过在输出层添加相应的神经元来实现的，从而加强了防御机制。重要的是，PDB通过使用简单的机制（如常规预测过程和选择性标签翻转）来避免对复杂防御处理模块的需求，仅在少数情况下使用这些机制。实验证据表明，PDB优于领先方法，并在保护决策边界免受潜在入侵方面取得了开创性进展。

引言

深度神经网络被广泛用于图像和语音识别。为了提高性能，趋势是使用大型训练数据集和大量参数，这导致存储需求增加和训练复杂性提高，限制了其在许多设备上的部署。为了解决这些问题，主要服务提供商提供了机器学习即服务（MLaaS），在云中托管模型并提供预测接口。然而，研究表明这些看似安全的黑盒模型容易受到窃取[1]，威胁数据隐私和知识产权。因此，研究针对模型窃取的防御措施至关重要。

部署在云中的模型（称为受害者模型）处理输入以生成预测向量。模型窃取和防御策略的重点在于这些向量。攻击者设计特定样本从受害者模型中提取决策信息，以便训练类似的替代模型。为了对抗这一点，防御者直接或间接地扰动预测向量，以最小化信息泄露并降低替代模型的准确性。

然而，现有的模型窃取防御方法面临几个挑战。首先，对攻击样本的强烈假设将防御措施限制在特定攻击上，降低了它们的有效性。例如，Lee等人[2]和Zhang等人[3]使用分布外（OOD）检测[4]对查询样本进行分类，并调整了受害者模型预测向量中的扰动。同时，Guo等人[5]和Liang等人[6]使用OOD样本重新训练模型，通过模型的拟合能力来识别它们。这些方法假设攻击样本和良性样本之间存在明显的分布差异。然而，一些攻击（如JBDA[7]）生成的样本与良性样本非常相似，使得分布区分变得复杂，削弱了这些防御措施。此外，Orekondy等人[8]和Mazeika等人[9]提出通过重定向替代模型中的梯度来误导参数更新。然而，这种策略假设攻击者同时提交所有查询，这是不现实的。其次，向预测向量添加扰动需要复杂的防御处理模块，导致受害者模型的预测计算开销增大和响应时间延迟。例如，Lee等人[2]、Cheng等人[10]和Jiang等人[11]重新映射了所有输出向量，而Wang等人[12]、Zhang等人[13]和Wang等人[14]转换了输入样本，间接扰动了预测输出。此外，Gong等人[15]开发了多个模糊模型多次预测样本，使用投票机制来确定结果。这些方法由于输入输出遍历、样本转换、预测向量重新映射和重复模型预测而产生显著的计算成本，从而严重影响模型的正常使用。

为了解决这些挑战，本文介绍了PDB（保护决策边界），这是一种旨在防御模型窃取的模型训练方法。深度神经网络的准确预测依赖于根据决策边界对输入样本进行分类。因此，保护这些边界对于防止模型窃取至关重要。PDB通过在训练期间将输入梯度惩罚集成到损失函数中来实现这一点，将决策边界从良性样本中移开，防止干扰正常预测。其次，在决策边界附近生成过渡样本，并将其指定为“恶意类别”。最后，在输出层添加用于预测这些“恶意类别”的神经元，使用原始样本和恶意样本重新训练模型。在实际应用中，对恶意预测应用标签翻转，而良性预测则正常输出。PDB不假设特定的攻击样本，而是保护决策边界——模型窃取的主要目标——从而提供更全面的防御。此外，PDB避免了复杂的扰动模块，直接输出预测结果，并通过仅对少数样本翻转标签来最小化延迟。

总之，本研究提出了三个主要贡献：

提出了一种基于模型内部推理过程的模型窃取防御方法，消除了对复杂输入或输出防御处理模块的需求，并减少了预测延迟。

设计了一种DNN训练机制，包括输入梯度惩罚和过渡样本拟合。它抑制了输入变化的干扰，以识别攻击样本并保护良性样本。扩展的模型结构适应过渡样本，创建了防止模型窃取的防御能力。

通过全面的实验验证了该方法的有效性，为每个设计决策提供了重要证据。

本文的结构如下：第2节回顾了针对模型窃取的防御措施的先前研究。第3节介绍了框架并详细解释了方法论。第4节分析了实验结果，证明了防御措施的有效性。第5节讨论了潜在的局限性并提出了未来研究的方向。最后，第6节总结了本文。

章节片段

框架

本节全面介绍了PDB算法。如图2所示，算法的输入是训练数据集（Data）。首先，通过对未训练模型（UM）应用带有“输入梯度惩罚”的损失函数来开发训练模型（TM）。随后，从‘Data’生成过渡样本，然后将它们组合形成合并数据（Merged Data）。在TM的输出层中添加额外的神经元，创建扩展模型（EM），

数据集

我们的方法在三个数据集上进行了评估：MNIST、FashionMNIST（以下简称“Fashion”）和CIFAR10。详细信息见表1。

实验环境和条件

所有测试都在运行Ubuntu 18.04的虚拟机上进行，配置了PyTorch 2.21、Python 3.8.19和CUDA 12.0。该机器配备了具有24GB内存的RTX 6000 GPU。

配置

受害者模型在MNIST、Fashion和CIFAR10数据集上进行了训练。值得注意的是，为了准确评估模型效果

局限性和未来工作

本文提出的PDB算法有效地抵抗了模型窃取攻击，但它也依赖于输出后处理，例如对预测为“恶意”的样本进行标签翻转，这引入了一些延迟和计算复杂性。未来的研究将专注于开发无需防御处理模块即可增强深度神经网络安全性的模型训练方法。

在训练过程中，PDB中的每个损失函数计算都需要两次反向传播

结论

在本文中，我们提出了一种新的深度神经网络训练方法来防御模型窃取攻击。输入梯度惩罚确保良性样本远离决策边界，从而能够准确预测正常查询。此外，使用FGSM算法生成过渡样本。同时，我们扩展了受害者模型的输出层。然后使用过渡样本和原始样本重新训练模型，在周围构建一个保护区域

CRediT作者贡献声明

张晨龙：写作 – 审稿与编辑，撰写原始草稿，可视化，验证，软件，资源，方法论，调查，概念化。罗森林：写作 – 审稿与编辑，监督，资金获取，概念化。潘立民：写作 – 审稿与编辑，监督，资金获取。顾杜娟：验证，方法论，数据管理。袁军：写作 – 审稿与编辑，验证。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了CCF-NSFOCUS‘Kunpeng’研究基金、242个国家信息安全项目（编号2020A065）和2020年工业和信息化部信息安全软件项目（编号CEIEC-2020-ZM02-0134）的支持。

张晨龙 中国籍。他目前正在北京工业大学信息与电子学院信息系统与安全对策实验中心攻读硕士学位。他的当前研究兴趣包括机器学习和网络空间安全。电子邮件：chenlong00088@gmail.com。

摘要

引言

章节片段

相关工作

框架

数据集

实验环境和条件

配置

局限性和未来工作

结论

CRediT作者贡献声明

利益冲突声明

致谢

热点排行