在黑盒访问条件下，量化差分隐私生成模型中可观测的隐私程度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neurocomputing》：Quantifying observable privacy in differentially private generative models under black-box access

【字体：大中小】 时间：2026年01月31日 来源：Neurocomputing 6.5

编辑推荐：

　　黑盒访问合成数据时成员推断泄露弱于理论计算，本研究从测试中心视角分析DP生成模型的隐私差距，结合损失路径核（LPK）表征函数级稳定性，以及高维潜在随机性的高斯近似行为，推导出维度相关的隐私边界，实验验证了边界随数据集规模和潜在维度递减的趋势，为后验审计DP生成模型提供保守工具。

作者：葛音池、张慧、孙浩航、杨海军

单位：北京航空航天大学复杂与关键软件环境国家重点实验室，北京 100191

摘要

通过对差分隐私（DP）模型生成的合成数据进行黑盒访问，其成员推断泄露的程度通常比最坏情况下的DP计算结果所暗示的要轻得多。我们从以测试为中心的角度研究了这一差异，重点关注通过固定黑盒接口可观察到的隐私信息，而不是加强形式的DP预算。在训练方面，我们展示了DP-SGD能够诱导出函数级别的稳定性，这种稳定性通过损失路径核（loss-path kernel）能够更好地捕捉，而不仅仅是通过参数之间的接近程度来衡量。在采样方面，现代生成器使用的高维随机性产生了近似高斯行为，使得可以对可区分性进行高斯替代分析。结合这些因素，我们得到了一个有效的信号参数，并且该参数具有小的、可量化的松弛度。所得到的隐私保护范围（envelopes）描述了黑盒可区分性如何随着数据集大小和有效潜在维度的增加而降低，并且在多次发布中仅呈亚线性增长，同时保持了底层的DP保证不变。仿真和实证测试证实了这些趋势，并与观察到的攻击性能相匹配，表明该框架为在现实黑盒访问情况下对DP训练的生成模型进行事后审计提供了一个保守且可解释的工具。

引言

随着生成模型的迅速普及，对训练数据隐私的关注也日益增加。这些模型本质上有可能记住并重新生成其训练语料库中的敏感模式[1]、[2]，从而引发诸如成员推断[3]和数据重构[4]等攻击。为了减轻这些风险，差分隐私（DP）[5]已成为首选标准。正如最近关于隐私保护学习系统的研究[6]所强调的，与同态加密等加密方法相比，DP在现实部署约束下具有明显的优势，后者在计算过程中保护数据机密性，但无法防止最终模型泄露敏感的训练样本。此外，与通常在高维环境中无法抵御链接攻击的启发式匿名化技术相比，DP提供了对任意背景知识都具有鲁棒性的可证明保证。实际上，差分隐私随机梯度下降（DP-SGD）[7]已成为事实上的标准：它通过梯度裁剪和校准的噪声注入在训练过程中实施DP。至关重要的是，由于DP的后处理特性，使用DP-SGD训练的模型无论用于何种下游任务（包括生成任务）都继承了正式的隐私保证。然而，这些保证本质上是基于最坏情况的，并且与接口无关，因此留下了一个开放性问题：通过实际部署接口实际上可以观察到哪些隐私信息。这激发了我们不仅研究DP机制本身，还研究其最终部署环境的必要性。

同时，现代生成模型的部署范式在理论保证和实际隐私审计之间造成了关键性的脱节。商业系统主要以黑盒应用程序编程接口（API）的形式提供，审计人员或攻击者只能观察到模型输出——参数和训练数据，而控制生成的潜在随机性则保持隐藏。虽然机制层面的审计[8]、[9]能够正确验证训练算法的最坏情况隐私预算，但它本质上假设了强大的对手模型（例如白盒或梯度访问）。这就提出了一个问题：当对手被限制为黑盒查询时，实际的隐私保护程度是多少？从模型开发者的角度来看，核心挑战不仅在于验证机制本身，还在于量化部署接口所提供的额外保护。

这个问题针对的是可观察的隐私——一个衡量系统输出在特定操作约束（这里是具有隐藏潜在变量的黑盒接口）下的可区分性的指标。这一概念与近期文献中日益关注的“实证隐私”[10]、“实际泄露”[12]、“实用泄露”[13]相一致，但我们特别强调了部署接口所施加的结构约束。与最坏情况下的DP预算不同，后者限制了在任意辅助信息下的泄露程度，而可观察的隐私则捕捉了受限攻击者能够访问的实际泄露程度。最近的实证证据[13]揭示了一个显著现象：即使使用宽松的DP预算（例如

=4），对DP训练的生成器的成员推断攻击（MIAs）的表现也接近随机猜测（图1）。这种差异表明，现实世界中的隐私保护往往比最坏情况计算结果所暗示的要强。因此，我们的研究问题是：我们能否从理论上解释并定量审计这种“隐私差距”？这种增强的隐私保护可能源于生成模型的内在结构特性，特别是由DP-SGD诱导的函数级别稳定性以及稀释可区分性的高维潜在随机性。尽管风格化的分析[14]已经暗示了这种效应，但将训练动态与接口特定的隐私行为联系起来的统一框架仍然缺失。

我们通过基于测试的

-DP视角[20]来弥合这一差距。我们的目标不是放宽形式的DP保证，而是量化当访问被限制为固定黑盒接口时审计者可实现的测试能力降低的程度。从机制层面到接口层面的这种转变对于理解实际部署系统中的隐私保护至关重要。我们的框架是事后操作的：它直接从训练轨迹计算隐私保护范围，证明了黑盒攻击者原则上可能观察到的内容。有两个结构效应推动了这种降低：

•
函数级别稳定性：DP-SGD在函数空间中强制训练在相邻数据集上的生成器之间的接近性，即使它们的参数有所不同。我们通过损失路径核（LPK）[21]、[22]来形式化这一点，该核编码了初始化之后的优化几何结构。
•
高维潜在随机性：生成过程中的高维随机输入在输出中产生了近似高斯行为，进一步降低了黑盒查询下的可区分性。

结合这些效应，我们得到了DP训练的生成模型中黑盒可区分性的定量描述，如图2所示。将基于LPK的稳定性与高斯化结合起来，得到了考虑维度的高斯DP保护范围，这些范围限定了在固定接口下的有效可区分性。这些范围预测黑盒可区分性随着数据集大小和潜在维度的增加而降低，并且在多次发布中的增长仅呈亚线性。该框架完全是在事后操作的——它不修改训练或预算——但它为审计DP训练的生成器的隐私提供了一个保守且可解释的工具。重要的是，我们的分析补充了而不是取代了标准的隐私计算：它量化了在接口处可观察到的内容，而不是机制的形式DP预算。

•

我们通过

-DP/GDP测试视角分析了DP-SGD训练的生成模型，构建了一个事后、特定于接口的审计框架，该框架在保留原始DP保证的同时，量化了在受限黑盒访问下的有效可区分性。

•

我们在LPK几何结构中确立了DP-SGD的函数级别稳定性，提供了一个明确的

界限，在固定子采样下，并将训练动态直接与输出级别的假设测试联系起来。

•

我们将定量高斯化与LPK稳定性结合起来，得出了考虑维度的高斯DP保护范围，其有效隐私参数随着数据集大小和有效潜在维度的增加而降低，从而分离出了可实证测量的松弛项。

•

我们在两个代表性的表格数据集上评估了DP-SGD训练的变分自编码器，发现实证可区分性趋势与我们的理论预测结果非常吻合。

本文的其余部分安排如下。第2节回顾了相关工作。第3节介绍了

-DP、高斯DP和稳定性概念的必要背景。第4节阐述了本工作中考虑的问题设置和实际的黑盒威胁模型。第5节发展了DP训练的神经网络中隐私放大的理论机制。第6节介绍了我们基于LPK和高斯探针的事后审计程序。第7节报告了仿真结果和实证证据，说明了预测的可区分性趋势。最后，第8节提供了讨论、局限性和结论性意见。

节选

差分隐私生成模型

早期的差分隐私合成数据生成主要集中在估计表格数据的隐私统计上，通常使用基于边际的技术或贝叶斯网络[18]、[23]。更近期的研究利用了表达能力强的生成神经网络，正如Hu等人[24]所广泛调查的那样。这与最近的理论观点一致，这些观点认为随机算法可以同时满足技术性能和隐私等伦理要求[25]。现有方法

神经切线核和损失路径核

神经切线核（NTK）[40]是分析大型网络的标准和流行工具。对于具有参数

的

，NTK在初始化时的表现是

，其中

是随机初始化。然而，NTK理论的一个主要限制是它依赖于无限宽度极限，在该极限下假设网络参数保持接近其初始化值。这使得NTK成为一个静态核，在训练开始时基本固定，难以完全捕捉复杂的特征学习

问题设置和威胁模型

本节阐明了我们分析的基础问题设置。我们描述了暴露给黑盒攻击者的发布接口，指定了相邻数据集下的生成机制，并概述了我们在分析中使用的假设和RKHS几何结构。我们的目标是描述在不改变底层差分隐私训练程序的情况下，发布输出的可观察不可区分性。

神经网络中的隐私放大机制

我们现在通过将训练轨迹的几何结构与发布接口的统计特性结合起来，分析发布模型输出的可区分性。

事后审计程序

前面的章节用基于LPK的稳定性、高斯化和方差松弛度来表达黑盒可区分性。我们现在展示了如何从单次DP-SGD训练运行中计算这些量，从而生成一个模型所有者可以在不修改训练流程的情况下应用的实用事后证书。

设

表示由DP-SGD产生的参数路径，步长为

，并且设

与训练数据无关。我们固定一个平滑的校准损失

，其输出有界

实验设置

我们进行了一系列综合仿真，以说明和实证验证我们理论预测的行为。我们在几种实验配置中使用了第6节描述的实际跟踪程序。

讨论与结论

我们的分析表明，DP训练的生成模型的实证隐私主要归因于两种机制：由DP-SGD诱导的函数级别稳定性和高维潜在随机性提供的高斯化。这些效应共同限制了攻击者的可区分能力，解释了为什么模型行为通常看起来比最坏情况计算结果所暗示的更为私密。

该框架依赖于模型的规则性和LPK的近似各向同性。

CRediT作者贡献声明

葛音池：撰写——原始草稿、可视化、验证、方法论、形式分析、概念化。张慧：监督、项目管理、资金获取。孙浩航：验证、方法论。杨海军：撰写——审稿与编辑、监督、方法论、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

葛音池出生于中国辽宁。他目前是北京航空航天大学计算机科学与工程学院的博士候选人。他的研究兴趣主要集中在差分隐私、生成模型和大型语言模型上。他在《信息科学与计算机网络》等期刊上发表了几篇论文。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号