综述：RWP：一种用于稳定扩散模型中版权归属和保护的强大水印插件

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：RWP: A Robust Watermarking Plugin for Attribution and Protection in Stable Diffusion Models

【字体：大中小】 时间：2026年01月24日 来源：Neural Networks 6.3

编辑推荐：

　　扩散模型商业应用中提出可逆加密水印插件RWP，通过嵌入用户与模型双重水印序列实现精准追踪，提升20-50%识别准确率且不影响图像质量，支持400+用户识别。

刘宗新|张金宏|董云云|宋冰冰|周伟

云南大学国家软件试点学院，昆明，650504，中国云南

摘要

扩散模型在内容生成方面取得了显著的成功，推动了各种定制模型的快速发展。然而，这一进展也带来了来源追踪方面的重大挑战，包括黑盒模型的滥用和误导性生成内容的传播。水印技术作为一种潜在的解决方案应运而生。然而，现有方法在复杂的AI驱动的商业场景中存在局限性，例如用户追踪不准确以及无法有效防止模型被滥用。为了克服这些挑战，我们提出了RWP，这是一种专为AI商业应用设计的强大水印插件。我们的方法通过结合一个可逆加密模块将可追踪的水印信息直接嵌入到扩散模型的生成过程中，该模块生成独特的变换序列。这种设计使得在商业扩散模型中追踪大量用户成为可能。与需要微调或重新训练扩散模型架构的先前方法不同，我们的方法不对扩散模型本身进行任何修改，可以作为插件集成。这显著提高了水印系统的部署效率。实验结果表明，与AquaLoRA相比，我们的方法在图像到图像翻译和修复攻击中的追踪准确性提高了20-50%，同时保持了高视觉保真度，从而证明了其实际的有效性和鲁棒性。此外，所提出的框架将可追踪的用户容量从现有的48-64位扩展到了超过400位，实现了更精细的用户识别。这些结果验证了RWP在大型商业场景中的实用性，并为AI生成内容的版权保护和责任追究提供了可靠的技术支持。

引言

生成模型的最新进展催生了强大的基于扩散的架构，包括Stability AI的Stable Diffusion（Rombach等人，2022年）、OpenAI的DALL·E 3（Betker等人，2023年）和Google的Parti（Yu等人，2022年）。其中，Stable Diffusion成为最突出的扩散模型，提供了多个版本，使用户能够轻松生成高质量图像。随着扩散模型越来越多地集成到商业应用中，关于可追踪性和责任性的担忧也显著增加（Liu等人，2025年；Qi, Chen, Gao, Li, Liu, Wu, Zhou, 2024a；Qi, Gao, Luo, Liu, Wu, & Zhou；Schramowski等人，2023年）。

这些担忧可以分为四个主要方面：（1）内容盗用。原创艺术作品（如手绘插图和摄影创作）一旦公开发布，就很容易被未经授权地二次使用。这种使用包括重新着色、结构修改和风格转换，然后被用于商业广告或产品设计。这些做法常常严重侵犯原始创作者的权利。（2）作品盗用。创作者使用扩散模型生成的高质量图像经常被模型提供商或平台未经适当授权地盗用。这些输出随后被用作营销活动或产品演示中的宣传材料。（3）恶意生成。基于扩散的生成模型的高保真度使恶意行为者能够创建高度逼真的合成图像，用于有害目的，如身份伪造、虚假新闻传播、谣言传播或非法内容生成。这些输出在视觉上往往与真实图像无法区分，从而带来重大的公众误导和社会危害（Zhong等人，2023年）。（4）API密钥泄露。随着AI图像生成服务对开发者和公众的日益普及，安全的API密钥管理变得至关重要，以确保内容控制。然而，在实际部署中，API密钥经常通过代码注入攻击在恶意网站或钓鱼页面上暴露。在这种情况下，攻击者可以利用泄露的凭据冒充原始平台，从而绕过认证和审计机制。这可能导致大量伪造或违反政策的内容的产生，导致责任归属错误，并使合法用户面临重大的法律和声誉风险。

一些传统的水印方法（Al-Haj，2007年；Rahman，2013年；Zhang等人，2019年）已被用作保护扩散模型的临时解决方案。随后，研究人员提出了各种专门为扩散模型设计的水印技术（Feng等人，2024年；Fernandez等人，2023年；Hu等人，2024年；Luo等人，2025年；Ma等人，2024年；Min等人，2024年；Wen等人，2023年；Yang等人，2024年），目标包括图像生成质量、水印鲁棒性和白盒水印。然而，基于训练的方法（Feng等人，2024年；Fernandez等人，2023年；Ma等人，2024年；Min等人，2024年）通常需要对扩散模型进行微调或结构修改，限制了它们快速、即插即用的部署能力。相比之下，无需训练的方法（Ci等人，2024b；Wen等人，2023年；Yang等人，2024年）往往会导致水印图像与其原始图像之间存在明显差异，影响视觉一致性。此外，现有方法无法同时解决（2）和（4）方面的问题。当水印信息完全由用户控制时，就无法追踪有害或伪造内容的来源，因为用户可以任意伪造或修改嵌入的水印。相反，当水印控制完全在模型提供商手中时，API密钥泄露可能导致责任归属错误。

为了解决上述问题，我们提出了RWP，这是一种集成到扩散模型中的强大水印插件。与需要微调或重新训练扩散模型的先前方法不同（Feng等人，2024年；Fernandez等人，2023年；Min等人，2024年），RWP将水印信息直接嵌入到图像生成过程中，而不改变模型架构，确保水印模块可以低成本部署。具体来说，二进制水印序列分为两部分：前

n ? k 位由用户定义，用于标识生成实体，而剩余的

k位由模型提供商分配，用于表示模型身份。这种组合水印被转换并嵌入到潜在表示中，然后集成到去噪过程中以生成带水印的图像。为了提高水印的安全性和唯一性，我们引入了一个可逆加密模块，为每个用户生成独特的变换序列。这些序列由模型提供商安全维护，并用于排列编码水印的位顺序。这种设计使RWP支持双路径追踪策略。如果用户的权利受到侵犯，他们可以主动向第三方提供他们的水印信息以进行所有权验证。相反，当需要对可疑图像进行法医追踪时，第三方可以遍历所有可能的变换序列和解码器配置，以识别负责生成的模型和用户。整个过程如图1所示。在训练过程中，我们仔细设计了损失函数，以确保带水印的图像在视觉上与原始图像无法区分，并实现高鲁棒性。我们的贡献可以总结如下。

•

基于插件的可用性。 RWP被设计为一个轻量级的水印模块，可以无缝集成到现有的扩散模型管道中，无需对扩散模型架构进行任何训练或微调。这确保了广泛的兼容性和易于在各种生成平台上部署。

•

平衡的利益相关者保护。 RWP引入了双路径追踪策略，实现了用户和模型提供商利益的平衡保护。该方法对图像质量的影响相对较小，保持了生成结果的自然性和真实性。

•

增强的安全性和可扩展性。

我们引入了一个可逆加密模块，生成用户特定的变换序列，显著增强了嵌入水印的安全性和防伪能力。这一策略还扩大了用户识别范围，使系统能够区分比现有水印方法更多的用户。

•

强大的有效性。

大量的实验结果表明，RWP能够实现可靠的水印解码和追踪，对常见干扰具有很强的鲁棒性，非常适合在商业AI生成内容平台中的实际部署。

部分摘录

图像水印

图像水印技术的发展已经从传统的信号处理方法进步到基于深度学习的方法。早期技术主要在变换域操作（Al-Haj，2007年；Hamidi等人，2018年；Rahman，2013年），专注于提高不可察觉性和实现基本的鲁棒性。然而，这些方法通常具有有限的嵌入能力和薄弱的安全保障，容易受到复杂篡改的影响

初步

扩散模型通过迭代去噪高斯样本来生成数据，使其非常适合图像重建和逆问题。我们的工作利用了预训练扩散模型的去噪和反演能力，而不是专注于训练或前向噪声污染过程。

给定一个噪声输入x_t，模型使用噪声预测函数?_θ(x_t, t)来估计并去除每一步的噪声，逐步恢复干净的数据x₀。标准去噪

概述

我们方法的整个流程如图2所示。实线以上是训练阶段，在此期间我们将水印信息嵌入到扩散模型的生成过程中。嵌入网络（Enc）和提取网络（Dec）共同训练以实现水印嵌入和提取。此外，还集成了一个可逆加密模块，以增加可识别用户的数量并进一步提高水印的隐蔽性。

实验设置

数据集。在评估阶段，我们使用了三个公开可用的数据集——COCO2017（Lin等人，2014年）、DiffusionDB（Wang等人，2023年）和LAION-Aesthetics（Schuhmann等人，2022年），以全面评估所提出方法在真实图像和AI生成图像上的效果。具体来说，我们从每个数据集的测试部分随机抽取了1,200对提示-图像对进行评估。

对于训练数据，为了确保生成的图像涵盖了典型的场景和对象类别

结论

在本文中，我们提出了RWP，这是一个针对复杂的黑盒商业扩散场景设计的强大且高效的水印框架。RWP将水印分解为用户水印和模型水印，在图像生成过程中共同嵌入。这种双标记策略在API密钥泄露等情况下提供了强大的保护，防止攻击者冒充合法用户生成有害或违反政策的内容。通过验证

CRediT作者贡献声明

刘宗新：写作 – 审稿与编辑，撰写原始草稿，软件，方法论，数据策划。张金宏：写作 – 审稿与编辑。董云云：写作 – 审稿与编辑。宋冰冰：写作 – 审稿与编辑。周伟：写作 – 审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作得到了云南省专家工作站（授权号202305AF150078）、国家自然科学基金（授权号62162067、62562061、62502422和62462067）、云南省基础研究项目（授权号202401AT070474、202501AU070059）、云南省专项项目（授权号202403AP140021）以及云南省教育厅科学研究项目（授权号2025J0006、2024J0010和2025J0007）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号