BiMarker:利用双极性水印技术提升大型语言模型中的文本水印检测效果

《Neurocomputing》:BiMarker: Enhancing text watermark detection for large language models with bipolar watermarks

【字体: 时间:2026年05月10日 来源:Neurocomputing 6.5

编辑推荐:

  **庄立|邱萍艺|宗城吉|一健路|顺洲|彦琪李|凯昂肖|洪亮梁** 北京邮电大学,北京,中国 **摘要** 大型语言模型(LLMs)的崛起引发了关于如何区分AI生成文本和人类编写内容的担忧,而水印技术为此提供了解决方案。然而,我们发现现有方法在检测准确性方面存在局限

  **庄立|邱萍艺|宗城吉|一健路|顺洲|彦琪李|凯昂肖|洪亮梁**
北京邮电大学,北京,中国

**摘要**
大型语言模型(LLMs)的崛起引发了关于如何区分AI生成文本和人类编写内容的担忧,而水印技术为此提供了解决方案。然而,我们发现现有方法在检测准确性方面存在局限性,因为它们依赖于对人类文本统计的粗略估计。为了解决这一局限,我们提出了BiMarker,一种新型的双极水印和差分检测算法。BiMarker通过添加不同的偏差将文本划分为两个互补的部分——称为正极和负极——从而创建出对比鲜明的绿色标记分布。通过比较这两个极之间的绿色标记分布,而非依赖固定值,BiMarker提高了水印的检测能力。这种方法在不增加计算开销或需要提示信息的情况下增强了检测准确性。理论分析和实验证明了其有效性,并且与现有的基于熵的水印优化方法兼容,为提升LLM生成内容中的水印检测引入了一种新的双极范式。

**引言**
近年来,大型语言模型(LLMs)在自然语言处理领域取得了革命性的进展[6][26][34],但其广泛采用也引发了诸多担忧。这些模型可能被用于恶意目的,如生成假新闻、伪造学术论文以及通过社会工程和虚假信息活动操纵公众舆论[3][16]。此外,网络上合成数据的泛滥使数据集的整理变得更加复杂,因为这些数据通常缺乏人类生成内容的质量,必须在训练过程中进行仔细过滤[29]。因此,开发有效的方法来可靠地区分AI生成的文本和人类编写的文本已成为一个关键且紧迫的任务[2][10][14][39]。

水印技术允许LLMs在生成的内容中嵌入不可察觉的标识符(水印),从而将其与人类编写的文本区分开来。一种关键方法KGW[17]具有高检测性能,并且误报率和漏报率都很低。KGW将模型的词汇表划分为绿色和红色标记,各自的比例分别为和。通过使用一个正常数调整绿色标记的logits,使模型倾向于生成更多绿色标记。在检测过程中,KGW假设人类编写文本中的绿色标记数量遵循高斯分布,其中和表示分析的标记数量。当人类编写文本中的绿色标记数量超过预期值时,文本被水印的可能性增加。尽管KGW表现出高检测性能,但在更严格的检测条件下(特别是在低熵场景下)存在弱点[21]。此外,为了实现更高的准确性并最小化误报,检测方法必须能够有效区分人类编写的水印文本和水印文本,因为在许多情况下误报是无法接受的[13][18][21]。一种直接的策略是增加水印强度,这可以通过增强水印文本和人类编写文本之间的可区分性来解决这个问题,但往往会降低文本质量[35]。

最近的研究提出了算法,旨在通过利用水印文本与熵之间的关系来提高检测到的水印文本的统计显著性[21][24]。然而,这些算法依赖于辅助语言模型来进行词汇划分,当主要模型和辅助模型的分词器不一致时,这种方法并不实用[42]。此外,在检测过程中检索熵值需要访问提示内容。虽然在代码相关任务中已经证明了定制提示的有效性[21][24],但将其应用于一般任务则面临重大挑战。

与以往的工作不同,本文提出了一种新的视角来增强水印文本和人类编写文本之间的区分能力。我们的方法源于观察到现有方法经常忽视了不同场景下人类编写文本分布对检测性能的影响(见第4.1节)。具体来说,以KGW为例,虽然假设人类编写文本中的绿色标记数量遵循一个预期值在理论上是合理的,但在实际场景中这一简化假设经常被违反。在某些情况下,这种假设会降低检测效果。在水印嵌入困难的情况下,水印文本和人类编写文本可能表现出相似的绿色标记预期数量。如果继续将这一固定假设作为人类编写文本的预期值,会导致统计显著性的丧失,从而增加无法有效区分水印文本和人类编写内容的风险。

为了解决由于人类编写文本中绿色标记数量估计不准确而影响检测结果的问题,我们提出了Bipolar WaterMarker(简称BiMarker)。如图1所示,生成文本被分为两部分:正极和负极。正极对应于通过添加正常数来增强绿色标记logits的文本部分,从而加强水印信号;相反,负极表示通过类似方式调整红色标记logits的部分,创建出对比鲜明的分布。这种双极划分允许对标记分布进行差异化比较,而不是与理想的预期计数进行比较,从而利用两个极之间的固有差异来提高水印的检测能力。值得注意的是,这种设计引入了一种新的双极水印范式,超越了传统水印方法的单极性,使其能够在适用的情况下与基于熵的方法无缝集成,突显了我们框架的通用性和前瞻性兼容性。

**总结**
我们工作的主要贡献如下:
• **新维度**:我们揭示了人类编写文本分布估计不准确对检测结果的影响,为提高水印检测能力提供了新的视角。
• **新范式**:我们引入了BiMarker,一种双极水印范式,它结合了差分检测,克服了人类文本分布估计的不确定性,并增强了水印文本和人类编写内容之间的区分能力。与基于熵的方法正交并能够与之无缝结合,它具有高度的通用性和与现有基于熵的水印技术的广泛兼容性。
• **理论证明和实验验证**:我们提供了理论分析,表明我们的方法在不增加误报的情况下提高了水印检测能力。实验结果支持了这些结论。

**相关工作**
文本水印是一种语言隐写技术,旨在将隐藏信息嵌入文本中[8][17][20]。它通常分为两类:针对现有文本的水印技术和针对LLMs的水印技术。

**语言模型基础**
在这里,我们介绍了LLMs的基本概念以及在logits生成阶段嵌入和检测水印的原理。LLM以一个提示作为输入,并生成相应的标记作为响应。具体来说,设初始提示为。在第步中,LLM的输入包括和已经生成的标记序列。基于这个输入,LLM预测下一个标记在词汇表上的概率分布。

**动机**
当前的水印检测通常假设人类编写文本中的绿色标记数量有一个固定的理论预期值(即)。然而,这一假设在实践中经常被违反。我们认为,人类编写文本中的绿色标记数量及其水印对应文本的预期数量遵循类似的趋势:如果特定提示的自然人类编写延续部分包含较少的绿色标记,那么从该提示生成的水印文本也会相应减少绿色标记的数量。

**实验**
我们在本节中展示了我们的评估结果。我们的主要关注点是评估水印的检测能力,而其对文本质量的影响分析在附录D中提供。我们的实现基于KGW的官方代码库[17](https://github.com/jwkirchenbauer/lm-watermarking),正极性与负极性的概率比设置为。

**结论**
在本工作中,我们揭示了人类编写文本中绿色标记计数估计不准确会降低现有算法中的水印检测准确性。为了解决这个问题,我们提出了BiMarker,一种具有差分检测的新双极水印范式。在嵌入过程中,BiMarker在互补的正极和负极中分别增强和抑制绿色标记,以便检测可以利用它们之间的差异。

**作者贡献声明**
庄立:撰写——原始草稿、软件、方法论、概念化。
邱萍艺:撰写——审阅与编辑、监督、概念化。
宗城吉:撰写——原始草稿、调查。
一健路:撰写——原始草稿、可视化。
顺洲:撰写——审阅与编辑、概念化。
彦琪李:方法论。
凯昂肖:软件。
洪亮梁:调查。

**利益冲突声明**
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。
庄立目前在北京邮电大学(BUPT)计算机科学学院攻读博士学位。他的研究兴趣在于软件工程和大型语言模型(LLMs)的交叉领域,特别关注程序分析、LLMs中的隐私和安全问题、LLMs的训练后技术,以及LLMs/代理在软件工程任务中的应用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号