在大型语言模型 (LLM) 飞速发展的当下,除了 GPT-4 和 Llama 等工具带来的惊人能力外,一个新的挑战也随之浮现: 溯源 。 我们如何判断一段文本是由人类编写的,还是由机器生成的?这不仅仅是学术上的好奇,更对剽窃、虚假信息和版权有着深远的影响。
解决这个问题的首选方案是水印技术 。 与图像上的可见 Logo 不同,文本水印是嵌入在 LLM 词语选择中的一种不可见的统计模式。虽然现有的方法已经取得了长足的进步,但它们存在两个主要缺陷: 往往比较脆弱 (容易通过简单的重写文本来移除) ,并且可能会降低写作质量,使 AI 的语气听起来不自然。
今天,我们将深入探讨一篇引人入胜的研究论文,题为 “Context-aware Watermark with Semantic Balanced Green-red Lists for Large Language Models” (面向大型语言模型的上下文感知语义平衡红绿名单水印) 。研究人员提出了一种新颖的方法,通过理解文本的含义 (语义) 来创建既难以破解又阅读自然的水印。
核心问题: 绿-红名单困境
要理解这项创新,首先需要了解当前水印技术的工作原理。大多数最先进的方法都依赖于一种 “绿-红名单” (Green-Red List) 机制。
想象一下,一个 LLM 正准备生成句子中的下一个词: “The cat sat on the…” (猫坐在……) 在模型选择 “mat” (垫子) 之前,水印算法会介入:
- 它查看前一个 Token (例如 “the”) 。
- 它使用前一个 Token 的哈希值作为种子来生成随机数。
- 它将整个词表分为两个列表: 绿名单和红名单 。
- 它强制 (或强烈鼓励) 模型从绿名单中选择一个词。
如果检测器看到一段文本中,来自这些“绿名单”的词汇数量在统计上是不可能的 (过多) ,它就知道这段文本是 AI 生成的。
漏洞
虽然这种方法很聪明,但它有裂痕:
- 改写攻击 (Paraphrasing Attacks) : 如果用户拿着 AI 生成的文本,让另一个 AI “重写这段话”,特定的词序就会改变。由于绿/红划分依赖于确切的前一个 Token,将 “The cat sat” 改为 “The feline rested” 会完全改变随机种子。检测器也就丢失了信号。
- 质量下降: 随机划分词表是有风险的。如果上下文需要 “happy” (快乐) 这个词,但不幸的是 “happy”、“glad” 和 “joyful” 都被分到了红名单里怎么办?模型被迫选择一个次优的绿名单词汇,导致文本看起来很奇怪。
这篇论文背后的研究人员认为,解决方案在于语义 。 水印不应将词语视为随机 Token,而应尊重上下文的含义。
解决方案: 语义感知框架
该方法提出了一个复杂的流程,以平衡文本质量和鲁棒性。该架构建立在三个主要支柱之上:
- 基于上下文感知的语义水印密钥生成器 (使用 LSH) 。
- 基于语义的绿-红名单划分 。
- 基于熵的动态偏置调整 。
在拆解数学原理之前,让我们先看看高层架构。

如上图 1 所示,该过程与标准生成并行运行。当 LLM 思考下一个词 (“mats”) 时,水印系统根据上下文 (“on”) 计算语义密钥,智能地划分词表,并根据模型的置信度调整概率偏置。
1. 锚点: 通过 LSH 生成上下文感知密钥
第一项创新解决了改写攻击 。 在标准方法中,“密钥” (随机种子) 来自前一个 Token 的原始文本。如果你改变了词,你就丢失了密钥。
该方法转而从上下文的语义嵌入中派生密钥。它使用了一种称为局部敏感哈希 (LSH) 的技术。
什么是 LSH? 标准哈希 (如 SHA-256) 旨在避免碰撞;改变一个字母就会改变整个哈希值。LSH 则相反: 它的设计目的是让相似的输入产生相同的哈希值。
研究人员将上下文嵌入投影到向量空间中的随机超平面上。如果两个上下文 (如 “The cat sat on…” 和 “The feline rested on…”) 含义相似,它们的嵌入将落在这些超平面的同一侧,从而产生相同的二进制哈希密钥。
向量 \(v\) 在第 \(i\) 个超平面上的哈希值的数学公式为:

这里,\(r^i\) 是定义超平面的随机法向量。如果点积为正,则该位为 1;否则为 0。通过组合多个超平面,它们生成了一个鲁棒的密钥。
为何这很重要: 即使这用户改写了文本,只要含义保持不变,水印检测器就很可能推导出相同的密钥并成功识别绿名单。
2. 划分: 基于语义的绿-红名单
标准方法随机划分词表。本文建议基于语义簇进行划分。
过程如下:
- 分组: 算法使用 LSH 将整个词表分组为“语义集”。含义相似的词 (例如 “happy”、“elated”、“joyous”) 最终会进入同一个集合。
- 划分: 在每个小的语义集内部,算法执行绿/红划分。
- 合并: 所有小的绿名单被合并成主绿名单。
好处: 这确保了语义覆盖 。 如果模型想要表达一个特定的概念 (比如“幸福”) ,标准的随机划分可能会意外地禁止所有与幸福相关的词。通过在簇内部进行划分,该方法保证了在绿名单中始终至少有一些与“幸福”相关的词可用。这大大减少了通常与水印相关的性能下降。
3. 调整: 基于熵的动态偏置
并非所有的预测都是平等的。有时 LLM 99% 确定下一个词是 “Paris” (例如在 “The capital of France is” 之后) 。而在其他时候,下一个词可能是任何东西。
- 低熵 (高确定性) : 如果模型很确定,仅仅为了满足绿名单而强制使用不同的词会破坏文本质量。
- 高熵 (高不确定性) : 如果模型有许多有效的选项,我们可以积极地偏向绿名单词汇而不损害质量。
研究人员引入了一个动态偏置 \(\delta'\),它根据概率分布的熵进行缩放:
![]\n\\delta ^ { \\prime } ( s ) = \\delta \\cdot { \\frac { 1 } { e n t r o p y ( s ) + \\phi } }\n[](/en/paper/file-2892/images/003.jpg#center)
如方程所示,这是一种反比关系。当熵较高 (不确定性大) 时,分母变大,这可能会降低偏置以防止在高度创造性的片段中降低质量?实际上,仔细看论文中的逻辑:
通常的逻辑是:
- 高熵: 许多好的选择。推动使用绿名单 Token 是安全的。
- 低熵: 只有一个好的选择。如果最佳词汇是红名单的,强制使用绿名单 Token 会破坏句子。
论文指出固定偏置是问题所在。他们使用熵的倒数。
- 如果熵低 (模型很确定) ,项 \(\frac{1}{entropy}\) 变得大。这增加了偏置强度 \(\delta'\) 以确保绿名单 Token 被选中 (因为为了维持水印,模型实际上必须选择绿名单 Token,即使这很困难) 。等等,这为了质量似乎是反直觉的,但对于鲁棒性来说是必不可少的。
- 如果熵高,该项变小,应用较温和的偏置。
注: 论文创建了一个平衡因子 \(\phi\) 来控制这种缩放。这种机制有助于平衡保持水印可检测性 (鲁棒性) 和保持文本可读性之间的权衡。
水印检测
检测水印遵循标准的统计方法 (Z分数) ,但使用语义密钥来重构列表。检测器计算可疑文本中有多少 Token 落入计算出的绿名单中。
![]\nz = { \\frac { T - \\gamma N } { \\gamma ( 1 - \\gamma ) N } }\n()](/en/paper/file-2892/images/004.jpg#center)
这里,\(T\) 是发现的绿名单 Token 数量,\(N\) 是总 Token 数,\(\gamma\) 是预期比例 (通常为 0.5) 。高 Z分数允许我们拒绝零假设,并断定文本是 AI 生成的。
实验结果
研究人员使用 C4 RealNews 数据集,将他们的方法与几个基线模型 (包括 KGW、Unigram 和 EWD) 进行了测试。他们主要在两个方面进行了评估: 鲁棒性 (它能抵御攻击吗?) 和质量 (文本看起来还好吗?) 。
抗改写攻击的鲁棒性
结果令人瞩目。下表比较了在“无攻击”、“Pegasus 攻击” (一种摘要模型) 和“Dipper 攻击” (一种重度改写器) 下的方法。

查看 Dipper Attack 列 (最难的攻击) 。
- 像 KGW 这样的标准方法下降到 0.5380 的 TPR (真阳性率) 。
- EWD 下降到 0.5060 。
- 提出的方法( Ours )保持了 0.7880 的 TPR。
这证实了使用语义密钥 (LSH) 极大地帮助了检测器识别水印,即使在词语被改写器打乱之后。
文本质量 (困惑度)
这种鲁棒性是否以牺牲可读性为代价?为了衡量这一点,研究人员使用了困惑度 (PPL) ——衡量模型对文本感到“惊讶”程度的指标。困惑度越低越好 (更自然) 。

图 2 显示了困惑度分数的分布。虚线代表无水印的基线。
- KGW-Large 和 EXP-Edit 显示出在 Y 轴较高位置的“较胖”分布,表明文本质量较差。
- Ours (最右边的小提琴图) 的分布形状和位置与无水印文本非常相似。
这验证了假设: 通过确保语义平衡列表 , 算法总能找到适合上下文的“绿色”词汇,避免了其他水印中常见的尴尬措辞。
验证语义覆盖
为了再次确认为什么质量更好,研究人员分析了所选绿名单 Token 的语义相似度。

表 4 显示,对于任何给定的词,基于语义的绿名单 (Ours) 包含的同义词比标准的随机列表 (KGW) 具有更高的相似度得分。这在数学上证明了该方法在生成过程中提供了更好的词汇选项。
此外,表 5 显示了绿名单 Token 分布的标准差。

较低的标准差意味着更均匀的分布。这意味着基于语义的列表更均匀地覆盖了“意义空间”,避免了没有好词可用的“空洞”。
效率
有人可能会担心计算 LSH 和语义簇会很慢。然而,研究人员比较了生成和检测时间。

如表 8 所示,所提出的方法 (“Ours”) 的生成时间 (4.37秒) 和检测时间 (0.04秒) 与最快的基线相当。在检测期间,它比像 EXP-Edit 这样的方法快得多。与 LLM 本身的推理时间相比,哈希语义向量的开销可以忽略不计。
结论与启示
论文 “Context-aware Watermark with Semantic Balanced Green-red Lists” 代表了负责任 AI 领域向前迈出的重要一步。通过从随机 Token 操作转向语义理解 , 研究人员实现了艰难的双重胜利:
- 高鲁棒性: 当用户试图通过重写文本来隐藏水印时,水印依然存活。
- 高质量: 水印对读者保持不可见,维持了语言的自然流畅。
这种方法表明,AI 安全的未来在于理解生成内容的内容,而不仅仅是原始统计数据。随着 LLM 越来越融入社会,鲁棒且高质量的水印将是维持数字媒体信任的关键。
对于 NLP 领域的学生和研究人员来说,这篇论文是一个完美的例子,展示了如何将经典算法 (如 LSH) 与现代生成模型相结合,以解决 AI 系统中的结构性弱点。从“Token 级”到“语义级”操作的转变,是我们可能会在 LLM 开发的许多领域看到的趋势。
](https://deep-paper.org/en/paper/file-2892/images/cover.png)