超越词汇: 揭示 LLM 输出中隐藏的句法模板

如果你花了足够多的时间与像 GPT-4 或 Llama 这样的大型语言模型 (LLM) 交互，你可能已经注意到了它们生成的文本有一种特殊的“调性”。即使内容在事实层面是新的，或者具体的词汇是多变的，往往也有一种熟悉感——一种区别于人类写作的机械节奏或结构上的重复性。

我们通常通过观察 AI 选择的词汇 (词汇多样性) 来评估其语言的多样性。我们会问: “它是否在重复相同的 n-gram (词序) ？”但是，如果重复不在于词汇本身，而在于将其组合在一起的语法框架中呢？

在论文 “Detection and Measurement of Syntactic Templates in Generated Text” 中，研究人员 Chantal Shaib、Yanai Elazar、Junyi Jessy Li 和 Byron C. Wallace 深入研究了这一现象。他们提出，LLM 严重依赖“句法模板”——语法类别的抽象序列——并且通过测量这些模板，可以揭示关于模型如何学习、记忆和生成文本的有趣见解。

问题: 多样性的错觉

当我们训练 LLM 时，我们要它们具有多样性。我们使用采样策略 (如高温度或核采样) 来防止模型重复相同的内容。然而，现有的多样性指标通常关注 token (词) 。

研究人员认为，模型可以在词汇上具有多样性，但在句法上却具有重复性。例如，考虑这两个句子:

“The quick brown fox jumped.”
“A lazy red dog slept.”

从词汇上看，这些句子没有共享任何重要的实词。然而从句法上看，它们是完全相同的: 限定词 -> 形容词 -> 形容词 -> 名词 -> 动词。

如果一个 LLM 生成了数千个遵循这种确切结构的句子，那么它就表现出了一种标准指标所忽略的重复形式。这篇博客文章探讨了作者如何量化这种结构性重复，以及它告诉了我们关于 LLM 记忆的“风格”的哪些信息。

核心方法: 定义句法模板

为了衡量这一现象，作者引入了 句法模板 (Syntactic Templates) 的概念。

从词汇到标签

第一步是抽象化。该方法不再查看原始文本，而是使用标准标注器 (如 SpaCy) 将每个单词转换为其 词性 (Part-of-Speech, POS) 标签。

文本: “The Last Black Man in San Francisco is a poignant, beautifully shot film…”
POS 标签: DT JJ JJ NN IN NNP NNP VBZ DT JJ , RB VBN NN...

通过剥离词汇，我们留下了句子的句法骨架。

识别模板

“模板”被定义为特定的 POS 标签序列 (例如，长度为 \(n=4\) 到 \(8\) 的序列) ，该序列在语料库中频繁出现。作者根据数据集大小来定义“频繁”，但通常，他们会寻找前 100 个最常见的模式。

Sample movie meta-reviews generated by models showing repetitive templates. 图 1: 生成的电影评论示例。高亮部分显示了映射到完全相同的词性序列的不同文本。即使单词不同，底层的句法也是完全相同的。

如图 1 所示，不同的模型 (OLMo-7B 与 Mistral-7B) 偏好不同的模板，但它们都严重依赖模板。

测量句法重复

为了量化文本的“模板化”程度，作者提出了三个关键指标。

1. 压缩率 (CR-POS) 该指标的灵感来自 gzip 等文本压缩算法。如果一个 POS 标签序列非常重复，它可以被高效地压缩。较高的压缩率表示较低的多样性 (更多的重复) 。

Equation for Compression Ratio with POS.

2. 模板率 (TR) 这衡量了语料库中包含至少一个已识别模板的生成文本的百分比。高模板率表明模型依赖公式化的结构来生成输出。

Equation for Template Rate.

3. 每 token 模板数 (TPT) 由于较长的文本在统计上更有可能包含模板，作者通过文本长度对计数进行了归一化。这允许在生成不同长度输出的模型之间进行公平比较。

Equation for Templates-per-Token.

实验设置

研究人员测试了多种模型，包括:

开放模型: OLMo-7B (训练数据可用) 、Mistral-7B、Llama-2 和 Llama-3。
闭源模型: GPT-4o。

他们在从 开放式生成 (从头开始生成文本) 到摘要 (新闻、电影评论和生物医学评论) 的一系列任务上评估了这些模型。

主要发现

1. 模型是“句法鹦鹉”

第一个主要发现是，模型生成模板化文本的比率明显高于人类。

在分析 Rotten Tomatoes 数据集 (电影评论) 时，研究人员发现 95% 的模型生成输出包含长度为 6 的模板。相比之下，人类撰写的参考文本仅在 38% 的情况下包含这些模板。

Incidence of generated text with at least 1 template across models compared to human reference. 图 6: 包含至少一个模板的文本百分比。虚线代表人类撰写的文本。请注意，几乎每个模型 (彩色条) 都明显超过了人类基线，尤其是对于长度为 4、5 和 6 的模板。

即使在用户尝试增加多样性时，这一趋势依然存在。你可能认为提高“温度” (一种使模型更加随机的设置) 会打破这些模板。令人惊讶的是，它并没有。

Table showing that varying temperature does not significantly reduce template usage. 表 1: 即使将温度从 0.8 增加到 0.95，包含模板的文本百分比 (右栏) 仍然居高不下 (约 96-97%) 。虽然词汇多样性可能会增加，但句法结构依然僵化。

2. 模板是在预训练中习得的

这些模板从何而来？它们是“指令微调” (教导模型遵循命令) 的产物吗？

利用 OLMo-7B 模型 (其完整的训练数据和检查点是公开的) ，作者追踪了这些模板的起源。

它们是很早就学会的。 通过测量跨训练检查点的模板困惑度 (衡量模型对序列感到“惊讶”程度的指标) ，研究人员发现模型几乎立即就学会了这些句法模式。

Graph showing perplexity of templates dropping quickly during training. 图 3: 绿线显示了模板 token 的困惑度。请注意它在前几个检查点内急剧下降并保持在低位。模型在完成训练之前很久就已经学会了训练数据的“语法”。

它们来自预训练数据。 研究发现，OLMo 生成的模板中有 76% 可以直接在其预训练数据集 (Dolma) 中找到。这表明模型并不仅仅是发明这些结构或仅从微调中学习它们；它是在反刍其初始训练期间阅读到的常见句法模式。

Bar chart showing high coverage of templates in pre-training data. 图 4: OLMo 生成的模板中有高达 75.4% 存在于预训练数据中。与之相比，“非模板” (绿色条) ，即随机序列被发现的频率要低得多。

此外，模型选择生成的模板不仅仅是随机的独特模式；它们是训练数据中 最频繁 的模式。

Rank frequency plot of templates. 图 5: 蓝色条代表 OLMo 生成的模板。它们主要集中在左侧，意味着它们是预训练数据中排名最高 (最频繁) 的模式之一。

3. 风格记忆 vs. 精确记忆

这引出了论文中最有趣的含义: 记忆 (Memorization) 。

如果要一个模型逐字逐句地输出完全相同的文本，我们通常说它“记忆”了训练数据。然而，这个定义太狭隘了。模型经常在保持确切的句子结构完好无损的同时，对具体的数字产生幻觉或交换同义词。

作者将其定义为 风格 (POS) 记忆 。

Text comparison showing synonym substitution. 图 8: 风格记忆的一个例子。左侧文本是原始训练数据。右侧文本是模型输出。模型将 “lucky” 改为 “some”，将 “shy” 改为 “timid”，并完全更改了美元金额，但句法结构 (POS 序列) 是完全相同的。

这种“软”记忆比精确的文本记忆普遍得多。

Chart comparing exact memorization vs POS memorization. 图 7: 绿色条 (POS 记忆) 始终高于蓝色条 (精确记忆) 。这表明，因为我们只寻找完全匹配，所以我们低估了模型保留了多少训练数据。

结论

Shaib 等人的工作为观察大型语言模型提供了一个新的视角。我们经常惊叹于 AI 的创造力，但这项研究表明，这种“创造力”的很大一部分被注入到了僵化的、预先习得的模具中。

关键要点:

句法僵化: 即使词汇丰富，LLM 在句子结构上也比人类重复得多。
根深蒂固: 这些结构习惯是在预训练早期形成的，并在微调和对齐 (RLHF) 过程中持续存在。
隐性记忆: 如果只寻找精确的文本匹配，我们就会错过“风格记忆”，即模型在替换具体词汇的同时复制了训练数据的句法。

这项研究意味着，如果我们想要真正多样化的 AI 生成，我们需要超越屏幕上的文字，去思考底层的结构。它还表明，句法模板可能是检测数据泄露和理解模型行为来源的有力工具。

超越词汇: 揭示 LLM 输出中隐藏的句法模板#

问题: 多样性的错觉#

核心方法: 定义句法模板#

从词汇到标签#

识别模板#

测量句法重复#

实验设置#

主要发现#

1. 模型是“句法鹦鹉”#

2. 模板是在预训练中习得的#

3. 风格记忆 vs. 精确记忆#

结论#