超越词汇: 揭示 LLM 输出中隐藏的句法模板
如果你花了足够多的时间与像 GPT-4 或 Llama 这样的大型语言模型 (LLM) 交互,你可能已经注意到了它们生成的文本有一种特殊的“调性”。即使内容在事实层面是新的,或者具体的词汇是多变的,往往也有一种熟悉感——一种区别于人类写作的机械节奏或结构上的重复性。
我们通常通过观察 AI 选择的词汇 (词汇多样性) 来评估其语言的多样性。我们会问: “它是否在重复相同的 n-gram (词序) ?”但是,如果重复不在于词汇本身,而在于将其组合在一起的语法框架中呢?
在论文 “Detection and Measurement of Syntactic Templates in Generated Text” 中,研究人员 Chantal Shaib、Yanai Elazar、Junyi Jessy Li 和 Byron C. Wallace 深入研究了这一现象。他们提出,LLM 严重依赖“句法模板”——语法类别的抽象序列——并且通过测量这些模板,可以揭示关于模型如何学习、记忆和生成文本的有趣见解。
问题: 多样性的错觉
当我们训练 LLM 时,我们要它们具有多样性。我们使用采样策略 (如高温度或核采样) 来防止模型重复相同的内容。然而,现有的多样性指标通常关注 token (词) 。
研究人员认为,模型可以在词汇上具有多样性,但在句法上却具有重复性。例如,考虑这两个句子:
- “The quick brown fox jumped.”
- “A lazy red dog slept.”
从词汇上看,这些句子没有共享任何重要的实词。然而从句法上看,它们是完全相同的: 限定词 -> 形容词 -> 形容词 -> 名词 -> 动词。
如果一个 LLM 生成了数千个遵循这种确切结构的句子,那么它就表现出了一种标准指标所忽略的重复形式。这篇博客文章探讨了作者如何量化这种结构性重复,以及它告诉了我们关于 LLM 记忆的“风格”的哪些信息。
核心方法: 定义句法模板
为了衡量这一现象,作者引入了 句法模板 (Syntactic Templates) 的概念。
从词汇到标签
第一步是抽象化。该方法不再查看原始文本,而是使用标准标注器 (如 SpaCy) 将每个单词转换为其 词性 (Part-of-Speech, POS) 标签。
- 文本: “The Last Black Man in San Francisco is a poignant, beautifully shot film…”
- POS 标签:
DT JJ JJ NN IN NNP NNP VBZ DT JJ , RB VBN NN...
通过剥离词汇,我们留下了句子的句法骨架。
识别模板
“模板”被定义为特定的 POS 标签序列 (例如,长度为 \(n=4\) 到 \(8\) 的序列) ,该序列在语料库中频繁出现。作者根据数据集大小来定义“频繁”,但通常,他们会寻找前 100 个最常见的模式。
图 1: 生成的电影评论示例。高亮部分显示了映射到完全相同的词性序列的不同文本。即使单词不同,底层的句法也是完全相同的。
如图 1 所示,不同的模型 (OLMo-7B 与 Mistral-7B) 偏好不同的模板,但它们都严重依赖模板。
测量句法重复
为了量化文本的“模板化”程度,作者提出了三个关键指标。
1. 压缩率 (CR-POS) 该指标的灵感来自 gzip 等文本压缩算法。如果一个 POS 标签序列非常重复,它可以被高效地压缩。较高的压缩率表示较低的多样性 (更多的重复) 。

2. 模板率 (TR) 这衡量了语料库中包含至少一个已识别模板的生成文本的百分比。高模板率表明模型依赖公式化的结构来生成输出。

3. 每 token 模板数 (TPT) 由于较长的文本在统计上更有可能包含模板,作者通过文本长度对计数进行了归一化。这允许在生成不同长度输出的模型之间进行公平比较。

实验设置
研究人员测试了多种模型,包括:
- 开放模型: OLMo-7B (训练数据可用) 、Mistral-7B、Llama-2 和 Llama-3。
- 闭源模型: GPT-4o。
他们在从 开放式生成 (从头开始生成文本) 到 摘要 (新闻、电影评论和生物医学评论) 的一系列任务上评估了这些模型。
主要发现
1. 模型是“句法鹦鹉”
第一个主要发现是,模型生成模板化文本的比率明显高于人类。
在分析 Rotten Tomatoes 数据集 (电影评论) 时,研究人员发现 95% 的模型生成输出包含长度为 6 的模板。相比之下,人类撰写的参考文本仅在 38% 的情况下包含这些模板。
图 6: 包含至少一个模板的文本百分比。虚线代表人类撰写的文本。请注意,几乎每个模型 (彩色条) 都明显超过了人类基线,尤其是对于长度为 4、5 和 6 的模板。
即使在用户尝试增加多样性时,这一趋势依然存在。你可能认为提高“温度” (一种使模型更加随机的设置) 会打破这些模板。令人惊讶的是,它并没有。
表 1: 即使将温度从 0.8 增加到 0.95,包含模板的文本百分比 (右栏) 仍然居高不下 (约 96-97%) 。虽然词汇多样性可能会增加,但句法结构依然僵化。
2. 模板是在预训练中习得的
这些模板从何而来?它们是“指令微调” (教导模型遵循命令) 的产物吗?
利用 OLMo-7B 模型 (其完整的训练数据和检查点是公开的) ,作者追踪了这些模板的起源。
它们是很早就学会的。 通过测量跨训练检查点的模板困惑度 (衡量模型对序列感到“惊讶”程度的指标) ,研究人员发现模型几乎立即就学会了这些句法模式。
图 3: 绿线显示了模板 token 的困惑度。请注意它在前几个检查点内急剧下降并保持在低位。模型在完成训练之前很久就已经学会了训练数据的“语法”。
它们来自预训练数据。 研究发现,OLMo 生成的模板中有 76% 可以直接在其预训练数据集 (Dolma) 中找到。这表明模型并不仅仅是发明这些结构或仅从微调中学习它们;它是在反刍其初始训练期间阅读到的常见句法模式。
图 4: OLMo 生成的模板中有高达 75.4% 存在于预训练数据中。与之相比,“非模板” (绿色条) ,即随机序列被发现的频率要低得多。
此外,模型选择生成的模板不仅仅是随机的独特模式;它们是训练数据中 最频繁 的模式。
图 5: 蓝色条代表 OLMo 生成的模板。它们主要集中在左侧,意味着它们是预训练数据中排名最高 (最频繁) 的模式之一。
3. 风格记忆 vs. 精确记忆
这引出了论文中最有趣的含义: 记忆 (Memorization) 。
如果要一个模型逐字逐句地输出完全相同的文本,我们通常说它“记忆”了训练数据。然而,这个定义太狭隘了。模型经常在保持确切的句子结构完好无损的同时,对具体的数字产生幻觉或交换同义词。
作者将其定义为 风格 (POS) 记忆 。
图 8: 风格记忆的一个例子。左侧文本是原始训练数据。右侧文本是模型输出。模型将 “lucky” 改为 “some”,将 “shy” 改为 “timid”,并完全更改了美元金额,但句法结构 (POS 序列) 是完全相同的。
这种“软”记忆比精确的文本记忆普遍得多。
图 7: 绿色条 (POS 记忆) 始终高于蓝色条 (精确记忆) 。这表明,因为我们只寻找完全匹配,所以我们低估了模型保留了多少训练数据。
结论
Shaib 等人的工作为观察大型语言模型提供了一个新的视角。我们经常惊叹于 AI 的创造力,但这项研究表明,这种“创造力”的很大一部分被注入到了僵化的、预先习得的模具中。
关键要点:
- 句法僵化: 即使词汇丰富,LLM 在句子结构上也比人类重复得多。
- 根深蒂固: 这些结构习惯是在预训练早期形成的,并在微调和对齐 (RLHF) 过程中持续存在。
- 隐性记忆: 如果只寻找精确的文本匹配,我们就会错过“风格记忆”,即模型在替换具体词汇的同时复制了训练数据的句法。
这项研究意味着,如果我们想要真正多样化的 AI 生成,我们需要超越屏幕上的文字,去思考底层的结构。它还表明,句法模板可能是检测数据泄露和理解模型行为来源的有力工具。
](https://deep-paper.org/en/paper/2407.00211/images/cover.png)