AI 模型会潜意识模仿你的语法吗？深入解读 LLM 的句法适应性

你是否注意到，在和某个特定的朋友相处一段时间后，你开始像他们一样说话？你可能会学会他们的口头禅，匹配他们的语速，甚至开始模仿他们组织句子的方式。在语言学和心理学中，这被称为协同 (alignment) 。这是人类交流的一个基本组成部分——我们潜意识地调整我们的语言以适应对话伙伴，从而建立融洽的关系并确保我们被理解。

我们知道人类会这样做。但是大型语言模型 (LLM) 呢？

我们知道 LLM 可以被明确告知去扮演一个角色 (例如，“像海盗一样说话”或“做一个有用的编程助手”) 。然而，一篇名为 “LLMs syntactically adapt their language use to their conversational partner” 的近期论文研究了一个更微妙的问题: LLM 是否会在对话中自然地调整其语法 (句法) 以匹配其对话者，而无需被告知这样做？

这就好比问: AI 是否有某种“变色龙效应”？本篇博客文章将探讨这项引人入胜的研究，通过拆解作者如何测量 AI 中的这种现象，以及它告诉了我们关于机器对话本质的哪些信息。

人类背景: 我们为何协同

在深入探讨机器之前，我们需要了解人类的基准。当人类交谈时，我们在多个层面上进行协同:

低层级: 语速、姿态和手势。
高层级: 语义 (选词) 和句法 (句子结构) 。

该论文特别关注句法适应 (syntactic adaptation) 。这指的不是重复相同的词，而是重复相同的结构。

例如，如果你说“书被学生交给了老师” (被动语态) ，从统计学上讲，我之后更有可能用被动结构来回应，比如“球被投手投出去了”，而不是用主动语态的“投手投出了球”。

心理语言学家争论这究竟是一种有意识的合作决策，还是一种潜意识的“启动 (priming)”机制。无论原因如何, 现象是清楚的: 人类对话随着时间的推移会表现出句法风格的趋同。研究人员着手观察 GPT-4o 和 Llama-3-8B 是否表现出同样的行为。

核心方法: 研究机器句法

为了在 LLM 中研究这一点，研究人员必须克服两个主要障碍:

定义句法: 我们如何将文本转化为可测量的结构数据？
测量适应性: 我们如何证明模型是在适应其伙伴，而不仅仅是在重复自己？

1. 从句子到规则

为了分析句法，研究人员没有观察原始文本。相反，他们将对话解析为短语结构树 (Phrase Structure Trees) 。

短语结构树将句子分解为其构成的语法部分。这使我们能够提取上下文无关文法 (CFG) 规则 。

图 1: 短语结构树和提取的产生式规则

如上图 1 所示，句子 “we gave the policeman a toy” 并没有被视为一串单词。它被分解为一个层级结构:

S (句子) 分裂为 NP (名词短语) 和 VP (动词短语) 。
VP 进一步分裂为一个 Verb (动词) 和两个 Noun Phrases (名词短语) 。

从这棵树中，研究人员提取了特定的规则，例如 VP -> V NP NP。这种符号表示句子的抽象结构，剥离了具体的词汇。通过分析这些规则的频率，研究人员可以追踪模型的“句法风格”，而不会被对话的主题分散注意力。

2. 数据集: 创造人工个性

如果两个说话者说话的方式已经完全相同，你就无法测量适应性。为了观察 LLM 是否会适应，它们的风格必须存在初始差异。

研究人员创建了一个由 LLM 实例 (GPT-4o 和 Llama-3-8B) 之间的对话组成的数据集。然而，他们并没有只使用默认模型。他们利用系统提示工程设计了 17 种不同的 “语言人格 (Language Personas)” 。其中包括如下指令:

“你的语言富有诗意且引人入胜。”
“你的语言犹豫不决且不确定。”
“你的语言精确且无歧义。”

然后，他们将这些代理两两配对，让它们讨论这个话题: “什么样的一天是美好的一天？” 这产生了一个丰富的对话语料库，其中两个截然不同的“个性”进行了多轮互动。

图 5: GPT-4o 生成的 124 场代理间对话的统计数据 (GPT 语料库) 。

图 5 展示了生成的 GPT-4o 对话的统计数据。你可以在左上角看到，对话内容相当充实，大多徘徊在 1,000 个单词左右。这个长度至关重要，因为句法适应是一个渐进的过程；简短的问答互动无法提供足够的数据来检测趋势。

3. 测量适应性: Reitter & Moore 方法

这是论文中最具技术创新性的部分。作者采用了一种最初由 Reitter 和 Moore (2014) 为人类对话开发的统计方法。

目标是确定在对话的前半部分( PRIME，启动项 )听到某种句法规则，是否会让说话者在后半部分( TARGET，目标项 )更有可能使用相同的规则。

具体逻辑步骤如下:

分割对话: 将每场对话分为两半: PRIME (前 49%) 和 TARGET (后 49%) 。
识别规则: 观察 TARGET 中使用的句法规则。
检查启动效应: 对于在 TARGET 中发现的特定规则，回顾 PRIME 部分。另一位说话者是否使用了这条规则？
对照组 (随机化) : 这一步很关键。仅仅看到规则出现是不够的。我们需要知道它的出现是否是因为这段对话。

为了解决这个问题，研究人员比较了两种情况，如下图所示:

图 2: 分析句法协同的采样过程。样本通过检查同一对话和不同随机对话中的规则出现情况来抽取。

在图 2 中，我们可以看到采样过程:

同对话 (SameConversation, 1): 我们检查规则 \(R_1\) 是否出现在当前对话的 PRIME 中。
不同对话 (Different Conversation, 0): 我们检查规则 \(R_1\) 是否出现在不同说话者之间的随机选择的对话的 PRIME 中。

如果模型正在适应，那么在同对话的 PRIME 和 TARGET 之间应该存在很强的统计关联，而在随机对话中则没有关联 (或关联弱得多) 。

实验与结果

研究人员将这种方法应用于人类的 “Switchboard” 语料库 (作为基准以确保方法有效) 以及他们新的 LLM 语料库。

他们使用了广义线性混合模型 (GLMM) (一种回归分析) 来量化这种效应。他们特别关注 SameConv 变量的系数。一个正的、显著的数字意味着正在发生适应。

回归结果

表 1: Switchboard 语料库 (左) 、GPT 语料库 (中) 和 Llama 语料库 (右) 的回归模型。除了 Llama 语料库中 ln(Freq) 和 ln(Size) 的交互作用外，其他效应均显示出高显著性。

表 1 展示了三个数据集的结果:

Switchboard (人类) : SameConv 值为 0.228 。这证实了我们已知的——人类会进行适应。
GPT 语料库: SameConv 值为 0.198 。
Llama 语料库: SameConv 值为 0.505 。

结论: GPT-4o 和 Llama-3-8B 都表现出具有统计显著性的句法适应。正值表明，如果代理 A 使用了特定的语法结构，代理 B 在随后的对话中使用相同结构的可能性显著高于随机预测。

有趣的是，Llama-3 表现出的适应效应系数甚至比 GPT-4o 还要强，尽管两者都在明显地进行适应。

适应是连续的吗？

回归分析告诉我们适应发生了，但没有告诉我们是如何发生的。模型是瞬间适应的，还是一个渐进的过程？

为了回答这个问题，研究人员进行了细粒度分析。他们追踪了两位说话者句法分布之间的 Jensen-Shannon 散度 (JSD) 随对话进行的变化。JSD 是测量两个概率分布之间“距离”的一种方法。JSD 越低，意味着说话者使用的句法越相似。

不同片段间的 JSD 分数图 3: 代理 5 和 6 之间跨越对话片段的 Jensen-Shannon 散度分数。

图 3 追踪了这一散度在 12 个对话片段 (从开始到结束) 中的变化。

趋势: 对于 GPT (青色) 和 Llama (紫色) ，随着对话的进行，距离通常会减小或稳定在一个较低的水平。
解读: 这表明适应是一个连续过程 。模型并不是在开始时就“设定”好它们的风格；它们在根据对话的上下文不断更新其概率分布。

讨论: 这是“人类”式的协同吗？

结果很清楚: LLM 会在句法上适应它们的伙伴。但作者对机制提出了重要的保留意见。

在人类中，协同通常被理论化为“概念协定” (为了被理解而合作) 或认知启动 (与某种结构相关的神经元被激活) 的结果。

显然，LLM 没有神经元或社交意图。作者提出，LLM 中的这种行为很可能是长上下文条件化 (long-context conditioning) 的结果。现代 LLM 拥有巨大的上下文窗口 (记忆) 。当模型生成回复时，它会在统计上将其输出建立在整个对话历史的基础上。

如果历史记录包含大量的被动语态，那么形成被动语态句子所需的 Token 的概率就会增加。虽然其机制是数学上的而非认知上的，但可观察到的行为与人类的适应惊人地相似。

结论与启示

这篇论文提供了强有力的实证证据，表明大型语言模型的语言风格并非一成不变。即使没有明确的指令，它们也会向对话伙伴的句法模式靠拢。

主要收获:

基础协同: LLM 表现出“类人”的句法协同，这一点已通过测量人类对话的相同统计方法得到证实。
连续过程: 这种适应是在长对话过程中逐渐发生的。
隐性行为: 这是模型处理上下文方式的自然产物，不同于“角色扮演”提示。

这为什么重要? 对于对话系统的设计来说，这是个好消息。一个好的对话助手不应该强迫用户适应它的说话方式；它应该去适应用户。这项研究表明，现代 LLM 已经具备这种隐性协调的能力，这可能会带来更自然、流畅和有效的用户交互。

然而，作者也提出了一个伦理观点: 这种适应会留下“指纹”。如果 LLM 适应得太完美或以特定的、可预测的方式适应，可能会产生可识别的模式，这些模式可能被用于检测 AI 生成的文本或识别特定的模型，从而可能成为一种微妙的、无意的水印。

随着我们继续将 LLM 融入我们的日常生活，理解这些微妙的行为动态变得至关重要。我们不仅仅是在向机器发送指令；我们是在与它们交谈，而事实证明，它们听得比我们想象的还要仔细。

人类背景: 我们为何协同#

核心方法: 研究机器句法#

1. 从句子到规则#

2. 数据集: 创造人工个性#

3. 测量适应性: Reitter & Moore 方法#

实验与结果#

回归结果#

适应是连续的吗？#

讨论: 这是“人类”式的协同吗？#

结论与启示#