你是否注意到,在和某个特定的朋友相处一段时间后,你开始像他们一样说话?你可能会学会他们的口头禅,匹配他们的语速,甚至开始模仿他们组织句子的方式。在语言学和心理学中,这被称为协同 (alignment) 。 这是人类交流的一个基本组成部分——我们潜意识地调整我们的语言以适应对话伙伴,从而建立融洽的关系并确保我们被理解。

我们知道人类会这样做。但是大型语言模型 (LLM) 呢?

我们知道 LLM 可以被明确告知去扮演一个角色 (例如,“像海盗一样说话”或“做一个有用的编程助手”) 。然而,一篇名为 “LLMs syntactically adapt their language use to their conversational partner” 的近期论文研究了一个更微妙的问题: LLM 是否会在对话中自然地调整其语法 (句法) 以匹配其对话者,而无需被告知这样做?

这就好比问: AI 是否有某种“变色龙效应”?本篇博客文章将探讨这项引人入胜的研究,通过拆解作者如何测量 AI 中的这种现象,以及它告诉了我们关于机器对话本质的哪些信息。

人类背景: 我们为何协同

在深入探讨机器之前,我们需要了解人类的基准。当人类交谈时,我们在多个层面上进行协同:

  • 低层级: 语速、姿态和手势。
  • 高层级: 语义 (选词) 和句法 (句子结构) 。

该论文特别关注句法适应 (syntactic adaptation) 。 这指的不是重复相同的词,而是重复相同的结构

例如,如果你说“书被学生交给了老师” (被动语态) ,从统计学上讲,我之后更有可能用被动结构来回应,比如“球被投手投出去了”,而不是用主动语态的“投手投出了球”。

心理语言学家争论这究竟是一种有意识的合作决策,还是一种潜意识的“启动 (priming)”机制。无论原因如何, 现象是清楚的: 人类对话随着时间的推移会表现出句法风格的趋同。研究人员着手观察 GPT-4o 和 Llama-3-8B 是否表现出同样的行为。

核心方法: 研究机器句法

为了在 LLM 中研究这一点,研究人员必须克服两个主要障碍:

  1. 定义句法: 我们如何将文本转化为可测量的结构数据?
  2. 测量适应性: 我们如何证明模型是在适应其伙伴,而不仅仅是在重复自己?

1. 从句子到规则

为了分析句法,研究人员没有观察原始文本。相反,他们将对话解析为短语结构树 (Phrase Structure Trees)

短语结构树将句子分解为其构成的语法部分。这使我们能够提取上下文无关文法 (CFG) 规则

图 1: 短语结构树和提取的产生式规则

如上图 1 所示,句子 “we gave the policeman a toy” 并没有被视为一串单词。它被分解为一个层级结构:

  • S (句子) 分裂为 NP (名词短语)VP (动词短语)
  • VP 进一步分裂为一个 Verb (动词) 和两个 Noun Phrases (名词短语)

从这棵树中,研究人员提取了特定的规则,例如 VP -> V NP NP。这种符号表示句子的抽象结构,剥离了具体的词汇。通过分析这些规则的频率,研究人员可以追踪模型的“句法风格”,而不会被对话的主题分散注意力。

2. 数据集: 创造人工个性

如果两个说话者说话的方式已经完全相同,你就无法测量适应性。为了观察 LLM 是否会适应,它们的风格必须存在初始差异。

研究人员创建了一个由 LLM 实例 (GPT-4o 和 Llama-3-8B) 之间的对话组成的数据集。然而,他们并没有只使用默认模型。他们利用系统提示工程设计了 17 种不同的 “语言人格 (Language Personas)” 。 其中包括如下指令:

  • “你的语言富有诗意且引人入胜。”
  • “你的语言犹豫不决且不确定。”
  • “你的语言精确且无歧义。”

然后,他们将这些代理两两配对,让它们讨论这个话题: “什么样的一天是美好的一天?” 这产生了一个丰富的对话语料库,其中两个截然不同的“个性”进行了多轮互动。

图 5: GPT-4o 生成的 124 场代理间对话的统计数据 (GPT 语料库) 。

图 5 展示了生成的 GPT-4o 对话的统计数据。你可以在左上角看到,对话内容相当充实,大多徘徊在 1,000 个单词左右。这个长度至关重要,因为句法适应是一个渐进的过程;简短的问答互动无法提供足够的数据来检测趋势。

3. 测量适应性: Reitter & Moore 方法

这是论文中最具技术创新性的部分。作者采用了一种最初由 Reitter 和 Moore (2014) 为人类对话开发的统计方法。

目标是确定在对话的前半部分( PRIME,启动项 )听到某种句法规则,是否会让说话者在后半部分( TARGET,目标项 )更有可能使用相同的规则。

具体逻辑步骤如下:

  1. 分割对话: 将每场对话分为两半: PRIME (前 49%) 和 TARGET (后 49%) 。
  2. 识别规则: 观察 TARGET 中使用的句法规则。
  3. 检查启动效应: 对于在 TARGET 中发现的特定规则,回顾 PRIME 部分。另一位说话者是否使用了这条规则?
  4. 对照组 (随机化) : 这一步很关键。仅仅看到规则出现是不够的。我们需要知道它的出现是否是因为这段对话

为了解决这个问题,研究人员比较了两种情况,如下图所示:

图 2: 分析句法协同的采样过程。样本通过检查同一对话和不同随机对话中的规则出现情况来抽取。

在图 2 中,我们可以看到采样过程:

  • 同对话 (SameConversation, 1): 我们检查规则 \(R_1\) 是否出现在当前对话的 PRIME 中。
  • 不同对话 (Different Conversation, 0): 我们检查规则 \(R_1\) 是否出现在不同说话者之间的随机选择的对话的 PRIME 中。

如果模型正在适应,那么在同对话的 PRIME 和 TARGET 之间应该存在很强的统计关联,而在随机对话中则没有关联 (或关联弱得多) 。

实验与结果

研究人员将这种方法应用于人类的 “Switchboard” 语料库 (作为基准以确保方法有效) 以及他们新的 LLM 语料库。

他们使用了广义线性混合模型 (GLMM) (一种回归分析) 来量化这种效应。他们特别关注 SameConv 变量的系数。一个正的、显著的数字意味着正在发生适应。

回归结果

表 1: Switchboard 语料库 (左) 、GPT 语料库 (中) 和 Llama 语料库 (右) 的回归模型。除了 Llama 语料库中 ln(Freq) 和 ln(Size) 的交互作用外,其他效应均显示出高显著性。

表 1 展示了三个数据集的结果:

  1. Switchboard (人类) : SameConv 值为 0.228 。 这证实了我们已知的——人类会进行适应。
  2. GPT 语料库: SameConv 值为 0.198
  3. Llama 语料库: SameConv 值为 0.505

结论: GPT-4o 和 Llama-3-8B 都表现出具有统计显著性的句法适应。正值表明,如果代理 A 使用了特定的语法结构,代理 B 在随后的对话中使用相同结构的可能性显著高于随机预测。

有趣的是,Llama-3 表现出的适应效应系数甚至比 GPT-4o 还要强,尽管两者都在明显地进行适应。

适应是连续的吗?

回归分析告诉我们适应发生了,但没有告诉我们是如何发生的。模型是瞬间适应的,还是一个渐进的过程?

为了回答这个问题,研究人员进行了细粒度分析。他们追踪了两位说话者句法分布之间的 Jensen-Shannon 散度 (JSD) 随对话进行的变化。JSD 是测量两个概率分布之间“距离”的一种方法。JSD 越低,意味着说话者使用的句法越相似。

不同片段间的 JSD 分数 图 3: 代理 5 和 6 之间跨越对话片段的 Jensen-Shannon 散度分数。

图 3 追踪了这一散度在 12 个对话片段 (从开始到结束) 中的变化。

  • 趋势: 对于 GPT (青色) 和 Llama (紫色) ,随着对话的进行,距离通常会减小或稳定在一个较低的水平。
  • 解读: 这表明适应是一个连续过程 。 模型并不是在开始时就“设定”好它们的风格;它们在根据对话的上下文不断更新其概率分布。

讨论: 这是“人类”式的协同吗?

结果很清楚: LLM 会在句法上适应它们的伙伴。但作者对机制提出了重要的保留意见。

在人类中,协同通常被理论化为“概念协定” (为了被理解而合作) 或认知启动 (与某种结构相关的神经元被激活) 的结果。

显然,LLM 没有神经元或社交意图。作者提出,LLM 中的这种行为很可能是长上下文条件化 (long-context conditioning) 的结果。现代 LLM 拥有巨大的上下文窗口 (记忆) 。当模型生成回复时,它会在统计上将其输出建立在整个对话历史的基础上。

如果历史记录包含大量的被动语态,那么形成被动语态句子所需的 Token 的概率就会增加。虽然其机制是数学上的而非认知上的,但可观察到的行为与人类的适应惊人地相似。

结论与启示

这篇论文提供了强有力的实证证据,表明大型语言模型的语言风格并非一成不变。即使没有明确的指令,它们也会向对话伙伴的句法模式靠拢。

主要收获:

  1. 基础协同: LLM 表现出“类人”的句法协同,这一点已通过测量人类对话的相同统计方法得到证实。
  2. 连续过程: 这种适应是在长对话过程中逐渐发生的。
  3. 隐性行为: 这是模型处理上下文方式的自然产物,不同于“角色扮演”提示。

这为什么重要? 对于对话系统的设计来说,这是个好消息。一个好的对话助手不应该强迫用户适应它的说话方式;它应该去适应用户。这项研究表明,现代 LLM 已经具备这种隐性协调的能力,这可能会带来更自然、流畅和有效的用户交互。

然而,作者也提出了一个伦理观点: 这种适应会留下“指纹”。如果 LLM 适应得太完美或以特定的、可预测的方式适应,可能会产生可识别的模式,这些模式可能被用于检测 AI 生成的文本或识别特定的模型,从而可能成为一种微妙的、无意的水印。

随着我们继续将 LLM 融入我们的日常生活,理解这些微妙的行为动态变得至关重要。我们不仅仅是在向机器发送指令;我们是在与它们交谈,而事实证明,它们听得比我们想象的还要仔细。