你是否有过这样的对话: 你以为对方听懂了你的意思,结果十分钟后发现他们完全不知所云?在人类交流中,为了避免这种情况,需要一个持续、微妙的检查、澄清和确认过程。这被称为 对话共识建立 (Conversational Grounding)

我们知道像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 都是流利的表达者。它们可以写诗、写代码和写文章。但它们是好的倾听者吗?它们真的能与用户建立共同的理解,还是仅仅根据表面模式预测下一个可能的单词?

在论文 “Evaluating the Effectiveness of Large Language Models in Establishing Conversational Grounding” 中,研究人员 Mohapatra、Kapadnis、Romary 和 Cassell 深入探讨了这个问题。他们开发了一个严格的框架来测试 LLM 是否能处理纠正误解这种混乱且动态的本质——他们发现,模型规模比我们想象的更重要。

问题所在: 说话 vs. 理解

在语言学中,“共同基础 (common ground)” 指的是对话参与者共享的知识和假设体系。 对话共识建立 是更新这一共同基础的主动过程。它包括:

  • 修复 (Repairs): 自我纠正 (例如,“那个蓝色的盒子……抱歉,是红色的盒子”) 。
  • 澄清 (Clarifications): 当某些内容模棱两可时进行询问 (例如,“你是说左边的那个吗?”) 。
  • 确认 (Acknowledgements): 确认收到信息。

虽然人类可以凭直觉做到这一点 (通过点头、“嗯嗯”和眼神交流) ,但 AI 模型却很吃力。先前的研究表明,即使是在海量对话数据集上训练的模型,在用户纠正它们时,往往也无法更新其内部状态。然而,测试这一点很难。人工评估既缓慢又昂贵,这使得很难跟上新 LLM 发布的快速步伐。

这篇论文的研究人员提出了一种可扩展的自动化方法,用于评估从 T5 到 GPT-4 等不同规模模型的这些能力。

设置: “Meetup” 游戏

为了测试共识建立能力,你需要一个要求精确理解的场景。研究人员使用了基于二维网格游戏的 Meetup 数据集

在这个场景中,两名参与者处于一个虚拟建筑中。他们互相看不见。为了获胜,他们必须移动到同一个房间。他们必须描述周围的环境 (根据图像生成) ,以此来弄清楚彼此的相对位置。

这种设置非常适合测试共识建立,因为它迫使双方进行协商。如果玩家 A 说“我在厨房”,而玩家 B 说“我也看到一个厨房,你的厨房有冰箱吗?”,他们就是在积极地建立共同基础。

研究人员向模型提供了对话历史、游戏说明以及视觉场景的描述。

向模型提供的输入上下文示例,包含指令、图像描述和对话历史。

如上图 1 所示,模型获得了丰富的上下文,包括时间戳、说话者标签和视觉描述。挑战在于观察当对话变得棘手时模型如何反应。

方法 1: 困惑度测试

我们如何在不让人类打分的情况下衡量模型是否理解了纠正?作者使用了 困惑度 (Perplexity, PPL)

困惑度是对模型对一系列单词感到“惊讶”程度的度量。如果模型理解上下文,它应该给合乎逻辑的回答分配高概率 (即低困惑度) 。如果回答在上下文中讲不通,模型应该感到“惊讶” (高困惑度) 。

困惑度公式

研究人员识别了数据集中的特定“共识建立行为 (Grounding Acts)”——即沟通进行协商的时刻。然后,他们为模型创建了两个可能的回答进行评估:

  1. 正确回答 (The Correct Response): 正确包含共识信息的回答 (例如,确认收到纠正) 。
  2. 欺骗性/错误回答 (The Deceptive/Wrong Response): 在语法和主题上看似合适,但未能考虑共识上下文的回答 (例如,忽略了纠正) 。

理想情况下,一个聪明的模型对“正确回答”的 困惑度应该更低 , 而不是“错误回答”。

测试类别

他们测试了几种语言现象:

  • 修复 (Repair): 说话者纠正自己。模型会更新其知识吗?

  • *示例: * “这是一个黄色的座位……抱歉,是黄色的桌子。” (模型必须寻找桌子) 。

  • 请参阅下方图 7 的修复测试用例可视化。 图 7: 用于测试困惑度的修复实例测试用例示例

  • 取消 (Cancel): 说话者完全撤回信息。

  • *示例: * “我正往北走……实际上忘了吧。”

  • 请参阅下方图 8 的取消测试用例。 图 8: 用于测试困惑度的取消实例测试用例示例

  • 指称歧义 (Reference Ambiguity): 说话者使用了模糊的术语。模型是否意识到需要要求澄清?

  • 请参阅下方图 2。 图 2: 指称歧义测试用例示例

结果: 倾听的“涌现能力”

结果显示,小模型和大模型之间存在明显差距。

研究人员计算了模型正确偏好逻辑回答 (分配较低困惑度) 的测试用例比例。0.50 的分数意味着模型基本上是在随机猜测。

表 2: 正确话语具有较低困惑度的测试用例比例

数据中的关键要点:

  1. 小模型很吃力: 看看表 2 中的 T5 和 Godel 模型。它们的分数徘徊在 0.40–0.50 左右。它们经常偏好 错误 的回答。即使经过微调 (CLM),它们也几乎没有改善。这表明它们依赖于简单的关键词匹配,而不是理解对话的流程。
  2. 规模很重要: Llama-13B 模型的表现明显优于 7B 版本。
  3. 数据很重要: Llama 3.1-8B 模型 (相比最初的 Llama-7B 使用了更多数据进行训练) 的表现与更大的 Llama-13B 相当。

这表明对话共识建立是一种 涌现能力 (emergent capability) 。 它似乎不存在于较小的模型中,而是随着模型变大并消耗更多训练数据而自发出现。

那么 GPT-4 呢?

由于 GPT-4 是闭源的,研究人员无法直接测量困惑度。相反,他们使用了基于提示的测试,要求模型选择最佳回答。

表 4: 从提示中选择正确话语的测试用例比例

如表 4 所示, GPT-4 几乎是完美的 , 在“取消”和“请求修复”等困难类别中得分为 0.95 或 1.00。它展示了较小的开源模型所缺乏的对语用细微差别的稳健理解。

深入探究: 为什么小模型会失败?

研究人员并没有止步于“小模型更差”的结论。他们想知道 原因。为了找出答案,他们设计了一项新颖的 嵌入研究 (Embedding Study)

他们分析了对话的内部向量表示 (嵌入) 。他们为特定对话创建了四个版本:

  1. D1 (原始): 包含共识建立事件 (例如,自我纠正) 。
  2. D2 (干净/无误): 错误从未发生过的转述版本 (直奔主题) 。
  3. D3 (转述): 干净版本的另一种措辞。
  4. D4 (错误): 包含错误信息的版本。

逻辑: 如果一个模型真正理解“我看到一只狗……不对,是一只猫”与“我看到一只猫”的意思是一样的,那么 D1D2 在数学空间中的嵌入应该靠得很近。它们应该远离 D4 (错误信息) 。

图 3: 理想情况的图示,其中 D1 与 D2 的距离应类似于 D3,而 D4 应相距较远

研究人员计算了一个分数 (\(V\)) 来表示这种关系。

分数 V 公式

发现很有启发性: 小模型根据 词汇重叠 (使用相同的单词) 而不是 语义含义 来聚类对话。如果用户说“红盒子……不,蓝盒子”,小模型会关注单词“红”并将其与其他包含“红”的句子联系起来,而未能处理抵消它的“不”字。

然而,大模型显示的嵌入距离反映了对话的 最终含义,实际上从其内部表示中“擦除”了已纠正的错误。

我们能修复它吗?正负奖励训练

团队提出了一种解决方案,帮助中型模型 (如 Llama-7B/13B) 迎头赶上像 GPT-4 这样的巨头,而无需数万亿的参数。

他们使用了 正负奖励训练 (Positive and Negative Reward Training) 。 这种微调技术会明确惩罚模型选择欺骗性的“错误”回答,并奖励其选择正确回答。

损失函数公式

在这个公式中,\(W1\) 和 \(W2\) 是用于平衡正确奖励和错误惩罚的权重。

结果如何? 这对 Llama 模型非常有效。

表 6: 经过正负奖励训练后,正确回答具有较低困惑度的比率

表 6 显示了改进情况。对于 Llama-7B,“指称歧义”的表现从 0.80 跃升至 0.95。模型学会了关注共识建立行为的特定线索。然而,值得注意的是,非常小的模型 (T5) 并没有 改进,这进一步强化了需要一定的容量才能掌握这些概念的观点。

结论与未来启示

这项研究强调了 AI 发展中的一个关键细微差别。我们通常假设如果一个模型表达流利,它就是理解了。这篇论文证明 对话共识建立——协商意义的能力——是一项复杂的认知任务 , 简单的语言建模并不能保证这一点。

主要结论:

  1. 共识建立是涌现的: 只有达到一定规模 (或在海量数据集上训练) 的模型才能自然获得处理修复和取消的能力。
  2. 表面 vs 深度: 小模型主要通过关键词匹配处理对话,而大模型处理的是对话的语用状态。
  3. 针对性训练有效: 我们并不总是需要最大的模型。通过特定的正/负奖励训练,中型模型可以被教导更好地“倾听”。

随着我们迈向更自主的智能体——能够预约、导航界面或充当治疗师的 AI——共识建立变得不可协商。一个不能理解“等等,不是周二,我是说周四”的 AI 是没用的,无论它的道歉多么动听。这篇论文提供了基准和方法,以确保我们未来的 AI 伴侣不仅是在听,而且是真正理解。