想象一下,你正坐在一个开着窗户的房间里。一位朋友走进来,轻轻哆嗦了一下,说: “这里有点冷。”
如果你是一个只懂字面意思的人,你可能会简单地附和: “是的,气温确实很低。”但如果你具备社交语用意识,你就会明白其中的*含意 (implicature) *: 你的朋友希望你关上窗户。
这种字面意义与意图意义之间的差距,正是语用学 (Pragmatics) 的研究领域。对于人类来说,驾驭这些社交细微差别——如含意、讽刺、幽默和隐喻——是直觉性的。但对于大型语言模型 (LLMs) 来说,这却是出了名的困难。虽然 LLM 已经掌握了句法和语义,但它们往往难以领会人类互动中“言外之意”的规则。
在这篇深度文章中,我们将探讨一篇引人入胜的研究论文《重新思考大型语言模型中的语用学》 (Rethinking Pragmatics in Large Language Models) 。该论文认为,在社交技能方面,我们一直用错误的方式来教导和测试 AI。研究人员提出了一种范式转变: 从死板的多项选择评估转向开放式评估,并将标准的训练方法替换为偏好优化 (Preference Optimization) 。
问题所在: 当“正确”还不够时
目前评估 AI 社交智能的方法主要依赖于多项选择问答 (MCQA) 。模型会得到一个场景,并被要求从四个选项中选出正确的解释。
研究人员指出了这种方法的一个致命缺陷: 选对了选项标签 (例如“C”) 并不意味着模型真正理解了社交语境。

如图 1 所示,一个大型模型 (LLAMA2-13B) 在多项选择设置中正确识别了“金标”选项。然而,当要求它解释原因时,它完全失败了,错过了说话者试图“转移话题”这一语用线索。相反,一个较小的模型 (LLAMA2-7B) 在使用本文提出的方法进行微调后,生成了完美的开放式回答,准确把握了社交微妙之处。
这说明了“聪明的汉斯 (Clever Hans) ”效应: 模型可能学会了玩弄多项选择的形式,而没有发展出真正的语用推理能力。此外,现实世界的社交互动很少只有一个“金标”答案。一个回应可能是有礼貌的、粗鲁的、稍微尴尬的或迷人的——这是一个谱系,而不是二元选择。
范式转变 1: 开放式评估
为了解决测量问题,研究人员认为我们必须停止关注分类准确率 (模型选了“C”吗?) ,转而关注生成质量 (模型实际上说了什么?) 。
他们引入了一种称为长度归一化相对分数 (Length-Normalized Relative Score, LNRS) 的新指标。
裁判的角色
由于没有数学公式可以定义“社交尴尬”,研究人员聘请 GPT-4 作为裁判。对于每一个测试场景,模型生成一个自由形式的回答。然后,GPT-4 将此回答与人类标注的“金标”回答进行比较并打分。
基础相对分数 (RS) 计算如下:

这里,\(JS\) 代表“裁判分数 (Judge Score) ”。如果模型的回答与人类参考答案一样好,比率为 1.0。如果更好,则超过 1.0。
啰嗦陷阱
这其中有个陷阱。众所周知,LLM (以及作为裁判的 GPT-4) 有一种偏见: 它们往往更喜欢较长的回答,而不管质量如何。模型可能会通过写冗长、空洞的段落来“利用”系统。为了应对这一点,研究人员对过长的回答施加了惩罚,从而得出了长度归一化相对分数 (LNRS) :

这个公式使用 Sigmoid 函数 (\(\sigma\)) 来调整分数,如果模型的回答 (\(a_{model}\)) 比简洁的金标参考 (\(a_{gold}\)) 长得多,就会受到惩罚。这迫使模型既要在社交上准确,又要简洁。
范式转变 2: 从监督学习到偏好优化
一旦我们有了衡量语用能力的更好方法,我们该如何提高它呢?
行业标准方法是监督微调 (Supervised Finetuning, SFT) 。 在 SFT 中,模型被输入包含问题和“金标”答案的数据集,并被训练以最小化复现该确切答案时的误差。

虽然这对于事实性问题 (例如,“法国的首都是哪里?”) 很有效,但 SFT 对语用学来说是次优的。通过强迫模型将一种特定的社交回应视为唯一正确的词序,SFT 抑制了模型在社交互动灰色地带中导航的能力。
引入偏好优化 (PO)
研究人员建议使用直接偏好优化 (Direct Preference Optimization, DPO) 。 DPO 不会告诉模型“这是唯一正确的答案”,而是提供成对的答案: 一个偏好 (金标) 回应和一个非偏好 (干扰项) 回应。
模型学习增加偏好回应相对于非偏好回应的可能性。

这个目标函数 (\(\mathcal{L}_{DPO}\)) 至关重要。它教导模型区分社交上得体的回应和笨拙的回应,而不仅仅是死记硬背文本。它将模型的内部表示与人类的社交偏好对齐。
实验结果: 基于文本的语用学
研究人员在涵盖讽刺、含意和社交规范的多个数据集 (如 Social-IQA 和 PragMega) 上测试了这些方法。他们比较了三个版本的模型:
- Base: 原始的预训练模型。
- SFT: 使用标准监督微调的模型。
- DPO: 使用偏好优化微调的模型。
结果令人震惊。

如图 2 所示,DPO 微调的模型 (绿色条) 始终比 SFT 模型 (蓝色条) 获得更高的 LNRS 分数。在许多情况下,与基础模型相比, SFT 实际上降低了性能 。 这证实了强行灌输“金标”答案会混淆模型语用推理的假设。
此外,人工评估也支持了这一结论。当人类评委对回答进行评分时,他们发现 DPO 模型生成的回答往往比标注的金标参考更好,提供了更清晰的解释和社交细节。
“免费午餐”?
微调的一个担忧是“灾难性遗忘”——模型会不会变得在社交上很聪明,但在数学上变笨了?研究发现 DPO 提供了“几乎零成本的提升 (near-free launch) ”。模型获得了显著的语用技能,却没失去推理、数学或阅读理解方面的通用能力。相反,SFT 往往会损害这些通用能力。
多模态语用学: 图像指称游戏
社交推理不仅仅关于文本;它需要理解物理世界。为了测试这一点,研究人员利用了图像指称游戏 (Image Referential Game) , 这是一项明确要求具备“心智理论” (Theory of Mind, ToM) 的任务。
设置:
- 说话者 (AI) : 看到一张目标图像 (例如,一个雪人) ,必须写一个标题来帮助听话者识别它。
- 听话者: 必须仅根据标题从一排干扰项中选出目标图像。
- 挑战: 说话者必须预测听话者需要知道什么才能将目标与干扰项区分开来。

如图 3 所示,研究人员将同样的 DPO 方法应用于视觉语言模型 (LLaVA) 。他们使用成对的标题,其中“偏好”标题对图像具有高度特异性,而“非偏好”标题则较为通用。
结果: 多模态领域的结果与文本实验相呼应。

表 2 显示,经过偏好优化 (PO) 的模型显著优于 SFT 模型。R@1 分数 (Rank 1 召回率) ,即衡量听话者在第一次尝试中正确识别图像的频率,从 30.5 (SFT) 跃升至 31.9 (PO)。虽然数字看起来很接近,但在检索任务中,这种一致性是显著的。SFT 模型在几个指标上实际上比基础模型表现更差,这进一步证明了标准监督可能会破坏心智理论所需的微妙能力。
社交推理的解剖: 深层与浅层
最后,研究人员提出了一个深刻的问题: 社交推理发生在 LLM “大脑”的哪里?
他们进行了一项消融研究,对 Transformer 网络的特定层应用偏好优化,同时冻结其他层。在 LLM 术语中,“深层 (deep) ”通常指靠近输入的层 (处理原始意义) ,而“浅层 (shallow) ”指靠近输出的层 (完善表面文本) 。

图 4 揭示了一个迷人的趋势。X 轴代表微调的层范围 (例如,“29-32”意味着只训练了最后几层) 。
图表显示, 语用理解与模型的深层有关 。 当训练仅限于后部层 (x 轴右侧) 时,性能急剧下降。这表明语用学不仅仅是可以应用在生成末端的表面“风格”。它是一个基础的、高级的认知过程,必须整合到模型的核心表示中——这类似于人类的社交推理与高级认知功能相联系的方式。
结论
这项研究为构建更具社交意识的 AI 提供了路线图。它教会了我们三个关键教训:
- 不要只盯着选项字母: 多项选择题的准确率是衡量社交智能的糟糕指标。我们必须评估开放式生成。
- 偏好优于强制: 社交互动是微妙的。偏好优化 (DPO) 的效果明显优于监督微调 (SFT) ,因为它教给模型的是相对质量,而不是绝对正确性。
- 深入核心: 语用学是一种深层认知技能。它存在于模型的基础层中,而非表面。
通过采用这些方法,我们离构建出不仅能理解“这里有点冷”这些字眼,还能理解站在面前那个人的 AI 更近了一步。
](https://deep-paper.org/en/paper/file-3565/images/cover.png)