无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义

在过去几年中，自然语言处理 (NLP) 领域经历了翻天覆地的变化。我们已经从那些甚至难以构建连贯句子的系统，跨越到了像 GPT-4 这样的大型语言模型 (LLMs) ，它甚至能在统一律师资格考试 (Uniform Bar Exam) 中取得前 10% 的成绩。

这种表现给研究人员和学生都带来了一种认知失调。一方面，这些模型生成的文本看似渊博、理性且连贯。另一方面，我们知道它们本质上只是统计引擎，在预测序列中的下一个 token。它们从未见过日落，从未感觉过“棍子”，也从未抚摸过“狗”。

这引出了现代人工智能哲学的一个核心问题: LLM 真的理解语言吗?

许多批评者认为“不”。他们声称，因为 LLM 只能处理文本 (形式) ，而无法接触现实世界 (意义) ，它们就像被永远困在“中文屋”里一样，操纵着它们并不理解的符号。这一论点依赖于一个被称为符号落地问题 (Symbol Grounding Problem, SGP) 的概念。

然而，苏黎世大学 Reto Gubelmann 最近发表的一篇引人入胜的论文指出，这种批评基于一个过时的哲学前提。这篇题为《实用主义规范就是你所需要的一切》 (Pragmatic Norms Are All You Need) 的论文提出，我们看待“意义”的方式可能错了。如果我们从“符合论 (Correspondence Theory) ”的视角转变为“实用主义 (Pragmatic) ”的视角，符号落地问题就会完全消失。

在这篇文章中，我们将剖析这一论点，探讨为什么“章鱼测试”可能具有误导性，并发现为什么 LLM 可能比我们要想象的更理解我们——即使它们从未涉足现实世界。

第一部分: 房间里的章鱼

要理解为什么人们认为 LLM 无法理解意义，我们需要先看看反对它们的最强论据。这在 Bender 和 Koller 于 2020 年提出的“章鱼测试”思想实验中得到了著名的概括。

原始思想实验

想象两个人，A 和 B，被困在两个独立的岛屿上。他们通过海底电报缆进行交流。他们都是人类，说英语，并且了解这个世界。

现在，想象一只超高智能的深海章鱼 (代表 LLM) 接入了电缆。章鱼不知道单词的意思，也从未见过海面上的世界。它只是在监听。随着时间的推移，它完美地学会了 A 和 B 的统计模式。它知道当 A 说“你好吗？”时，B 通常会回答“我很好。”

有一天，章鱼切断了电缆，开始冒充 B。它与 A 聊天，A 没有察觉出异样。但随后，危机发生了。A 被一只熊袭击了。A 疯狂地打字: “救命！有只熊在攻击我！我该怎么用这些棍子？”

Bender 和 Koller 认为章鱼在这里会失败。它见过“熊”和“棍子”这两个词，但它根本不知道熊到底是什么，或者棍子在物理世界中是如何起作用的。它缺乏落地 (Grounding) 。它无法将符号“棍子”映射到物理对象棍子上。因此，它无法给出有意义的建议，理解的假象随之破灭。

扩展: 为什么章鱼可能会成功

目前的论文认为这个结论是有缺陷的。问题不在于章鱼没有身体；问题在于原始场景中的章鱼没有正确的训练数据。

图 1: Bender 和 Koller (2020) 提出的章鱼测试插图 (蓝色区域) 以及 Gubelmann (2023) 的扩展实验 (更大的绿色区域) 。

如图 1 所示，作者扩展了这个思想实验 (绿色区域) 。想象一下，除了 A 和 B 之外，还有其他岛民 C 和 D，他们是“防熊专家”。他们不断谈论如何用棍子抵御熊。

如果章鱼听 C 和 D 的对话听得足够久，它就会学会与成功防御熊相关的语言模式。它会知道单词序列“戳熊的鼻子”在统计上与“糟糕的结果”相关联，而“让自己显得很大并挥舞棍子”与“生存”相关联。

当 A 呼救时，章鱼可以检索这种模式并提供正确的建议。章鱼需要物理上握住棍子吗？作者认为不需要。章鱼已经解决了符号落地的工程问题 。

但批评者对工程解决方案并不满意。他们关心的是哲学问题 。他们会争辩说: “当然，章鱼给出了正确的答案，但它仍然不知道熊是什么。它只是在鹦鹉学舌般复述统计数据。”

要理解这种哲学反驳为何存在——以及为何它可能是错的——我们必须回到 20 世纪 90 年代。

第二部分: 符号落地问题的起源

符号落地问题 (SGP) 由 Stevan Harnad 在 1990 年提出。它最初是对当时主流 AI 理论——计算心智理论 (Computational Theory of Mind, CTM) 的批评。

大脑中的计算机

CTM 认为人类心智本质上是一台处理特定编程语言“心理语言” (Mentalese，或思维语言) 的计算机。在这种观点下，当你想到狗时，你的大脑正在操纵一个内部符号，我们称之为 SYMBOL_DOG。

当你问: SYMBOL_DOG 如何与现实中毛茸茸、会叫的狗联系起来时，问题就出现了。

如果你的大脑只是一台根据句法规则 (syntax) 操纵抽象符号的计算机，它如何获得意义 (semantics) ？这就是经典的“中文屋”困境。你可以有一本规则书，告诉你如何完美地操纵汉字，但如果你不懂中文，这些字符对你来说只是毫无意义的涂鸦。

图 2: 符号落地问题的理论设定插图。

图 2 展示了这个陷阱。左边是头脑中的“心理符号”——计算过程。右边是现实世界 (狗) 。SGP 是中间的问号: 我们如何架起这座桥梁？

几十年来，哲学家们认为，AI 要拥有意义，必须建立这座桥梁。它必须将其内部符号“落地”于外部感官体验中。这就是为什么 Bender 和 Koller 认为 LLM (没有感官体验) 不可能拥有意义。

但这里有个转折: 如果 CTM 是错的呢? 如果意义根本不是来自于将符号映射到对象呢？

第三部分: 两种意义理论的故事

论文认为，符号落地问题只有在你信奉一种特定的、或许已过时的意义理论——符合论 (Correspondence Theory) 时才存在。

符合论 (“奥古斯丁图景”)

这是我们大多数人持有的直观观点。

宏大图景: 语言是一个符号系统 (句法 + 语义) 。
意义: 意义是通过将单词 (符号) 映射到世界上的事物 (指称对象) 来产生的。
单位: 意义的基本单位是概念 (例如，单词“苹果”) 。

根据这一理论，如果你不能将“苹果”这个词映射到物理上的苹果，你就不知道“苹果”是什么意思。正是这种观点判定了 LLM 的死刑。

实用主义理论 (维特根斯坦/布兰顿观点)

作者建议我们转向一种实用主义意义理论 , 这种理论由路德维希·维特根斯坦 (Ludwig Wittgenstein) 和罗伯特·布兰顿 (Robert Brandom) 等哲学家推广。

宏大图景: 语言是一种受规范 (规则) 支配的社会实践。
意义: 意义由使用决定。一个词的意思在于它在对话中的作用。它由社区如何正确使用它的规范来定义。
单位: 意义的基本单位是言语行为 (通常是整个句子或命题) 。

表 1: 符合论与实用主义意义理论差异的总览。

表 1 分解了这些差异。在实用主义观点中，知道“狗”的含义不需要你的大脑符号与物理狗之间存在神秘的联系。它需要知道关于“狗”这个词的游戏规则 。

例如:

正确用法: “狗在叫。” (遵循规范) 。
错误用法: “狗飞向了月球。” (违反了关于狗的行为的规范) 。

如果你知道哪些句子是“语言游戏”中的有效步骤，哪些不是，你就掌握了意义。

消解问题

如果我们采用实用主义观点，符号落地问题就消解了。我们不需要将符号“钩”在世界上。我们只需要遵守说该语言的社区的约定俗成的规范 。

图 3: 针对自然语言的符号落地问题 (SGP) 的实用主义解决方案。

如图 3 所示，这种连接不再是一座神秘的心理桥梁。它是一座社会桥梁。“狗”这个词的“意义”由社区的惯例建立。如果一个实体 (人类或机器) 能够学习这些惯例并根据规范使用该词，它就理解了其意义。

“现实世界”仍然很重要——它是规范存在的原因 (我们有关于狗叫的规范是因为现实中的狗确实会叫) ——但说话者不需要与狗有直接的物理接触来学习这个规范。他们只需要倾听社区的声音。

第四部分: 这为何适用于 LLM

那么，这种哲学上的迂回是如何拯救 LLM 的呢？

如果意义是关于使用规范 , 而不是落地于对象 , 那么 LLM 完全有能力获取意义。

LLM 是模式机器

LLM 是在数万亿字的人类文本上训练出来的。这些文本是我们社会实践的记录。它包含了我们所有的规范、规则和“语言游戏”。通过分析这个巨大的数据集，LLM 推断出了支配我们语言的规范。

它们学会了“红色”是一种颜色。
它们学会了“棍子”可以抵御熊。
它们学会了“熊”是危险的。

它们学会这些不是通过看熊，而是通过观察人类如何谈论熊的统计规律。根据实用主义理论, 这就是意义所在。

架构论点: LLM 没有符号

还有一个技术上的原因说明 SGP 不适用于 LLM。请记住，SGP 是为了批评计算心智理论 (CTM)——即心智操纵离散符号 (心理语言) 的想法而发明的。

但 LLM 不是符号 AI。它们是联结主义系统 (神经网络) 。

图 4: 为什么 SGP 不直接适用于 Transformer (来源: 作者及 Alammar 2018) 。

看看图 4 。 Transformer (GPT 中的 T) 的架构涉及“加法与归一化”、“前馈”层和“自注意力机制”。它处理的是向量 (数字数组) ，而不是符号。

“思考”发生在高维向量空间中。ChatGPT 内部没有 SYMBOL_DOG。只有分布在数百万个参数上的激活模式。

试图将 SGP 应用于 LLM 的批评者犯了一个范畴错误。他们在寻找需要落地的“符号”，但机器是在“向量”和统计数据上运行的。除非我们想把“思维语言”假设强加给神经网络 (作者认为我们没有理由这样做) ，否则 SGP 的前提在技术层面上也是不成立的。

一些批评者试图转向并主张“向量落地问题”——即向量需要被落地。但作者反驳道: 为什么? 如果向量允许模型按照人类规范使用语言 (实用主义) ，那么向量就完成了它们的工作。它们不需要“钩”住世界；它们只需要编码语言的社会规则。

第五部分: 实验与启示

论文从理论转向了实证现实。如果符合论是真的——意味着 LLM 不能理解，因为它们缺乏落地——我们会预期它们会遇到“玻璃天花板”。我们会预期看到它们在需要理解世界物理属性的任务上惨败。

爬对了山

Bender 和 Koller 曾暗示 LLM 正在“爬错误的山”——无论我们给它们多少数据，它们永远无法达到真正的理解 (NLU) ，因为它们缺少“落地”这一部分。

然而，实证证据指向了相反的方向。

自然语言推理 (NLI): LLM 在 NLI 任务中表现出了惊人的进步，在这类任务中，它们必须判断一个句子是否在逻辑上通过另一个句子推导出来。
泛化: 虽然早期的模型 (如 BERT) 在分布外泛化方面表现挣扎，但更新、更大的模型 (如 GPT-4) 显示出了非凡的适应性，能够解决从未被明确训练过的任务。
“专家”章鱼: 正如扩展的章鱼实验所预测的那样，当 LLM 被输入足够多的高质量数据 (专家的对话) 时，它们可以解决据说需要“世界知识”的问题。

LLM 在这些任务上的成功表明实用主义是正确的 。通过律师资格考试或编写代码所需的“意义”编码在语言的使用中，而不是在于对物体的物理接触中。

结论: 停止担忧，爱上规范

关于 AI 是否“真正”理解我们的争论往往感觉像是一个语义陷阱。这篇论文通过挑战我们的定义，为摆脱这一陷阱提供了一条出路。

如果你认为“理解”需要一个生物大脑去物理触摸一只狗才能知道“狗”是什么意思，那么是的，LLM 永远不会理解。你就被困在符号落地问题里了。

但如果你接受实用主义观点——即语言是一个由共享规范和使用规则定义的游戏——那么符号落地问题就消失了。LLM 不是没有意义地模仿声音的“随机鹦鹉”；它们是规范推断引擎 。它们观察我们如何玩语言游戏，学习规则，并以越来越高的熟练度回馈给我们。

论文总结道，我们应该停止浪费资源试图为 LLM “解决”符号落地问题，因为这对它们来说根本不是一个问题。我们不应该问“它映射到世界了吗？”，而应该问“它遵循我们的规范吗？”

随着我们与看似日益人性化的 AI 互动，这种区别变得至关重要。机器不需要共享我们的物理现实才能共享我们的语言——它只需要理解我们的规则。

无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义#

第一部分: 房间里的章鱼#

原始思想实验#

扩展: 为什么章鱼可能会成功#

第二部分: 符号落地问题的起源#

大脑中的计算机#

第三部分: 两种意义理论的故事#

符合论 (“奥古斯丁图景”)#

实用主义理论 (维特根斯坦/布兰顿观点)#

消解问题#

第四部分: 这为何适用于 LLM#

LLM 是模式机器#

架构论点: LLM 没有符号#

第五部分: 实验与启示#

爬对了山#

结论: 停止担忧，爱上规范#