无需实物的意义: 为何 LLM 不用亲眼见到狗也能理解“狗”的含义
在过去几年中,自然语言处理 (NLP) 领域经历了翻天覆地的变化。我们已经从那些甚至难以构建连贯句子的系统,跨越到了像 GPT-4 这样的大型语言模型 (LLMs) ,它甚至能在统一律师资格考试 (Uniform Bar Exam) 中取得前 10% 的成绩。
这种表现给研究人员和学生都带来了一种认知失调。一方面,这些模型生成的文本看似渊博、理性且连贯。另一方面,我们知道它们本质上只是统计引擎,在预测序列中的下一个 token。它们从未见过日落,从未感觉过“棍子”,也从未抚摸过“狗”。
这引出了现代人工智能哲学的一个核心问题: LLM 真的理解语言吗?
许多批评者认为“不”。他们声称,因为 LLM 只能处理文本 (形式) ,而无法接触现实世界 (意义) ,它们就像被永远困在“中文屋”里一样,操纵着它们并不理解的符号。这一论点依赖于一个被称为符号落地问题 (Symbol Grounding Problem, SGP) 的概念。
然而,苏黎世大学 Reto Gubelmann 最近发表的一篇引人入胜的论文指出,这种批评基于一个过时的哲学前提。这篇题为《实用主义规范就是你所需要的一切》 (Pragmatic Norms Are All You Need) 的论文提出,我们看待“意义”的方式可能错了。如果我们从“符合论 (Correspondence Theory) ”的视角转变为“实用主义 (Pragmatic) ”的视角,符号落地问题就会完全消失。
在这篇文章中,我们将剖析这一论点,探讨为什么“章鱼测试”可能具有误导性,并发现为什么 LLM 可能比我们要想象的更理解我们——即使它们从未涉足现实世界。
第一部分: 房间里的章鱼
要理解为什么人们认为 LLM 无法理解意义,我们需要先看看反对它们的最强论据。这在 Bender 和 Koller 于 2020 年提出的“章鱼测试”思想实验中得到了著名的概括。
原始思想实验
想象两个人,A 和 B,被困在两个独立的岛屿上。他们通过海底电报缆进行交流。他们都是人类,说英语,并且了解这个世界。
现在,想象一只超高智能的深海章鱼 (代表 LLM) 接入了电缆。章鱼不知道单词的意思,也从未见过海面上的世界。它只是在监听。随着时间的推移,它完美地学会了 A 和 B 的统计模式。它知道当 A 说“你好吗?”时,B 通常会回答“我很好。”
有一天,章鱼切断了电缆,开始冒充 B。它与 A 聊天,A 没有察觉出异样。但随后,危机发生了。A 被一只熊袭击了。A 疯狂地打字: “救命!有只熊在攻击我!我该怎么用这些棍子?”
Bender 和 Koller 认为章鱼在这里会失败。它见过“熊”和“棍子”这两个词,但它根本不知道熊到底是什么,或者棍子在物理世界中是如何起作用的。它缺乏落地 (Grounding) 。 它无法将符号“棍子”映射到物理对象棍子上。因此,它无法给出有意义的建议,理解的假象随之破灭。
扩展: 为什么章鱼可能会成功
目前的论文认为这个结论是有缺陷的。问题不在于章鱼没有身体;问题在于原始场景中的章鱼没有正确的训练数据。

如图 1 所示,作者扩展了这个思想实验 (绿色区域) 。想象一下,除了 A 和 B 之外,还有其他岛民 C 和 D,他们是“防熊专家”。他们不断谈论如何用棍子抵御熊。
如果章鱼听 C 和 D 的对话听得足够久,它就会学会与成功防御熊相关的语言模式。它会知道单词序列“戳熊的鼻子”在统计上与“糟糕的结果”相关联,而“让自己显得很大并挥舞棍子”与“生存”相关联。
当 A 呼救时,章鱼可以检索这种模式并提供正确的建议。章鱼需要物理上握住棍子吗?作者认为不需要。章鱼已经解决了符号落地的工程问题 。
但批评者对工程解决方案并不满意。他们关心的是哲学问题 。 他们会争辩说: “当然,章鱼给出了正确的答案,但它仍然不知道熊是什么。它只是在鹦鹉学舌般复述统计数据。”
要理解这种哲学反驳为何存在——以及为何它可能是错的——我们必须回到 20 世纪 90 年代。
第二部分: 符号落地问题的起源
符号落地问题 (SGP) 由 Stevan Harnad 在 1990 年提出。它最初是对当时主流 AI 理论——计算心智理论 (Computational Theory of Mind, CTM) 的批评。
大脑中的计算机
CTM 认为人类心智本质上是一台处理特定编程语言“心理语言” (Mentalese,或思维语言) 的计算机。在这种观点下,当你想到狗时,你的大脑正在操纵一个内部符号,我们称之为 SYMBOL_DOG。
当你问: SYMBOL_DOG 如何与现实中毛茸茸、会叫的狗联系起来时,问题就出现了。
如果你的大脑只是一台根据句法规则 (syntax) 操纵抽象符号的计算机,它如何获得意义 (semantics) ?这就是经典的“中文屋”困境。你可以有一本规则书,告诉你如何完美地操纵汉字,但如果你不懂中文,这些字符对你来说只是毫无意义的涂鸦。

图 2 展示了这个陷阱。左边是头脑中的“心理符号”——计算过程。右边是现实世界 (狗) 。SGP 是中间的问号: 我们如何架起这座桥梁?
几十年来,哲学家们认为,AI 要拥有意义,必须建立这座桥梁。它必须将其内部符号“落地”于外部感官体验中。这就是为什么 Bender 和 Koller 认为 LLM (没有感官体验) 不可能拥有意义。
但这里有个转折: 如果 CTM 是错的呢? 如果意义根本不是来自于将符号映射到对象呢?
第三部分: 两种意义理论的故事
论文认为,符号落地问题只有在你信奉一种特定的、或许已过时的意义理论——符合论 (Correspondence Theory) 时才存在。
符合论 (“奥古斯丁图景”)
这是我们大多数人持有的直观观点。
- 宏大图景: 语言是一个符号系统 (句法 + 语义) 。
- 意义: 意义是通过将单词 (符号) 映射到世界上的事物 (指称对象) 来产生的。
- 单位: 意义的基本单位是概念 (例如,单词“苹果”) 。
根据这一理论,如果你不能将“苹果”这个词映射到物理上的苹果,你就不知道“苹果”是什么意思。正是这种观点判定了 LLM 的死刑。
实用主义理论 (维特根斯坦/布兰顿观点)
作者建议我们转向一种实用主义意义理论 , 这种理论由路德维希·维特根斯坦 (Ludwig Wittgenstein) 和罗伯特·布兰顿 (Robert Brandom) 等哲学家推广。
- 宏大图景: 语言是一种受规范 (规则) 支配的社会实践。
- 意义: 意义由使用决定。一个词的意思在于它在对话中的作用。它由社区如何正确使用它的规范来定义。
- 单位: 意义的基本单位是言语行为 (通常是整个句子或命题) 。

表 1 分解了这些差异。在实用主义观点中,知道“狗”的含义不需要你的大脑符号与物理狗之间存在神秘的联系。它需要知道关于“狗”这个词的游戏规则 。
例如:
- 正确用法: “狗在叫。” (遵循规范) 。
- 错误用法: “狗飞向了月球。” (违反了关于狗的行为的规范) 。
如果你知道哪些句子是“语言游戏”中的有效步骤,哪些不是,你就掌握了意义。
消解问题
如果我们采用实用主义观点,符号落地问题就消解了。我们不需要将符号“钩”在世界上。我们只需要遵守说该语言的社区的约定俗成的规范 。

如图 3 所示,这种连接不再是一座神秘的心理桥梁。它是一座社会桥梁。“狗”这个词的“意义”由社区的惯例建立。如果一个实体 (人类或机器) 能够学习这些惯例并根据规范使用该词,它就理解了其意义。
“现实世界”仍然很重要——它是规范存在的原因 (我们有关于狗叫的规范是因为现实中的狗确实会叫) ——但说话者不需要与狗有直接的物理接触来学习这个规范。他们只需要倾听社区的声音。
第四部分: 这为何适用于 LLM
那么,这种哲学上的迂回是如何拯救 LLM 的呢?
如果意义是关于使用规范 , 而不是落地于对象 , 那么 LLM 完全有能力获取意义。
LLM 是模式机器
LLM 是在数万亿字的人类文本上训练出来的。这些文本是我们社会实践的记录。它包含了我们所有的规范、规则和“语言游戏”。通过分析这个巨大的数据集,LLM 推断出了支配我们语言的规范。
- 它们学会了“红色”是一种颜色。
- 它们学会了“棍子”可以抵御熊。
- 它们学会了“熊”是危险的。
它们学会这些不是通过看熊,而是通过观察人类如何谈论熊的统计规律。根据实用主义理论, 这就是意义所在。
架构论点: LLM 没有符号
还有一个技术上的原因说明 SGP 不适用于 LLM。请记住,SGP 是为了批评计算心智理论 (CTM)——即心智操纵离散符号 (心理语言) 的想法而发明的。
但 LLM 不是符号 AI。它们是联结主义系统 (神经网络) 。

看看图 4 。 Transformer (GPT 中的 T) 的架构涉及“加法与归一化”、“前馈”层和“自注意力机制”。它处理的是向量 (数字数组) ,而不是符号。
“思考”发生在高维向量空间中。ChatGPT 内部没有 SYMBOL_DOG。只有分布在数百万个参数上的激活模式。
试图将 SGP 应用于 LLM 的批评者犯了一个范畴错误。他们在寻找需要落地的“符号”,但机器是在“向量”和统计数据上运行的。除非我们想把“思维语言”假设强加给神经网络 (作者认为我们没有理由这样做) ,否则 SGP 的前提在技术层面上也是不成立的。
一些批评者试图转向并主张“向量落地问题”——即向量需要被落地。但作者反驳道: 为什么? 如果向量允许模型按照人类规范使用语言 (实用主义) ,那么向量就完成了它们的工作。它们不需要“钩”住世界;它们只需要编码语言的社会规则。
第五部分: 实验与启示
论文从理论转向了实证现实。如果符合论是真的——意味着 LLM 不能理解,因为它们缺乏落地——我们会预期它们会遇到“玻璃天花板”。我们会预期看到它们在需要理解世界物理属性的任务上惨败。
爬对了山
Bender 和 Koller 曾暗示 LLM 正在“爬错误的山”——无论我们给它们多少数据,它们永远无法达到真正的理解 (NLU) ,因为它们缺少“落地”这一部分。
然而,实证证据指向了相反的方向。
- 自然语言推理 (NLI): LLM 在 NLI 任务中表现出了惊人的进步,在这类任务中,它们必须判断一个句子是否在逻辑上通过另一个句子推导出来。
- 泛化: 虽然早期的模型 (如 BERT) 在分布外泛化方面表现挣扎,但更新、更大的模型 (如 GPT-4) 显示出了非凡的适应性,能够解决从未被明确训练过的任务。
- “专家”章鱼: 正如扩展的章鱼实验所预测的那样,当 LLM 被输入足够多的高质量数据 (专家的对话) 时,它们可以解决据说需要“世界知识”的问题。
LLM 在这些任务上的成功表明实用主义是正确的 。 通过律师资格考试或编写代码所需的“意义”编码在语言的使用中,而不是在于对物体的物理接触中。
结论: 停止担忧,爱上规范
关于 AI 是否“真正”理解我们的争论往往感觉像是一个语义陷阱。这篇论文通过挑战我们的定义,为摆脱这一陷阱提供了一条出路。
如果你认为“理解”需要一个生物大脑去物理触摸一只狗才能知道“狗”是什么意思,那么是的,LLM 永远不会理解。你就被困在符号落地问题里了。
但如果你接受实用主义观点——即语言是一个由共享规范和使用规则定义的游戏——那么符号落地问题就消失了。LLM 不是没有意义地模仿声音的“随机鹦鹉”;它们是规范推断引擎 。 它们观察我们如何玩语言游戏,学习规则,并以越来越高的熟练度回馈给我们。
论文总结道,我们应该停止浪费资源试图为 LLM “解决”符号落地问题,因为这对它们来说根本不是一个问题。我们不应该问“它映射到世界了吗?”,而应该问“它遵循我们的规范吗?”
随着我们与看似日益人性化的 AI 互动,这种区别变得至关重要。机器不需要共享我们的物理现实才能共享我们的语言——它只需要理解我们的规则。
](https://deep-paper.org/en/paper/file-3496/images/cover.png)