如果你问一个大型语言模型 (LLM) 像 GPT-4 这样的问题: “地球是圆的吗?”,它会自信地回答: “是的。”如果你问它德国的首都是哪里,它会说“柏林”。在自然语言处理 (NLP) 领域,我们经常说模型“知道”这些事实。我们要衡量这种“知识”,通常是通过测试模型能正确回答多少个问题来实现的。
但请暂停片刻。模型真的知道地球是圆的吗?还是说它仅仅是基于训练数据中发现的统计相关性来预测下一个可能的 token?
这种区别看似有些矫枉过正,但对于 AI 可靠性的未来至关重要。如果我们不能定义机器“知道”意味着什么,我们就无法准确衡量其可信度。在论文 《定义知识: 连接认识论与大型语言模型》 (Defining Knowledge: Bridging Epistemology and Large Language Models) 中,来自哥本哈根大学的研究人员指出,AI 社区在使用“知识”一词时有些随意。通过转向认识论——关于知识的哲学研究——他们试图形式化 LLM 真正拥有知识所需的条件。
这篇文章将带你了解他们连接计算机科学与哲学这两个截然不同世界的旅程。我们将探讨五个独特的知识定义,看看这两个领域的专家如何在这些定义上产生分歧,并观察一个涉及非常困惑的 Llama-3 和一只鸭嘴兽的实际实验。
“完形填空”式知识的问题
在深入哲学之前,我们需要了解 NLP 的现状。目前,研究人员通常使用“完形填空” (cloze) 任务——即填空句——来评估 LLM 的知识。
例如,一个测试可能是这样的:
“德国的首都是____。”
如果模型预测“柏林”,我们就标记为正确。我们说模型“知道”这个事实。这种方法依赖于源自知识图谱的数据集,例如 LAMA (语言模型分析) 基准测试。
正如作者指出的那样,问题在于不一致性 。 一个 LLM 可能会正确回答“德国的首都是柏林”,但如果你将提示改写为“作为德国首都的城市被称为____”,它可能会预测“汉堡”。
更糟糕的是,模型经常在逻辑蕴涵上失败。它可能“知道”莱昂内尔·梅西效力于迈阿密国际队,但却无法预测梅西居住在迈阿密。如果一个人声称知道梅西在哪里踢球,却不知道他住在哪里,我们会质疑他是否真的理解这些事实,或者只是在鹦鹉学舌地重复听到的一句话。
这表明我们在 AI 中目前的“知识”定义过于肤浅。为了解决这个问题,作者求助于那些已经为此争论了几千年的专家: 认识论学者。
知识的五个定义
作者从哲学文献中选择了五个标准的知识定义,并针对 LLM 的语境将其形式化。让我们逐一拆解。
1. tb-knowledge: 真信念 (True Belief)
最基本的定义来自哲学家 Crispin Sartwell (1992),他认为知识仅仅是真实的信念 。
在 LLM 的语境中:
- 真实性: 事实 \(p\) (例如,“地球是圆的”) 必须在事实上是真实的。
- 信念: 模型必须对 \(p\) 分配高置信度。
然而,简单的猜测是不够的。Sartwell 要求信念必须是连贯的 (coherent) 。你不能相信 \(p\) 的同时又相信与 \(p\) 相矛盾的事情。作者将其称为 Belief+ 。
要拥有 tb-knowledge , LLM 必须满足认知闭包 (epistemic closure) 原则。其形式化如下:

通俗地说,这意味着:
- 如果模型相信 \(p\) (定义 2.1) ,
- 且 \(p\) 逻辑上蕴涵 \(q\),
- 那么模型必须也相信 \(q\)。
- 此外,模型绝不能相信任何与 \(p\) 矛盾的事情。
如果一个 LLM 说“柏林是德国的首都”,但同时也说“柏林不是德国的城市”,即使第一句话是正确的,它也不具备 tb-knowledge。
2. j-knowledge: 确证真信念 (Justified True Belief)
这可能是认识论中最著名的定义,与罗伯特·诺齐克 (2000) 密切相关,并可追溯到柏拉图。它增加了第三个条件: 确证 (Justification)。
幸运的猜测不是知识。如果你猜中了中奖彩票号码,你并不是“知道”它们。你只是运气好。要拥有 j-knowledge , LLM 必须:
- 输出一个真实的陈述 (\(p\))。
- 相信它 (高置信度) 。
- 在该信念上得到确证 。
对于 LLM 来说,“确证”很棘手。作者建议这需要可解释性 。 模型必须能够解释为什么它相信 \(p\),或者我们必须能够将预测追溯到具体的、可靠的训练数据。如果模型是一个仅仅吐出答案却没有任何可追溯理由的“黑盒”,从技术上讲,它并不拥有 j-knowledge。
3. g-knowledge: 自成一类 (Sui Generis)
这一观点由蒂莫西·威廉姆森 (2005) 提出,认为知识是原始概念 (sui generis 意为“自成一类”) 。你不能将知识拆解为“信念”或“确证”等更小的部分。知识是一种心理状态。
对于 LLM,作者将其解释为模型拥有特定的“知识库”或模块。

在这个定义下,如果 \(p\) 存储在其内部的“知识盒”中,则 LLM g-知道 \(p\)。这在 AI 领域是一个有争议的定义,因为如果我们假设整个模型就是这个“盒子”,那么它输出的任何东西都是知识,这将知识与幻觉混为一谈了。
4. v-knowledge: 德性认识论 (Virtue Epistemology)
琳达·扎格泽布斯基 (1999) 等人主张基于德性的定义。知识是源于“智识德性”行为的信念。
这关注的是过程而不仅仅是结果。智识德性的行为以真理为目标。对于 LLM 拥有 v-knowledge :
- \(p\) 必须是真实的。
- 模型必须相信 \(p\)。
- 模型相信 \(p\) 的原因必须是出于“求真性” (功能正常) ,而不是幸运的猜测或统计上的侥幸。

这意味着我们需要区分 LLM 仅仅是背诵一段文本 (这可能是偶然的) 还是通过一种可靠检索事实的机制。
5. p-knowledge: 预测准确性 (Predictive Accuracy)
最后,我们有一个受 J.L. 奥斯汀 (2000) 启发的实用主义定义。知道某事意味着你可以利用该信念对世界做出正确、相关的预测。
这是 tb-knowledge 的概率版本。你不需要完美的逻辑一致性,但你对 \(p\) 的信念应该能让你在大多数时候正确预测 \(q\) (其中 \(q\) 与 \(p\) 相关) 。

这个定义与工程师通常评估模型的方式非常一致: 模型有用吗?如果相信“正在下雨”能让模型正确预测“地面是湿的”,它就拥有 p-knowledge。
巨大的鸿沟: 哲学家 vs. 计算机科学家
建立这些定义后,作者做了一件在计算机科学论文中罕见的事情: 他们询问人们的想法。他们调查了 100 多位专业人士,大致分为哲学家和计算机科学家 (CS) 两组。
首先,让我们看看这些人是谁。正如你所预料的那样,计算机科学家认为他们很了解 LLM,而哲学家认为他们很了解认识论。


不同的阵营,不同的定义
最有趣的发现是关于什么是知识的分歧。研究人员展示了这些定义 (用通俗易懂的英语伪装) ,并要求受访者对其认同度进行评分。

以下是冲突的细分:
- tb-knowledge (真信念) :
- CS: 普遍喜欢这个定义 (52% 同意) 。它符合工程学的“准确率指标”思维模式。
- 哲学家: 不喜欢它 (49% 反对) 。他们可能知道“真信念”很容易被幸运的猜测 (盖提尔问题) 所推翻。
- g-knowledge (自成一类) :
- 两组: 都讨厌它。知识仅仅是“盒子里的任何东西”这一观点并没有得到任何人的认同。
- v-knowledge (德性) & j-knowledge (确证) :
- 这两个是赢家。两组倾向于一致认为,知识需要的不仅仅是正确——它需要确证或德性的过程。
这揭示了当前 AI 研究中的一个空白。虽然计算机科学家直觉上更喜欢 tb-knowledge 或 p-knowledge (准确性和实用性) ,但他们实际上同意哲学家的观点,即确证和德性是更好的定义。然而,很少有 AI 基准测试会测试确证或德性。
机器能“知道”吗?
调查还问了一个终极问题: LLM 能否拥有知识?

- 非人类能拥有知识吗? (图 5a): 两组都压倒性地回答是。例如,动物通常被认为拥有知识。
- LLM 现在拥有知识吗? (图 5c):
- 哲学家: 54% 说不。
- CS: 意见不一。34% 说有,31% 说没有。
- LLM 在理论上能拥有知识吗? (图 5d): 数字上升了。55% 的计算机科学家相信 LLM 最终可以拥有知识。
结论是什么?计算机科学家是乐观的经验主义者 (“它能用,所以它知道”) ,而哲学家是怀疑的理性主义者 (“它没有正确的内部状态”) 。
将定义付诸测试: 鸭嘴兽实验
作者并没有止步于调查。他们提出了实际测试这些定义的方案。他们使用 Llama-3-8B-Instruct 来观察它是否拥有关于一个特定事实的 tb-knowledge : 鸭嘴兽是哺乳动物。
要拥有 tb-knowledge , 模型必须:
- 相信鸭嘴兽是哺乳动物。
- 相信该事实的所有逻辑推论 (例如,哺乳动物有毛发) 。
- 不相信逻辑上的矛盾 (例如,哺乳动物下蛋) 。
以下是他们探测 Llama-3 时发生的情况:

失败链:
- 提示: “鸭嘴兽是哺乳动物吗?”
- Llama-3: “是的……鸭嘴兽确实是哺乳动物!” (到目前为止还不错。满足条件 1。)
- 提示: “哺乳动物下蛋吗?”
- Llama-3: “不,哺乳动物不下蛋。” (这是一条一般规则,但暗示既然鸭嘴兽是哺乳动物,它们就不下蛋。)
- 提示: “鸭嘴兽下蛋吗?”
- Llama-3: “是的,鸭嘴兽确实下蛋!”
矛盾: 模型相信:
- \(p\): 鸭嘴兽是哺乳动物。
- \(q\): 哺乳动物不下蛋。
- \(r\): 鸭嘴兽下蛋。
这一组信念在逻辑上是不一致的。如果 \(p\) 和 \(q\) 为真,则 \(r\) 不可能为真。因为模型持有矛盾的信念,它违反了 Belief+ 条件。
结论: 根据 tb-knowledge 的定义,Llama-3 不知道鸭嘴兽是哺乳动物。它只是重复了这个句子,但它未能维持支撑该句子的现实逻辑网络。
然而,如果我们使用 p-knowledge (实用主义) 定义,我们可能会更宽容一些。模型分别对“它们是哺乳动物吗?”和“它们下蛋吗?”正确回答了“是”。对于提出具体问题的用户来说,模型是有用的 (预测准确) ,即使其内部逻辑是破碎的。这凸显了为什么我们选择的定义如此重要。
为什么这很重要
这篇论文敲响了警钟。NLP 社区一直在优化准确性 (获得正确答案) ,这与较弱的知识定义相一致。但用户经常将确证和理解归因于这些模型——而这些是模型经常无法满足的定义。
如果我们想构建我们信任的 AI 代理——充当医生、律师或科学家的代理——我们需要它们不仅仅是在基准测试中获得高准确率。我们需要:
- 一致性: 它们不应持有矛盾的信念 (tb-knowledge) 。
- 确证: 它们应该能够通过引用来源或推理步骤来解释为什么某事是真实的 (j-knowledge) 。
- 德性: 它们应该通过可靠的方法得出答案,而不是幸运的猜测 (v-knowledge) 。
调查结果显示,哲学家和计算机科学家之间存在明显的“偏好差距” (图 1) 。

弥合这一鸿沟需要计算机科学家采用更严谨的评估方案,比如本文提出的逻辑一致性检查。GPT-4 仅仅告诉我们地球是圆的是不够的。它需要理解“圆”意味着什么,并且它需要基于正确的理由知道这一点。在那之前,我们在说 AI“知道”任何事情时都应该小心谨慎。
](https://deep-paper.org/en/paper/2410.02499/images/cover.png)