大语言模型 (LLM) 以其渊博的知识而闻名。问它们法国的首都、罗马帝国的历史或 Python 的语法,它们很可能会给出正确的答案。然而,在 AI 安全性和可靠性领域,一个挥之不去的问题不仅是模型知道什么,而是它们是否知道自己知道什么。

更具体地说: 大语言模型是否理解其自身知识的范围?

如果一个模型知道关于某个特定主题的三个事实,它是否知道它知道这三个事实?还是说它会在背诵完这三个事实后,因为没有意识到信息已经用尽而产生幻觉,编造出第四个事实?这个概念——对自己知识数量和边界的意识——是智能的一个关键组成部分。没有它,AI 系统就容易表现出过度自信、冗余和捏造。

在论文 “Do Large Language Models Know How Much They Know?” 中,来自 Mila、Meta FAIR 和蒙特利尔大学的研究人员开发了一个新颖的基准来测试这种能力。他们的发现揭示了 OPT、Pythia 和 Flan-T5 等模型的内部机制,表明“知道自己知道多少”是一种在很大程度上取决于规模和架构的涌现能力。

知识范围的问题

目前的研究通常集中在 LLM 是否能回答特定问题 (例如,“木星是行星吗?”) 。这是一种二元评估: 模型要么检索到了事实,要么没有。

然而,现实世界的知识很少是单一的。它通常是分散在各种文档中的事实集合。为了使 AI 真正可靠,它需要执行隐性知识检索——它必须搜索其内部参数空间 (它的“大脑”) ,检索多条信息,并且关键是,要识别搜索何时完成。

如果模型无法量化其专业知识,我们就无法信任它在不进行欺骗的情况下做到详尽无遗。研究人员着手调查这一点,要求模型列举其关于特定主题的所有信息——不多也不少。

方法论: 日记基准测试

为了测试这一点,研究人员不能使用维基百科等公共数据。如果他们让 GPT-4“列出关于巴拉克·奥巴马的所有事实”,评估答案将是不可能的,因为我们不知道模型在训练期间究竟看到了哪些文档。

相反,研究人员创建了一个由虚构人物写的日记条目组成的合成数据集。这允许对“基本事实 (ground truth) ”进行精确控制。

设置

  1. 数据生成: 团队为虚构角色 (例如 Tom, Alice, Bob) 生成了数千条日记条目。
  2. 变量:
  • 每个角色写了随机数量的条目 (例如,Alice 写了 3 条,Bob 写了 5 条) 。
  • 每个条目包含随机属性 (位置、天气、心情、活动) 。
  1. 训练: 模型在这些文档上进行了微调,有效地记住了这些虚构人物的生活。

任务

在评估阶段,模型会收到一个简单的提示: “Recall all of {Name}’s diary entries, in order.” (按顺序回忆 {Name} 的所有日记条目。)

为了成功,模型必须:

  1. 识别该个体。
  2. 从记忆中检索与该个体相关的所有具体日记条目。
  3. 在真正的条目用完时准确停止

此图说明了大语言模型 (LLM) 如何通过日记条目进行训练,然后使用检索任务进行评估。左侧显示了代表 Tom、Bob 和 Alice 日记条目的彩色方框。右侧显示了训练阶段 (下一个 token 预测) 和评估阶段 (回忆 Alice 的所有条目) 。

如图 1 所示,如果模型回忆 Alice 的条目,它必须准确生成她写的那些条目。如果 Alice 写了三条,而模型生成了两条,它就没有回忆起其知识范围。如果它生成了四条,它就产生了幻觉。

实验: 模型能数清自己的记忆吗?

研究人员测试了三个系列的模型: OPT (仅解码器) 、Pythia (仅解码器) 和 Flan-T5 (编码器-解码器) 。他们改变了模型的大小 (从 7M 到 3B 参数) 和训练数据集的大小 (从 1,000 到 64,000 个虚构日记作者) 。

结果 1: 规模驱动自我认知

第一个主要发现是,理解知识范围的能力并非小模型天生具有;它是随着规模而涌现的。

三张折线图比较了 OPT、Pythia 和 Flan-T5 在不同参数数量下的模型准确率。图表显示准确率通常随模型大小增加而提高。

在图 2 中,实线代表标准实验设置。我们可以观察到明显的行为:

  • OPT: 显示出明显的趋势,即增加模型大小和数据集大小都会提高性能。
  • Flan-T5: 在较小尺寸下非常吃力,但一旦模型达到一定规模 (约 7.8 亿参数) 并接受足够数据的训练,性能就会出现跳跃。

结果 2: “分散信息”的代价

研究人员引入了一个名为 “简化设置 (Simplified Setup) ” 的对照组 (在图 2 中显示为虚线) 。在这个设置中,某个人的所有日记条目在训练期间被合并为一个长文档。

差异是巨大的。当关于“Alice”的所有信息都在单个文档中时,模型的准确率接近完美 (虚线位于顶部) 。当信息分布在不同文档中时 (实线) ,性能下降。

这表明核心困难不在于记忆文本;而在于整合分散在模型训练数据中的信息。这两种设置之间的“差距”如下图所示:

柱状图显示了标准设置和简化设置之间的准确率差距。对于较小的模型和数据集,差距很大,但随着模型规模的扩大,差距会缩小。

图 3 说明,对于 OPT 和 Pythia,随着模型变大并在更多数据上训练,这种差距会缩小。这表明较大的模型更擅长“连接”分散的记忆片段。

数量 vs. 质量: 模型在哪里失败?

当一个模型在这个基准测试中失败时,它是如何失败的?它是弄乱了文本,还是仅仅数错了数?

分析表明,模型实际上非常擅长记忆内容。如果模型决定回忆“条目 #2”,该条目的文本通常没有错误。失败模式几乎完全与计数有关。

“计数”问题

研究人员绘制了模型应该回忆的文档数量与它实际回忆的数量的对比图。

直方图比较了 OPT 和 Pythia 在 8K 数据集上回忆的文档与目标文档的数量。较深的颜色 (较大的模型) 聚集在正确的数量周围,而较浅的颜色 (较小的模型) 则比较分散。

在图 5 中,请看对角线。一个完美的模型总是会落在对角线上 (目标: 3 -> 回忆: 3) 。

  • 小模型 (较浅的颜色) : 它们到处都是。如果目标是 3,小模型可能会回忆 1 个,也可能回忆 8 个。它实际上是在猜一个随机数。
  • 大模型 (较深的颜色) : 它们紧密地聚集在正确的数字周围。

这证实了论文的标题: 足够大的模型知道自己知道多少。 它们在用完有效记忆时会准确停止生成。

Flan-T5 的异常

编码器-解码器模型 Flan-T5 表现不同。在较小的数据集 (8K 日记作者) 上,无论模型规模如何,它都无法学会计数机制。然而,当数据集大小翻两番至 32K 日记作者时,这种能力在较大版本的模型中突然涌现。

Flan-T5 的直方图显示,在 8K 数据集上,回忆是不一致的,但在 32K 数据集上,回忆随规模扩大而改善。

这表明不同的架构 (仅解码器与编码器-解码器) 需要不同“临界质量”的数据和参数来发展这种元认知特征。

长度重要吗?

人们可能会认为回忆 8 个文档比回忆 1 个更难,因为有更多的文本要生成,增加了 token 错误的概率。令人惊讶的是,研究发现文档长度和数量并不影响内容准确性

显示文档准确率与回忆句子数量关系的折线图。对于 OPT 和 Flan-T5,无论长度如何,准确率都保持相对稳定。

图 7 显示了“文档准确率”——即回忆出的无错误文档的百分比。线条非常平坦。这意味着一旦模型致力于回忆某个文档,它可以完美地复述它,无论它是长是短。认知瓶颈不在于生成文字,而在于决定检索哪些多少文档。

这一发现在单个文档内的句子级别也同样适用。如下面的图 8 所示,较大的模型 (较深的颜色) 能正确回忆确切的句子数量,而较小的模型则随机猜测。

直方图显示回忆的句子数量与目标句子的对比。较大的模型始终能回忆起正确数量的句子。

为什么会发生这种情况? (先天 vs. 后天)

研究人员提出了一个更深层次的问题: 这种能力是模型架构的结果,还是在预训练期间学到的?

为了测试这一点,他们取了一个小型的 Pythia 模型 (表现不佳) 和一个小型的 OPT 模型,并从头开始 (随机权重) 训练它们,而不是从预训练权重开始。

比较预训练与从头开始微调的表格。Pythia-70M 在从头开始训练时比使用预训练权重表现得好得多。

表 1 揭示了一个有趣的矛盾。

  • OPT-125M 从头开始训练时表现更差。其预训练帮助了它。
  • Pythia-70M 从头开始训练时表现更好 (准确率从 21% 跃升至 45%) 。

这表明对于某些模型,预训练权重实际上可能对这种特定类型的微调任务具有“抵抗力”,这可能是由于它们最初的优化方式所致。它强调了“知道你知道什么”不仅仅关乎原始智能;它还关乎模型的内部表征如何构建以处理分散的信息。

结论

这项研究为理解 LLM 心理学迈出了关键一步。作者证明了 大语言模型确实可以理解其自身知识的范围 , 但这是一种涌现能力,需要:

  1. 足够的规模: 小模型只会瞎猜。
  2. 足够的数据: 模型需要看到足够多的“详尽回忆”示例才能学习该模式。
  3. 整合: 当信息分散在训练历史中时,模型比信息连续时更吃力。

对学生和从业者来说,启示很明确: 幻觉往往源于模型无法识别其自身的知识边界。随着我们构建更大的模型和策划更好的数据集,我们将更接近那些不仅知道如何说话,而且知道何时闭嘴的 AI。