介绍

想象一下，一个学生在参加物理考试。他们答对了最终答案。这是否意味着他们理解物理学？也许吧。但也可能是他们背下了答案，或者他们犯了两个相互抵消的计算错误。如果不看他们的“草稿”——即推理的中间步骤——就不可能知道他们是真正理解了材料，还是仅仅擅长模仿正确的输出。

这就是目前大型语言模型 (LLM) 评估面临的危机。我们通常在大规模基准测试 (如 MMLU) 上测试 GPT-4 或 LLaMA 等模型，并关注最终的准确率。我们会问: “模型得到的答案正确吗？”但很少问: “模型是否使用了正确的认知技能来得出答案？”

因为 LLM 是在海量文本上训练的，它们往往将 语言能力 (Linguistic Proficiency，即如何造句和使用词汇) 与 认知能力 (Cognitive Capability，即推理、规划和世界建模) 混为一谈。一个模型可能会写出语法复杂、优美的句子，但在逻辑上却是无稽之谈。相反，一个模型可能有正确的推理，但却无法将其表达出来。

在这篇深度文章中，我们将探索一个名为 FAC²E (Fine-grAined and Cognition-grounded Capability Evaluation，细粒度与认知导向的能力评估) 的新框架。这项研究提出了一个令人着迷的转变: 不仅仅通过最终输出来评估 AI，而是通过受人类大脑处理信息方式的启发，将“语言”与“认知”分离开来。通过迫使模型“展示其工作过程”，研究人员发现了 LLM 知道什么与它们如何使用这些知识之间存在着关键差距。

生物学启示: 语言 vs. 认知

要理解为什么当前的基准测试会失败，我们首先需要看看人类的大脑。神经科学告诉我们，大脑并不是把所有的“思考”都放在一大块区域里处理的。以下两者之间存在明显的区别:

语言网络 (The Language Network) : 大脑中对语言规律、语法和句子结构敏感的区域。
多重需求网络 (The Multiple-Demand Network) : 负责认知挑战、推理、记忆和解决问题的区域。

一个人可能拥有完美的语法但推理能力很差，或者拥有出色的逻辑推演能力但在词汇量上很吃力。FAC²E 背后的研究人员认为，对 LLM 的评估也应采用同样的区分。我们不能将“智能”视为单一的指标。我们必须将流利说英语的能力与对世界建模及通过问题进行推理的能力分离开来。

FAC²E 框架

这篇论文的核心贡献是一个结构化的分类法，将 LLM 的能力映射到四个不同的维度，从纯语言能力过渡到复杂的社会认知。

1. 能力的四个维度

研究人员将 LLM 的技能组织成四个轴:

语言知识 (Linguistic Knowledge) : 这是基础层。它涵盖了 语法性 (句法、主谓一致) 和 语义学 (词义、同义词、反义词) 。它提出的问题是: 模型理解语言规则吗？
形式知识 (Formal Knowledge) : 这稍微向上移动到基于词汇的形式推理。它包括机制 (演绎和归纳推理) 和技能 (数字逻辑和符号操作) 。它提出的问题是: 模型能操作符号并遵循逻辑规则吗？
世界建模 (World Modeling) : 现在我们进入认知领域。这涵盖了记忆 (回忆事实和常识) 和理解 (掌握叙事结构和事件) 。它提出的问题是: 模型是否有连贯的事实和事件内部地图？
社会建模 (Social Modeling) : 复杂性的最高层级。这包括 语用学 (理解反讽、幽默、隐喻) 和 心理理论 (Theory of Mind) (推断他人的想法或感受) 。它提出的问题是: 模型能理解文字背后的意图吗？

2. 评估流程: 展示你的工作过程

定义类别只是战斗的一半。FAC²E 真正的创新在于它如何衡量这些类别。该框架不仅仅是简单的问答，而是强制模型分解其过程。

研究人员借鉴了 Cattell 的智力理论 (Cattell’s Theory of Intelligence) , 该理论将智力分为两类:

晶体智力 (Crystallized Intelligence) : 你所存储的知识 (事实、词汇、规则) 。
流体智力 (Fluid Intelligence) : 应用这些知识解决新问题的能力。

FAC²E 通过将每个提示 (prompt) 分解为三个子步骤来实施这一理论。它使用思维链 (CoT) 风格的方法，强制模型输出以下三项内容:

晶体步骤 (\(r_1\)) : 回忆相关知识。
流体步骤 (\(r_2\)) : 将该知识应用于特定语境。
解决问题步骤 (\(r_3\)) : 最终答案。

FAC2E 管道示意图，展示了将问题分解为晶体、流体和解决问题步骤的过程。

如上图 1 所示，该管道接收输入 (如类比问题) ，并强制模型“自言自语”。它创建后续问题以引出相关知识 (晶体) ，然后询问该知识如何在此处应用 (流体) ，最后询问答案。

通过分别根据参考答案评估 \(r_1\)、\(r_2\) 和 \(r_3\)，研究人员可以准确找出模型哪里出了问题。是因为不知道这个事实而失败？还是虽然知道这个事实但没能应用它？

3. 指令设计

为了实现这一点，给模型的提示是高度结构化的。研究人员提供了“演示 (demonstrations) ”——即如何分解思维过程的示例。

针对语法性的特定能力指令的完整版本示例。

在上面关于语法性的例子中，请注意模型不仅仅被问到“这个句子正确吗？”它被迫识别规则 (像“any”这样的负极性项需要否定范围) ，然后根据该规则检查特定句子。这将“黑盒”推理过程暴露出来以供审查。

实验与结果

研究人员测试了广泛的模型，从开源基座模型 (如 LLaMA 和 T5) 到专有巨头 (如 GPT-3.5 和 GPT-4) 。他们将 17 个不同的基准测试重新格式化为这种统一的 FAC²E 格式。

性能差距: 开源 vs. 专有

第一个主要发现是开源模型与专有模型之间的差距，特别是在“深度”认知任务中。

展示各模型量化结果的表格。专有模型在世界和社会建模方面显示出更高的分数。

如表 4 所示，虽然开源模型 (蓝色) 在 语言知识 方面具有竞争力，但在 世界建模 和 社会建模 方面，与 GPT-4 等模型 (红色) 相比，它们明显落后。这证实了这样一种假设: 仅仅“说得好” (语言能力) 并不能自动带来“想得好” (认知能力) 。

知识利用差距

也许最深刻的发现涉及 晶体性能 (\(s_1\)) 和 流体性能 (\(s_2\)) 之间的差异。

研究人员发现，模型通常具有很高的晶体得分——它们能正确回忆事实。然而，它们的流体得分显着下降。它们拥有知识，但缺乏将其有效地应用于手头问题的推理能力。

条形图显示了拥有知识 (s1 + s2) 与最终解决问题 (s3) 之间的下降。

图 3 说明了这种关系。在许多情况下，中间性能 (代表知识和应用的堆叠条形图) 是合理的，但最终的解决问题能力 (\(s_3\)) 却各不相同。值得注意的是，GPT-3.5 保持了比开源同行高得多的流体性能。这表明，高级模型的“秘诀”不仅仅是拥有更多数据，而是拥有更好的使用数据的机制。

规模重要吗？

该研究还考察了模型规模如何影响这些特定能力。

折线图显示不同规模的 LLaMA 模型在各项任务中的表现。

如图 4 所示，扩大模型规模 (从 7B 到 65B) 提供了普遍的提升，但在复杂的认知任务 (图表右侧) 中收益最为显著。较小的模型在社会语用学和心理理论上“崩溃”，而 65B 模型和 GPT-3.5 则保持了能力。这表明，虽然在较小规模下可以实现语言流利度，但认知稳健性需要规模 (或更先进的架构) 。

指令微调 vs. 预训练

微调会让模型更聪明吗？研究人员比较了不同的微调数据集 (Alpaca, Flan, ShareGPT) 。

图表比较了使用不同指令微调数据集的 LLaMA 性能。

令人惊讶的是，图 5 显示，指令微调数据集的选择 (人类编写 vs. 模型生成) 并没有在能力分布上造成巨大的差异。能力上限似乎在很大程度上取决于预训练阶段 (基座模型) 。

解决方案: 知识注入

分析揭示了一个具体的弱点: 模型无法利用它们拥有的知识。如果这是瓶颈，我们能否通过从外部提供推理来解决它？

研究人员提出了一种知识增强方法。他们不仅仅向模型提问，而是将“晶体” (\(R_1\)) 和“流体” (\(R_2\)) 的基本原理 (rationales) 直接注入到输入中。

图表展示了知识增强基线，其中参考原理被反馈回模型中。

在图 6 中，我们看到了这个过程。

过程 (a) 是标准尝试。
过程 (b) 向模型提供正确的事实知识 (\(R_1\)) 。
过程 (c) 向模型提供正确的事实 (\(R_1\)) 以及正确的应用逻辑 (\(R_2\)) 。

结果: 当研究人员将这些原理注入到一个较小的模型 (LLaMA 2) 中时，性能直线上升。

雷达图比较了有无知识注入的 LLaMA 2 性能。

图 7 非常引人注目。绿线 (标准 LLaMA 2) 是最小的形状。红线 (注入知识的 LLaMA 2) 向外扩展，几乎覆盖了与高度微调的 LLaMA 2-Chat 模型 (橙色) 相同的区域。

这证明了一个关键点: 基座模型并不一定是“愚蠢”的；它们只是在推理方面“不善言辞”。 当通过逻辑得到明确引导时，它们可以在更高的水平上表现。

结论与启示

FAC²E 框架为我们如何看待人工智能提供了一个必要的修正。通过将 LLM 视为单一的“黑盒”，我们错过了其成败的细微差别。

主要收获:

语言 \(\neq\) 认知: 我们必须将语言流利度和认知推理作为单独的轨道进行评估。一个模型可以写诗，但在基本逻辑上却可能失败。
利用差距: 模型通常“知道”事实 (晶体智力) ，但无法将其应用于新问题 (流体智力) 。
分步解决方案: 分解提示以强制执行特定的推理步骤 (回忆 \(\rightarrow\) 应用 \(\rightarrow\) 解决) ，提供了一个更好的诊断工具，并且可能是一种提示模型以获得更好性能的方法。

对于进入该领域的学生和研究人员来说，这篇论文强调了 LLM 开发的未来不仅仅是把模型做得更大或喂给它们更多数据。它是关于架构和训练的改进，以弥合存储知识与使用知识之间的差距——帮助机器从简单的回忆转向真正的流体智力。

机器人的大脑解剖学：在 LLM 评估中分离语言与认知

介绍

生物学启示: 语言 vs. 认知