引言

想象一下,你正在计划一次公路旅行。你问你的副驾驶: “我们还剩多少油?”

如果你的副驾驶是一台电脑,它可能会说: “我们在 50 升的油箱里还剩 14.2 升。” 如果你的副驾驶是一个人,他们可能会说: “我们还剩少量 (small amount) 。”

这两个答案都是“正确”的,但它们在不同的逻辑层面上运作。电脑使用的是精确推理 , 处理确切的数字和确定性的规则。人类使用的是模糊推理 , 处理不精确的类别和语言上的歧义。虽然像 GPT-4 和 Llama-3 这样的大语言模型 (LLM) 在前者方面已经表现出色——能够解决复杂的微积分和编程问题——但它们在后者方面的表现如何呢?

这个问题正是研究论文 “FROG: Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models” 的核心驱动力。

在这篇文章中,我们将探讨 FRoG 基准测试,这是一个旨在测试 LLM 能否跨越硬数据与模糊语言之间鸿沟的新颖框架。结果令人惊讶: 擅长数学的模型往往在模糊描述上失败,而且让模型变得“更聪明”或更大,并不总是能让它更好地理解像“很少 (few) ”、“一些 (some) ”或“大多数 (most) ”这样的概念。

背景: 精确性偏差

要理解这篇论文的重要性,我们首先需要看看我们目前是如何评估 AI 的。用于推理的标准基准测试,如 GSM8K (小学数学) 或 MATH,都依赖于精确性

  • 输入: “如果约翰有 5 个苹果,又买了 3 个,他现在有几个?”
  • 预期输出: “8。”

这里没有任何解释的余地。然而,人类语言却被广义量词 (Generalized Quantifiers, GQs) 所主导。这些词语表达数量但不精确: *few (很少) 、many (很多) 、most (大多数) 、several (若干) 、a tiny amount (极少量) *。

模糊逻辑对于现实世界的决策至关重要。如果医疗报告说有并发症的“轻微可能性 (slight chance) ”,或者财务顾问指出有“适度增长 (moderate growth) ”,理解这些模糊词汇背后的语义与计算确切的百分比同样重要。

研究人员发现了一个空白: 我们知道 LLM 会做数学题,但它们能将数学映射到人类每天使用的模糊概念上吗?

核心方法: FRoG 简介

测试模糊推理是很困难的。如果你简单地问一个 LLM,“20% 算‘少量’吗?”答案是主观的。为了创建一个严格的基准,作者开发了 FRoG (Fuzzy Reasoning of Generalized Quantifiers,广义量词模糊推理)

FRoG 的精妙之处在于它的构建方式。研究人员没有从头开始编写新的模糊问题,而是采用了现有的现实世界数学应用题,并将它们“逆向工程”为模糊推理任务。

构建工作流

该过程涉及将精确的数学问题转化为多项选择的模糊逻辑谜题。

Figure 1: Workflow of FRoG construction.

Figure 1 所示,工作流分为四个步骤:

  1. 识别数学问题 (Identify Math Questions) : 系统从 GSM8K 等数据集中提取涉及百分比计算的问题。
  2. 掩盖百分比 (Mask the Percentage) : 精确的百分比 (例如“20%”) 被隐藏,并替换为 [MASK] 标记。
  3. 提供答案 (Provide the Answer) : 关键是,模型会被提供该问题的最终数字答案
  4. 任务 (The Task) : 模型必须利用上下文和最终答案来推断哪个广义量词 (GQ) 适合填入 [MASK]

例如:

  • 原始题目: “汽油价格上涨了 20%…”
  • FRoG 任务: “汽油价格上涨了 [MASK] 。 最终价格是 $X… 请问 [MASK] 的意思是‘很少 (few) ’、‘一些 (some) ’还是‘大多数 (most) ’?”

这迫使模型执行两个独特的认知步骤:

  1. 精确推理: 反向计算缺失的百分比 (例如,确定缺失值是 20%) 。
  2. 模糊映射: 将该数值 (20%) 映射到多项选择选项中提供的最合适的语义术语。

量词谱系

为了标准化“few”或“moderate amount”在数字上的实际含义,研究人员将他们的数据与人类标注的量词强度进行了对齐。

Figure 2: (Top) quantifier proportions in FRoG. (Bottom) percentiles of target percentage mentions categorized by quantifiers. Green and orange lines represent the means and medians, respectively. The X-axis is shared between the two figures.

Figure 2 展示了这些概念的分布。你可以看到,“极少量 (tiny amount) ”通常与非常低的百分比 (接近 5%) 相关,而“大多数 (most) ”则更接近高百分比。然而,存在重叠部分,这使得任务具有挑战性。该基准测试既包括 “简单”模式 (Easy mode) (错误答案明显不正确) ,也包括 “困难”模式 (Hard mode) (错误答案是语义上的近义词,例如区分“few”和“tiny amount”) 。

实验与结果

研究人员评估了广泛的开源 LLM,包括 Llama-2、Llama-3、Mistral、Qwen 以及专门的数学/代码模型。结果显示,模糊推理是当前 AI 的一个重大绊脚石。

1. 普遍的困境

总的来说,FRoG 上的表现很低。虽在一个 4 选项的问题上随机猜测会产生 25% 的准确率,但许多强大的模型仅勉强超过这一基准线,特别是在“困难”设置下。

Figure 3: The average Mask accuracy in FRoG-Easy and FRoG-Hard of several LLMs sorting in ascending order. Dots with the same color belong to the same model family. Models with additional pretraining or instruction tuning do not necessarily perform better. We refer to Figure 5 and Figure 4 for more details.

Figure 3 提供了一个宏观概览。请注意,即使是复杂的模型也很难在困难任务上突破 40% 的准确率。这证实了模糊推理是一种不同于标准语言生成的能力。

2. 专门训练无济于事

AI 领域的一个普遍假设是,“指令微调 (Instruction Tuning) ” (训练模型遵循指令) 或在数学数据上进行训练将严格提高推理能力。FRoG 挑战了这一假设。

Figure 5: Impacts of continuous pretraining on mathematical data of LLMs on the performance of FRoG. The solid and dashed lines represent FRoG-Hard and FRoG-Easy respectively. The result of CodeLlama (70B) is emitted for illustration due to its poor performance.

Figure 5 所示,专门在数学 (如 WizardMath) 或代码 (CodeLlama) 上训练的模型,与其基础模型 (如 Llama-2 或 WizardLM) 相比,往往表现更差或提升微乎其微。领域转移 (Domain shift) 是真实存在的: 擅长 Python 代码或精确算术并不意味着能理解人类模糊性的细微差别。

Figure 4: Comparison between different chat and base models of Mask on FRoG. The solid and dashed lines represent the hard and random modes, respectively. Instruction-tuning does not necessarily improve the performance in FRoG. The results of qwen-1.5-72b are full of punctuations and therefore omitted.

同样, Figure 4 比较了基础模型及其“Chat (对话) ”变体。虽然指令微调在“简单”模式 (虚线) 下略有帮助,但在“困难”模式 (实线) 下,这种优势会消失甚至逆转。

3. 逆缩放现象

也许最令人着迷的发现是逆缩放效应 (Inverse Scaling Effect) 。 在大多数 AI 基准测试中,越大越好。一个 700 亿参数的模型通常会碾压一个 70 亿参数的模型。

在 FRoG 中,情况往往恰恰相反。

Figure 6: The performance of different LLMs on all FRoG tasks with different masking strategies and difficulties. The solid lines represent models that demonstrate inverse scaling phenomenon, and crossings represent the performance of other models. The green line represents the performance of GPT-3.5-turbo-1106. More than 50% of the model families demonstrate the inverse scaling effect.

Figure 6 突显了这一趋势。在测试的超过 50% 的模型家族中,扩大模型规模反而导致了准确率下降。这非常反直觉。为什么更“聪明”的模型会失败?

关于 Qwen-1.5 模型的一个案例研究提供了一些线索:

Figure 7: The accuracy of Mask of Qwen-1.5-Chat models, the real and dashed lines represent the hard and easy split, respectively.

Figure 7 显示,虽然性能最初有所提高,但随着模型变得巨大,性能会饱和或下降。研究人员假设,较大的模型可能在“过度思考”,或者产生了并不存在的幻觉约束,又或者它们对精确答案的更强对齐使得它们在处理模糊选择时感到不适。

4. 强大的数学能力 \(\neq\) 强大的模糊推理能力

为了准确定位模型失败的地方,研究人员进行了一项对照实验。他们要求模型解决同样的问题,但提供精确的数字作为选项 (例如,“10%”、“20%”) ,而不是单词 (“few”、“some”) 。

  • 任务 A (Mask_Percent): 找到缺失的数字 (精确) 。
  • 任务 B (Mask_Quant): 找到缺失的单词 (模糊) 。

Figure 8: The performance comparison between the mask_quant and mask_percent on FRoG-Hard. Each dashed line connects the performance of the same model. LLMs with larger model sizes are more likely to receive larger performance degrade from mask_percent to mask_quant in FRoG.

Figure 8 揭示了一个巨大的差距。顶级模型 (如 GPT-4 Turbo) 在精确数学版本 (红色 x) 上达到了近 80% 的准确率,但在模糊版本 (蓝色三角形) 上降至 40-50% 左右。

这证明了计算不是瓶颈 。 模型可以成功计算出缺失值是“13%”。它们的失败完全在于映射阶段——它们不知道在那个特定语境下,13% 在语义上与“少量 (small amount) ”是对齐的。

定性分析: AI 的思维内部

这种失败在实践中是什么样子的?研究人员分析了模型生成的“思维链 (Chain of Thought) ”推理。

Table 2: Sampled results in FRoG-Hard. The target percentage mention lies in the brackets, the correct answer is underscored and the prediction is bolded. The explicit quantifier estimation stage is highlighted.

Table 2 展示了两个例子:

  1. Ex1: 模型正确计算出缺失的减薪约为 18%。然后它推断出相对于整体而言,18% 是一个“少量 (small amount) ”。这是一个成功的例子。
  2. Ex2: 模型计算出增长是 13%。然而,它很难区分“极少 (tiny) ”、“少量 (small) ”和“一些 (some) ”。它最终选择了“少量 (small amount) ”,这是正确的,但推理过程往往摇摇欲坠。

在许多失败的案例中,模型会完美地计算出数字 (例如,“答案是 45%”) ,但在映射时产生幻觉,得出结论说 45% 代表“极少量 (a tiny amount) ”,而不是“一些 (some) ”或“大多数 (most) ”。

结论与启示

FRoG 基准测试为 AI 社区提供了一个现实检验。我们投入了大量资源教导 LLM 成为精确的计算器和编码员,但在很大程度上忽视了它们在人类居住的模棱两可、模糊的世界中运作的能力。

主要结论:

  1. 模糊推理很难: 当前的 LLM 很难在数学语境中解释像“大多数 (most) ”或“很少 (few) ”这样的广义量词。
  2. 越大不一定越好: 逆缩放效应表明,仅仅增加更多参数并不能解决这个问题。
  3. 缺失的环节是语义,而非数学: 模型会做算术;它们失败的地方在于将数值映射到模糊的语言概念上。

随着我们迈向与现实世界互动的 AI 代理——协商价格、解释医疗建议或驾驶汽车——理解“慢一点点”与“慢很多”的区别将至关重要。FRoG 提供了我们需要开始衡量和改进这项基本技能的指标。