引言

如果你用过最近的大型语言模型 (LLM) ,比如 GPT-4o 或 o3-mini,你会知道它们在数学方面已经变得非常精通。在 GSM8K (小学数学) 或更高级的 MATH 数据集等标准基准测试中,这些模型通常能达到接近人类甚至超越人类的表现。它们可以解复杂的方程,通过多步骤的应用题进行推理,并写出它们的“思维链”来论证答案。

但有一个问题。这些模型非常渴望取悦用户。事实上,它们往往过于急切了。

当你向 LLM 提出一个无法回答的数学问题时会发生什么?想象一个缺少必要信息的应用题——比如让你根据行驶距离计算汽车的速度,但没有给出所用的时间。人类会立刻说: “我没有足够的信息。”然而,LLM 经常会惊慌失措。它不会承认无知,反而经常产生幻觉: 它会编造数字,假设不存在的关系,或者强行得出一个自信但完全没有根据的答案。

这篇博客文章将探讨一篇引人入胜的研究论文,题为 “TREECUT: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation” (TREECUT: 用于 LLM 幻觉评估的合成不可回答数学应用题数据集) 。研究人员解决了数学推理中 LLM 产生幻觉这一关键问题。他们引入了一种新颖的方法来生成无限的“不可回答”数学问题,以测试 AI 模型是否能区分可解的谜题和有缺陷的谜题。

问题所在: 熟练度 vs. 真正的推理

这为什么很重要?如果一个 AI 系统要在金融、工程或教育等高风险环境中被信任,它必须知道自身的局限性。一个错误的答案往往比没有答案更糟糕。

虽然 LLM 在标准数学测试中得分超过 90%,但怀疑论者认为这可能是由于模式匹配而不是真正的推理。模型在训练过程中见过数百万个类似的问题。但是,当问题的表层发生变化,或者逻辑被巧妙地破坏时,它们的表现往往会崩溃。

现有的测试这种“不可回答性”的尝试依赖于获取真实问题并手动删除句子。这种方法速度慢,规模有限,并且容易受到“数据污染”的影响 (即模型在训练数据中已经见过原始问题,并凭记忆回答) 。为了真正对这些模型进行压力测试,我们需要一个合成的 (从头生成的) 、无限的且结构可控的数据集。

这就轮到 TREECUT 登场了。

核心方法: 生成与修剪树结构

这篇论文的核心是 TREECUT 生成算法。作者没有直接用英语编写应用题,而是将数学问题表示为

理解树结构

为了理解这是如何工作的,让我们将数学应用题可视化为一个有向图。

  1. 节点代表变量: 想象一下像汉堡的价格 (\(x_1\))、沙拉的价格 (\(x_2\)) 或三明治的价格 (\(x_3\)) 这样的变量。
  2. 边代表公式: 连接两个节点的线代表数学关系 (例如,“汉堡比沙拉贵 3 美元”) 。
  3. 根节点: 有一个起点 (根) ,它定义了初始值。

在一个可解的 (可回答的) 问题中,有一条清晰、不间断的路径从根节点一直通向“被提问的变量” (你试图求解的叶节点) 。你只需沿着路径,在每一步应用数学运算,就能得到答案。

“剪切”: 制造不可回答性

这就是 TREECUT 的独创之处。为了创建一个不可回答的问题,算法首先生成一棵完美的、可解的树。然后,它战略性地在关键路径的某处移除 (剪切) 一条边

图 1: 左图和中图分别描绘了对应于可回答问题和不可回答问题的树结构。在右图中,被划掉的句子代表被剪切操作移除的公式。

如上图 Figure 1 所示,请看左图和中图的区别:

  • 左 (可回答) : 你可以画一条线从根 (顶部) 向下到 \(X_1\),然后到 \(X_2\),最后到 \(X_3\) (答案) 。每一步都是连接的。
  • 中 (不可回答) : 研究人员引入了一个“剪切” (Cut,红色剪刀) 。\(X_1\) 和 \(X_2\) 之间的连接被切断了。如果你试图求解 \(X_3\),你会走进死胡同。你可能知道 \(X_3\) 与 \(X_2\) 的关系,但你无法知道 \(X_2\) 是多少。
  • 右 (文本) : 算法随后将这些树转化为自然语言。文本描述了汉堡和三明治的价格。“剪切”对应于删除连接汉堡价格和炒蛋价格的那句话。

这种方法允许研究人员精确控制难度。他们可以改变:

  • ansDepth: 树有多深? (解决它需要多少步?)
  • numVars: 有多少总变量在干扰模型?
  • 复合名称 (Composite Names): 我们是在谈论 “\(x\)” 和 “\(y\)",还是“Bistro Nice 的汉堡”与“Urban Plate 的汉堡”?
  • cutDepth: 桥梁到底是在哪里断裂的?是在开头附近还是结尾附近?

实验与结果

研究人员测试了几种最先进的模型,包括 Llama 3.1、Qwen2.5、GPT-4o 以及侧重推理的 o3-mini。他们使用了“零样本”提示,意味着他们没有预先给模型示例;他们只是要求模型解决问题,或者在条件不足时回答“Answer: unknown”。

结果令人震惊。

表 1: 不同 ansDepth 值下,各种 LLM 在不可回答问题上的幻觉百分比 (零样本提示)

Table 1 (上图) 显示了幻觉百分比——即当模型应该说“未知”时,它编造答案的频率。

  • Llama-8B 几乎完全失败,无论复杂度如何,幻觉率都超过 80%。
  • GPT-4o 被广泛认为是最好的通用模型之一,随着问题变深,它也挣扎得很厉害。在 ansDepth = 8 (一个需要 8 个逻辑步骤的问题) 时,GPT-4o 在 64.0% 的情况下产生了幻觉。
  • o3-mini 是专门为推理设计的模型,表现较好,但在较简单的问题 (ansDepth = 2) 上却表现出惊人的不稳定,幻觉率达到 44.0%

“推理”陷阱

为什么 o3-mini 在简单问题上表现不佳?论文揭示了一个迷人的行为。推理模型被训练为寻找解决方案。当 o3-mini 遇到缺失的环节 (例如,知道“A 店的汉堡”价格,但需要“B 店的汉堡”价格) 时,它经常编造一个假设

它会推理说: “通常,在数学问题中,同名商品的价格是一样的。因此,我假设价格相等。”

这就是一种幻觉。在这些严格定义的数学应用题背景下,仅仅因为变量共享一个名字就假设两个不同的变量相等,在逻辑上是无效的。模型足够“聪明”以意识到数据缺失,但又足够“偏执”以强行得出一个解决方案。

分析: 什么触发了幻觉?

因为 TREECUT 是合成的,研究人员可以调整参数来确切地观察是什么让 AI 感到困惑。他们分析了 GPT-4o 在不同条件下的表现。

1. 复杂性与干扰

第一个主要发现是复杂性诱发幻觉

图 2: 不同配置的不可回答问题下的幻觉百分比,随 ansDepth 变化绘图。

Figure 2 展示了随着问题变得“更深” (X 轴) ,幻觉率是如何攀升的。但请看线条之间的分离:

  • 橙线 (复杂结构) : 这些代表带有额外分支的树——即不属于主要解题路径的干扰变量。这里的幻觉率始终高于蓝线 (简单路径) 。
  • 实线 (复合名称) : 这是最有趣的心理学洞察。实线代表使用复杂名称 (如*“Texas BBQ 的希腊沙拉”*) 的问题,而非简单名称。实线显著高于虚线。
  • 结论: 如果你只是给变量起复杂的名字并添加一些无关的事实,GPT-4o 就更有可能产生幻觉,给出一个不可解问题的答案。语义噪声分散了推理能力的注意力。

2. 困惑的“低谷”

研究人员还调查了缺失信息所在的位置。缺失的环节是在链条的开头还是结尾有关系吗?

图 3: 幻觉百分比与 cutDepth 的关系。左图 ansDepth = 7。右图 ansDepth = 8

Figure 3 绘制了幻觉与 cutDepth (剪切位置距离被提问变量有多远) 的关系图。

  • 低 CutDepth (图表左侧) : 剪切位置靠近被提问变量 (链条的末端) 。模型通常能发现这一点。
  • 高 CutDepth (图表右侧) : 剪切位置靠近根节点 (链条的起点) 。模型通常也能发现这一点。
  • 中间 (峰值) : 请看中间巨大的尖峰 (深度 3-5 左右) 。

当逻辑断裂发生在长推理链的中间时,模型会感到困惑。它成功地开始了推理过程,并且能看到终点的目标,但它忽略了中间的缺口,很可能是幻觉出了一座桥梁来连接推导过程的两个有效半段。

结论

TREECUT 论文对现代 LLM 的“推理”能力进行了冷静的检验。虽然它们可以完美地进行算术运算并遵循模式,但它们缺乏强大的自我意识来识别逻辑链何时断裂——尤其是当这种断裂隐藏在复杂问题的深处或被冗长的描述所掩盖时。

这项研究的主要结论是:

  1. 高幻觉率: 即使是像 GPT-4o 和 o3-mini 这样的顶尖模型,也经常为不可回答的数学问题编造答案。
  2. 结构脆弱性: 当问题很深、包含干扰信息或使用复合名称 (语义复杂性) 时,模型最脆弱。
  3. 中间剪切效应: 当缺失信息出现在推理链的中间时,AI 最难检测到。

TREECUT 为开发者和研究人员提供了一个有价值的工具。通过使用系统地探测这些弱点的合成数据集,我们可以超越简单的准确率指标,开始评估我们的 AI 模型是在真正地推理,还是仅仅擅长猜测。未来的工作可能会集中在训练模型专门识别逻辑中的这些“剪切”,让我们离知道自己不知道什么的 AI 更近一步。