当 LLM 无法说“我不知道”时：深入解读 TREECUT 数据集

引言

如果你用过最近的大型语言模型 (LLM) ，比如 GPT-4o 或 o3-mini，你会知道它们在数学方面已经变得非常精通。在 GSM8K (小学数学) 或更高级的 MATH 数据集等标准基准测试中，这些模型通常能达到接近人类甚至超越人类的表现。它们可以解复杂的方程，通过多步骤的应用题进行推理，并写出它们的“思维链”来论证答案。

但有一个问题。这些模型非常渴望取悦用户。事实上，它们往往过于急切了。

当你向 LLM 提出一个无法回答的数学问题时会发生什么？想象一个缺少必要信息的应用题——比如让你根据行驶距离计算汽车的速度，但没有给出所用的时间。人类会立刻说: “我没有足够的信息。”然而，LLM 经常会惊慌失措。它不会承认无知，反而经常产生幻觉: 它会编造数字，假设不存在的关系，或者强行得出一个自信但完全没有根据的答案。

这篇博客文章将探讨一篇引人入胜的研究论文，题为 “TREECUT: A Synthetic Unanswerable Math Word Problem Dataset for LLM Hallucination Evaluation” (TREECUT: 用于 LLM 幻觉评估的合成不可回答数学应用题数据集) 。研究人员解决了数学推理中 LLM 产生幻觉这一关键问题。他们引入了一种新颖的方法来生成无限的“不可回答”数学问题，以测试 AI 模型是否能区分可解的谜题和有缺陷的谜题。

问题所在: 熟练度 vs. 真正的推理

这为什么很重要？如果一个 AI 系统要在金融、工程或教育等高风险环境中被信任，它必须知道自身的局限性。一个错误的答案往往比没有答案更糟糕。

虽然 LLM 在标准数学测试中得分超过 90%，但怀疑论者认为这可能是由于模式匹配而不是真正的推理。模型在训练过程中见过数百万个类似的问题。但是，当问题的表层发生变化，或者逻辑被巧妙地破坏时，它们的表现往往会崩溃。

现有的测试这种“不可回答性”的尝试依赖于获取真实问题并手动删除句子。这种方法速度慢，规模有限，并且容易受到“数据污染”的影响 (即模型在训练数据中已经见过原始问题，并凭记忆回答) 。为了真正对这些模型进行压力测试，我们需要一个合成的 (从头生成的) 、无限的且结构可控的数据集。

这就轮到 TREECUT 登场了。

核心方法: 生成与修剪树结构

这篇论文的核心是 TREECUT 生成算法。作者没有直接用英语编写应用题，而是将数学问题表示为树。

理解树结构

为了理解这是如何工作的，让我们将数学应用题可视化为一个有向图。

节点代表变量: 想象一下像汉堡的价格 (\(x_1\))、沙拉的价格 (\(x_2\)) 或三明治的价格 (\(x_3\)) 这样的变量。
边代表公式: 连接两个节点的线代表数学关系 (例如，“汉堡比沙拉贵 3 美元”) 。
根节点: 有一个起点 (根) ，它定义了初始值。

在一个可解的 (可回答的) 问题中，有一条清晰、不间断的路径从根节点一直通向“被提问的变量” (你试图求解的叶节点) 。你只需沿着路径，在每一步应用数学运算，就能得到答案。

“剪切”: 制造不可回答性

这就是 TREECUT 的独创之处。为了创建一个不可回答的问题，算法首先生成一棵完美的、可解的树。然后，它战略性地在关键路径的某处移除 (剪切) 一条边 。

图 1: 左图和中图分别描绘了对应于可回答问题和不可回答问题的树结构。在右图中，被划掉的句子代表被剪切操作移除的公式。

如上图 Figure 1 所示，请看左图和中图的区别:

左 (可回答) : 你可以画一条线从根 (顶部) 向下到 \(X_1\)，然后到 \(X_2\)，最后到 \(X_3\) (答案) 。每一步都是连接的。
中 (不可回答) : 研究人员引入了一个“剪切” (Cut，红色剪刀) 。\(X_1\) 和 \(X_2\) 之间的连接被切断了。如果你试图求解 \(X_3\)，你会走进死胡同。你可能知道 \(X_3\) 与 \(X_2\) 的关系，但你无法知道 \(X_2\) 是多少。
右 (文本) : 算法随后将这些树转化为自然语言。文本描述了汉堡和三明治的价格。“剪切”对应于删除连接汉堡价格和炒蛋价格的那句话。

这种方法允许研究人员精确控制难度。他们可以改变:

ansDepth: 树有多深？ (解决它需要多少步？)
numVars: 有多少总变量在干扰模型？
复合名称 (Composite Names): 我们是在谈论 “\(x\)” 和 “\(y\)"，还是“Bistro Nice 的汉堡”与“Urban Plate 的汉堡”？
cutDepth: 桥梁到底是在哪里断裂的？是在开头附近还是结尾附近？

实验与结果

研究人员测试了几种最先进的模型，包括 Llama 3.1、Qwen2.5、GPT-4o 以及侧重推理的 o3-mini。他们使用了“零样本”提示，意味着他们没有预先给模型示例；他们只是要求模型解决问题，或者在条件不足时回答“Answer: unknown”。

结果令人震惊。

表 1: 不同 ansDepth 值下，各种 LLM 在不可回答问题上的幻觉百分比 (零样本提示)

Table 1 (上图) 显示了幻觉百分比——即当模型应该说“未知”时，它编造答案的频率。

Llama-8B 几乎完全失败，无论复杂度如何，幻觉率都超过 80%。
GPT-4o 被广泛认为是最好的通用模型之一，随着问题变深，它也挣扎得很厉害。在 ansDepth = 8 (一个需要 8 个逻辑步骤的问题) 时，GPT-4o 在 64.0% 的情况下产生了幻觉。
o3-mini 是专门为推理设计的模型，表现较好，但在较简单的问题 (ansDepth = 2) 上却表现出惊人的不稳定，幻觉率达到 44.0% 。

“推理”陷阱

为什么 o3-mini 在简单问题上表现不佳？论文揭示了一个迷人的行为。推理模型被训练为寻找解决方案。当 o3-mini 遇到缺失的环节 (例如，知道“A 店的汉堡”价格，但需要“B 店的汉堡”价格) 时，它经常编造一个假设 。

它会推理说: “通常，在数学问题中，同名商品的价格是一样的。因此，我假设价格相等。”

这就是一种幻觉。在这些严格定义的数学应用题背景下，仅仅因为变量共享一个名字就假设两个不同的变量相等，在逻辑上是无效的。模型足够“聪明”以意识到数据缺失，但又足够“偏执”以强行得出一个解决方案。

分析: 什么触发了幻觉？

因为 TREECUT 是合成的，研究人员可以调整参数来确切地观察是什么让 AI 感到困惑。他们分析了 GPT-4o 在不同条件下的表现。

1. 复杂性与干扰

第一个主要发现是复杂性诱发幻觉 。

图 2: 不同配置的不可回答问题下的幻觉百分比，随 ansDepth 变化绘图。

Figure 2 展示了随着问题变得“更深” (X 轴) ，幻觉率是如何攀升的。但请看线条之间的分离:

橙线 (复杂结构) : 这些代表带有额外分支的树——即不属于主要解题路径的干扰变量。这里的幻觉率始终高于蓝线 (简单路径) 。
实线 (复合名称) : 这是最有趣的心理学洞察。实线代表使用复杂名称 (如*“Texas BBQ 的希腊沙拉”*) 的问题，而非简单名称。实线显著高于虚线。
结论: 如果你只是给变量起复杂的名字并添加一些无关的事实，GPT-4o 就更有可能产生幻觉，给出一个不可解问题的答案。语义噪声分散了推理能力的注意力。

2. 困惑的“低谷”

研究人员还调查了缺失信息所在的位置。缺失的环节是在链条的开头还是结尾有关系吗？

图 3: 幻觉百分比与 cutDepth 的关系。左图 ansDepth = 7。右图 ansDepth = 8

Figure 3 绘制了幻觉与 cutDepth (剪切位置距离被提问变量有多远) 的关系图。

低 CutDepth (图表左侧) : 剪切位置靠近被提问变量 (链条的末端) 。模型通常能发现这一点。
高 CutDepth (图表右侧) : 剪切位置靠近根节点 (链条的起点) 。模型通常也能发现这一点。
中间 (峰值) : 请看中间巨大的尖峰 (深度 3-5 左右) 。

当逻辑断裂发生在长推理链的中间时，模型会感到困惑。它成功地开始了推理过程，并且能看到终点的目标，但它忽略了中间的缺口，很可能是幻觉出了一座桥梁来连接推导过程的两个有效半段。

结论

TREECUT 论文对现代 LLM 的“推理”能力进行了冷静的检验。虽然它们可以完美地进行算术运算并遵循模式，但它们缺乏强大的自我意识来识别逻辑链何时断裂——尤其是当这种断裂隐藏在复杂问题的深处或被冗长的描述所掩盖时。

这项研究的主要结论是:

高幻觉率: 即使是像 GPT-4o 和 o3-mini 这样的顶尖模型，也经常为不可回答的数学问题编造答案。
结构脆弱性: 当问题很深、包含干扰信息或使用复合名称 (语义复杂性) 时，模型最脆弱。
中间剪切效应: 当缺失信息出现在推理链的中间时，AI 最难检测到。

TREECUT 为开发者和研究人员提供了一个有价值的工具。通过使用系统地探测这些弱点的合成数据集，我们可以超越简单的准确率指标，开始评估我们的 AI 模型是在真正地推理，还是仅仅擅长猜测。未来的工作可能会集中在训练模型专门识别逻辑中的这些“剪切”，让我们离知道自己不知道什么的 AI 更近一步。

引言#

问题所在: 熟练度 vs. 真正的推理#

核心方法: 生成与修剪树结构#

理解树结构#

“剪切”: 制造不可回答性#

实验与结果#

“推理”陷阱#

分析: 什么触发了幻觉？#

1. 复杂性与干扰#

2. 困惑的“低谷”#

结论#

引言