引言
在大型语言模型 (LLM) 飞速发展的今天,我们撞上了一堵奇怪的墙: 考生比考题更聪明了。曾经被认为很难的基准测试——涵盖从高中化学到专业法律考试的各类内容——现在正逐渐“饱和”。模型的分数越来越高,以至于越来越难以区分优秀的模型和卓越的模型。
当一个基准测试饱和时,研究人员通常有两个选择。第一种是从头开始构建一个全新的、更难的数据集。这既昂贵又耗时,还需要专家进行人工标注。第二种选择是利用现有的基准测试并尝试增加其难度。最近的尝试包括在问题中添加更多的“干扰项” (错误答案) ,以降低猜对的几率。然而,生成看似合理且不会意外混淆正确答案的干扰项,其本身就是一个巨大的挑战。
但是,如果有一种更简单的方法呢?如果我们可以在不编写任何新问题的情况下,拿来任何现有的多项选择题测试,并立即让它变得更难呢?
这就引出了 WiCkeD (Wild-Card Distractor,通配符干扰项) ,这是由巴斯克大学和 Reka AI 的研究人员提出的一种新方法。他们的方法简单得令人难以置信: 随机将其中一个选项替换为 “以上皆非” (None of the above) 。
这篇博文将深入探讨 WiCkeD 方法论。我们将探讨为什么这个简单的改变会对现代 LLM 造成严重破坏,正确实施它所需的算法细节,以及测试结果向我们揭示了当今最流行模型的哪些推理能力。
背景: 多项选择题的问题
要理解为什么 WiCkeD 是必要的,我们需要先看看目前我们是如何评估 AI 的。多项选择题 (MCQ) 基准测试,如 MMLU (大规模多任务语言理解) 或 CommonsenseQA,是行业标准。它们由一个问题和一组选项 (A、B、C、D) 组成。
然而,当应用于 LLM 时,这些基准测试存在几个关键的漏洞:
- 排除法: LLM 可能不知道正确答案。但是,如果它能识别出选项 A、B 和 C 肯定是错的,它就会默认选择 D。它拿到了分,但并不是真的“懂”答案——它只是知道答案“不是”什么。
- 概率偏差: 研究表明,模型往往对特定的选项标签 (如偏好选“C”而不是“A”) 存在偏见,或者依赖于表面模式而不是深度理解。
- 缺乏否定知识: 对 AI (以及人类) 来说,最难做的事情之一就是识别缺失。标准 MCQ 很少测试这种能力: “我对这个主题足够了解,可以断定这些答案都不对。”
在教育心理学中,“以上皆非”是一个众所周知的工具。它能防止学生通过排除法进行猜测。要正确回答“以上皆非”的问题,你必需验证每一个干扰项的虚假性和答案的正确性。如果正确答案缺失,你必须有信心拒绝所有提供的选项。
研究人员假设,本质上作为统计预测引擎的 LLM 会在这种格式上遇到重大困难。
WiCkeD 方法论
这篇论文的核心贡献是一个框架,它可以自动将任何现有的 MCQ 基准测试转换为 WiCkeD 变体。
核心概念
直觉很简单。在标准 MCQ 中,模型的任务是:
\[ \text{Select } \argmax(P(A), P(B), P(C), P(D)) \]在 WiCkeD MCQ 中,一个选项被移除并替换为“以上皆非”。
- 场景 1: 算法移除一个干扰项 (错误答案) 。正确答案保留。模型必须识别出正确答案并意识到“以上皆非”是错误的。
- 场景 2: 算法移除正确答案。现在,“以上皆非”变成了正确选项。模型必须认识到所有剩余的选项都是不正确的。
让我们看一个来自 MMLU-Pro 数据集的具体例子,看看它是如何改变游戏规则的。

在上面的 图 1 中,请看关于旋转木马受力的第二个问题。
- 左侧 (原始) : 正确答案是“Centrifugal” (离心力,选项 A) 。模型 (Llama-3.1 8B) 以高置信度正确识别了它。
- 右侧 (WiCkeD) : 选项“Centrifugal”已被移除。选项 C 现在是“Torsal”,选项 D 是“以上皆非”。实际正确答案现在是选项 D (因为离心力缺失了) 。然而,模型错误地转向了选项 C (“Torsal”) 。
这表明,虽然模型知道“离心力”与问题有关,但它缺乏推理能力来意识到“Torsal”是错的,并且真正的答案缺失了。
一致性的挑战: SBA 与 SCA
你可能认为只需编写一个脚本来随机交换任何数据集中的选项即可。然而,研究人员发现这种方法存在一个致命缺陷。并非所有的多项选择题都是一样的。大体上,它们分为两类:
- 单一正确答案 (SCA) : 只有一个事实真理。所有其他选项都是错误的。 (例如,“2+2等于几?”选项: 3、4、5。只有 4 是正确的) 。
- 单一最佳答案 (SBA) : 可能有多个选项在技术上是正确的或部分正确的,但其中一个是最合适或最具体的。 (例如,“X 的最佳治疗方法是什么?”选项可能包括两种有效的治疗方法,但其中一种是主要的护理标准) 。
如果你盲目地将 WiCkeD 变换应用于 SBA 问题,可能会破坏问题的逻辑。
考虑 图 2 中的例子:

在上方的问题 (原始) 中,用户询问“媒介融合”的定义。选项 D 是最佳答案。选项 A 是次佳答案。
如果算法移除了选项 D (最佳答案) 并添加了“以上皆非”,从逻辑上讲,答案概念上应该是“以上皆非” (因为最佳答案不见了) 。 但是 , 选项 A (次佳答案) 仍然存在。在没有 D 的情况下,选项 A 变成了新的“最佳”答案。如果基准测试将“以上皆非”标记为正确,就会惩罚选择 A 的模型,而 A 实际上是剩余选项中的有效选择。这会导致数据集逻辑不连贯。
解决方案: SBA 分类器
为了解决这个问题,作者构建了一个管道来过滤掉 SBA 问题。
- 他们从主要基准测试中抽样问题。
- 他们使用 GPT-4o-mini 将它们标记为 SBA (单一最佳答案) 或 SCA (单一正确答案) 。
- 他们利用这些标签训练了一个基于 BERT 的分类器,以实现低成本和高速度。
WiCkeD 的规则是: 如果一个问题被分类为 SBA,则逐字复制。不要改变它。
这确保了“以上皆非”的逻辑仅应用于事实性问题,即移除答案肯定会使所有其他选项变为错误的情况。这一质量控制步骤对于保持基准测试的有效性至关重要。
实验设置
研究人员将 WiCkeD 应用于六个流行的基准测试:
- MMLU & MMLU-Pro: 通用知识和推理。
- MMLU-Redux: MMLU 的更清晰版本。
- CommonsenseQA: 常识推理。
- Truthful-QA: 衡量模型幻觉。
- Arc-challenge: 复杂推理。
他们评估了 18 个开源权重 LLM , 包括以下变体:
- Qwen-2.5 (7B, 14B, 72B)
- Llama-3.1 (8B, 70B)
- Mistral (7B)
- Gemma-2 (9B, 27B)
- DeepSeek-R1 (蒸馏模型)
提示策略
模型使用标准的多项选择提示进行评估。给定上下文 \(c\) 和问题 \(q\),答案 \(a\) 的概率由模型计算得出。

模型最终选择概率最高的答案:

他们使用了 5-shot 提示 (提供 5 个示例) ,以确保模型至少看到一个“以上皆非”是正确答案的实例,从而帮助它理解这种格式。
结果与分析
结果非常明显。几乎每个模型在从原始基准测试切换到 WiCkeD 变体时,性能都出现了大幅下降。
性能下降
让我们看看 表 1 中的主要结果。

列 \(\Delta\) (Delta) 代表准确率的下降。
- 显著退化: 平均而言,模型下降了 12.1 分 。
- Qwen-2.5 7B 遭受了最严重的打击,下降了近 19.7% 。 这表明,虽然 Qwen 在标准基准测试中表现出色,但它在很大程度上依赖于排除法或 WiCkeD 所破坏的表面模式。
- 推理模型的鲁棒性: DeepSeek-R1 模型 (蒸馏版) 表现出最小的降幅 (约 7%) 。DeepSeek-R1 以其“推理”训练 (思维链) 而闻名。这意味着受过“思考”训练而不仅仅是预测 token 的模型,能更好地处理“以上皆非”这种曲线球。
- 排行榜洗牌: WiCkeD 改变了排名。在 MMLU 上看起来旗鼓相当的模型突然出现了差距。例如,Qwen2.5-7B 最初的表现接近 Llama-3.1-70B,但在 WiCkeD 上,它落后了 13%。
“思维链”有帮助吗?
有人可能会说,模型失败只是因为没有给它们足够的时间去“思考”。如果我们使用思维链 (CoT) 提示——即要求模型在回答之前解释其推理过程——性能差距会消失吗?
研究人员在 MMLU、MMLU-Pro 和 MMLU-Redux 上对此进行了测试。

如 表 2 所示,使用 CoT 通常会提高分数 (“CoT WiCkeD”列的绝对数字高于“Direct WiCkeD”) 。 然而,退化 (\(\Delta\)) 仍然存在。
即使有了 CoT,模型在 WiCkeD 上的表现也明显差于原始数据集。这证明了 WiCkeD 的难度不仅仅是一个格式陷阱;它代表了解决问题所需的推理复杂度的真实增加。
有趣的是,在使用 CoT 时, 指令微调 (IT) 模型比基础模型更好地应对了这种转换。
分析模型行为
为什么指令微调模型在使用 CoT 时表现更好?研究人员分析了模型回答的具体变化。

图 3 可视化了三类行为:
- 一致回答 (蓝色) : 模型在原始版本和 WiCkeD 版本中都回答正确。
- 新增正确 (橙色) : 模型最初错了,但在 WiCkeD 版本中做对了 (很少见,但会发生) 。
- 反转正确 (绿色) : 模型最初是对的,但在 WiCkeD 中失败了。
该图表比较了基础模型 (左) 与指令微调模型 (右) 。指令微调模型拥有略高比例的“新增正确”以及不同的错误分布。论文中的定性分析表明,当正确答案缺失时,指令微调模型不太容易产生幻觉编造答案;当推理引导它们得出结论时,它们更愿意选择“以上皆非”选项。
结论与启示
WiCkeD 论文引入了一个迷人的悖论: 有时,测试知识的最好方法是移除答案。
通过随机将选项替换为“以上皆非”,研究人员揭示了许多 LLM 是“应试高手”——它们擅长考试,但在实际知识方面可能不如我们想象的那么稳健。WiCkeD 有效地瓦解了“排除法”策略,迫使模型更严格地验证信息。
主要收获:
- 基准测试比看起来更难: MMLU 上的高分并不总是意味着高智能。
- 缺失即信息: 检测正确答案缺失比挑选存在的正确答案需要更高阶的推理。
- 推理模型胜出: 像 DeepSeek-R1 这样针对推理进行优化的模型,对这种类型的干扰具有更强的适应力。
这种方法为 AI 社区提供了一条极具成本效益的前进道路。与其花费数百万资金创建新的数据集,不如让我们现有的数据集变得“wicked” (极度) 困难,推动下一代模型不仅仅成为优秀的猜测者,而是真正的推理者。
](https://deep-paper.org/en/paper/2502.18316/images/cover.png)