如果你有一部智能手机,那你大概率熟悉数百万人的晨间仪式: 打开《纽约时报》 (New York Times) 的游戏应用。虽然 Wordle 测试你的词汇量,Sudoku 测试你的逻辑,但有一款游戏总是能在各地的群聊中引发挫败感、喜悦和激烈的讨论: Connections 。
这个游戏的前提看似简单得具有欺骗性。你会得到 16 个单词。你的任务是将它们分成四个类别,每类四个单词。但正如任何玩家所知,这个游戏布满了“红鲱鱼” (误导项) 、冷僻知识和水平思维谜题,要求你不仅关注单词的含义,还要关注它的拼写、它的发音,或者在某个短语中它后面可能接什么词。
在人工智能领域,我们已经看到像 GPT-4 和 Claude 这样的大语言模型 (LLM) 在标准化考试、律师资格考试和编程挑战中大杀四方。但这些模型真的具备 抽象推理 能力吗?它们能否“跳出框框思考”,以此解开一个专门设计来误导你的谜题?
一篇题为 “Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game” 的引人入胜的研究论文正是探讨了这个问题。来自巴纳德学院、哥伦比亚大学和石溪大学的研究人员利用 Connections 游戏作为一个严格的基准,来测试最先进 AI 的流体智力。
在这篇深度文章中,我们将探讨他们的方法论、解决这些谜题所需的复杂知识分类体系,以及“人机大战”的惊人结果。
问题所在: 测量流体智力
这为什么很重要?我们知道 LLM 擅长 *晶体智力 (crystallized intelligence) *——即检索它们受训过的既有事实。如果你问 AI“法国的首都是哪里?”,它只需检索这种关联即可。
然而, 抽象推理 (通常与 流体智力 挂钩) 涉及解决新颖问题、在嘈杂数据中识别模式,以及在规则未明确说明的逻辑系统中工作。这是 AI 研究的前沿领域。以前的基准测试通常侧重于算术或常识推理,但目前尚不清楚 LLM 是否能处理像 Connections 游戏那样的高级联想任务。
测试平台: Connections 游戏如何运作
《纽约时报》于 2023 年 6 月推出的 Connections 游戏展示了一个 4x4 的网格。

玩家必须选出四个不同的组合。类别按难度用颜色编码:
- 黄色 (直观) : 最直观的分组 (例如,“水果类型”) 。
- 绿色: 稍难,通常涉及细微的语义关系。
- 蓝色: 需要百科全书式的知识或特定的联想。
- 紫色 (棘手) : 最难的级别。这些通常涉及文字游戏、填空 (例如,“跟在 ‘Hot’ 后面的词”) ,或语音陷阱。
挑战在于 红鲱鱼 (误导项) 。 游戏就像一个“对抗性环境”。像 “Rose” 这样的词可能属于花卉类,但也可能属于 “动词过去式” (rise/rose) 或 “女性名字”。要解开谜题,玩家必须同时在脑海中保留多个假设,并推导出唯一的配置,使 所有 16 个单词 都能完美地归入四个不同的组。
方法论: 知识分类学
为了科学地评估 LLM 的推理方式,研究人员不仅仅是统计输赢。他们开发了一套全面的 知识分类学 (taxonomy of knowledge) 。 他们分析了 438 场游戏 (跨度从 2023 年 6 月到 2024 年 8 月) ,并将每一个解决方案组分类为解决它所需的特定推理类型。
这种分类对于理解 AI 为什么 会失败至关重要。如下图所示,知识被分为三个主要分支:

1. 词形 (Word Form)
这个分支测试的是作为符号的单词知识,而不仅仅是其定义。
- 音韵学 (Phonology): 单词的发音 (例如,同音词) 。
- 拼写 (Orthography): 单词的拼写方式 (例如,变位词、回文) 。
- 形态学 (Morphology): 单词结构 (例如,以特定后缀如 “-ship” 或 “-ness” 结尾的词) 。
- 多词表达 (Multiword Expressions): 固定短语的一部分 (例如,“Words after PAY” -> Check, Dirt, Pal, Phone) 。这是模型经常挣扎的地方,因为从语义上看,“Dirt” (污垢/八卦) 与“Phone” (电话) 毫无关系;它们仅通过隐藏词“Pay”联系在一起 (Pay Dirt, Pay Phone) 。
2. 词义 (Word Meaning)
这是我们预期 LLM 擅长的领域。
- 语义关系 (Semantic Relations): 同义词、上位词 (属于关系) 和多义词 (多种含义) 。
- 联想关系 (Associative Relations): 单词不共享定义但共享语境。例如,“红色的东西” (火星、玫瑰、草莓、魔鬼) 。这些项目在语义上是不同的,但通过主题属性联系在一起。
- 百科知识 (Encyclopedic): 关于世界的事实。“报纸名称” (Globe, Mirror, Post, Sun) 。你需要知道 “The Sun” 是一份小报,而不仅仅是一颗恒星。
3. 词形 + 词义 (Word Form + Word Meaning)
最复杂的类别。它结合了结构知识与语义知识。论文中提供的一个例子是“社交媒体应用后缀” (Book, Gram, In, Tube) 。你必须知道语义实体 (Facebook, Instagram) ,并且 执行去除后缀的形态学操作。
难度的分布
研究人员对数据集中的 1,752 个类别进行了注释。如下表所示,绝大多数游戏依赖于 语义关系 (1045 个实例) ,这解释了为什么人类觉得这个游戏容易上手——我们天生对意义敏感。然而,近 200 个多词表达和百科线索的存在将其变成了一个逻辑谜题。

实验设置: LLM vs. 人类
研究人员测试了五个最先进的大语言模型:
- Gemini 1.5 Pro (Google)
- Claude 3.5 Sonnet (Anthropic)
- GPT-4o (OpenAI)
- Llama 3.1 405B (Meta)
- Mistral Large 2 (Mistral AI)
他们使用了带有 思维链 (Chain-of-Thought, CoT) 的 少样本提示 (Few-Shot Prompting) 。 这意味着他们不仅要求 AI 给出答案;他们还给出了如何玩游戏的示例,并明确要求它在给出最终分组之前“逐步解释你的推理”。这模仿了人类玩家的思考方式 (“好吧,这四个看起来像鱼的种类,但这儿等等,‘Bass’ 也可能是一种乐器……”) 。
评分指标
为了评估表现,研究使用了两个特定的方程。
1. 未加权聚类得分 (Unweighted Clustering Score): 这是模型正确识别出的组数 (满分 4 分) 的原始计数。

在这里,如果组是正确的,\(n_x\) 为 1,否则为 0。完美的游戏得分为 4。
2. 加权聚类得分 (Weighted Clustering Score): 该分数奖励模型解决更难类别的能力。

黄色类别 (最简单) 值 1 分 (\(w_0=1\)) ,而紫色类别 (最难) 值 4 分 (\(w_3=4\)) 。完美的加权得分为 10。
结果: LLM 表现如何?
对于 AI 爱好者来说,结果令人清醒。尽管这些模型能力巨大,但没有一个能持续“通关”。
排行榜
Claude 3.5 Sonnet 成为明显的赢家,但即使是“最好”的表现也远非完美。Claude 仅完全解决了 18% 的游戏 (所有 4 个类别都正确) 。
让我们看看未加权得分的频率:

仔细观察上面的图表 (来自论文的图 3) 。
- 零分: Mistral Large 2 在 438 场游戏中,有 185 场 (42%) 没能找对任何一组。
- 满分 (4): Claude 3.5 Sonnet 完成了 79 场完美游戏。Llama 3.1 405B 完成了 47 场。
- “单组”陷阱: 在所有模型中,一个非常普遍的结果是只找对 一组 (得分为 1 的柱状图相当高) 。这表明模型可以发现明显的“黄色”类别,但随着剩余单词变得更加抽象以及红鲱鱼收紧网罗,模型就崩溃了。
加权分数进一步说明了这种差距。

在上面的小提琴图中,你可以看到分数的密度。 Gemini 1.5 Pro 和 Mistral 的密度主要集中在底部 (分数 0-2) 。 Claude 和 GPT-4o 的分布更宽,延伸到了高分段,表明它们偶尔有能力解决“紫色”和“蓝色”类别,但表现并不稳定。
人类 vs. 机器: 现实检验
为了将这些数字具体化,研究人员招募了人类玩家。他们将玩家分为两组: 新手 (很少或没有经验) 和 专家 (常规玩家) 。
新手 vs. Claude 3.5 Sonnet
最好的 AI 与人类初学者相比如何?

在 100 场游戏的样本中:
- 新手 (橙色柱) 实际上相当挣扎,许多人得分是 0 或 1。
- Claude (蓝色柱) 在中段 (得分 1 或 2) 的表现略好于普通新手。
- *注意: * 图表显示新手在分数 “3” 上为 0。在 Connections 中,如果你找对了 3 组,第 4 组自动就对了 (因为只剩下那 4 个词) 。人类根本不可能得 “3” 分。然而,AI 有时会产生幻觉造词或重复使用单词,导致提交无效答案,虽然技术上可能包含 3 个正确的聚类,但违反了游戏规则。
专家 vs. Claude 3.5 Sonnet
这就是差距变得不可否认的地方。

在 50 场游戏的样本中:
- 专家 (棕色柱) 占据绝对优势。他们在 50 场游戏中由 32 场 (64%) 取得了满分 (4) 。
- Claude (蓝色柱) 仅完美解决了 10 场游戏 (20%) 。
这一结果至关重要。它证明了 NYT Connections 游戏并非“不可解”或“随机”。对于一个熟练的人类大脑来说,它是一个可解的逻辑谜题。最强大的 AI 模型连 20% 的解决率都难以达到,这一事实凸显了它们在抽象推理能力上的重大缺陷。
加权分数的分布加强了这一点。看看下图中专家人类的分布 (橙色) 与 Claude (蓝色) 的对比:

专家人类的分布是头重脚轻的 (聚集在 8-10 分) ,而 Claude 的分布则较低。
为什么 LLM 会失败?取证分析
该论文最有趣的贡献是对失败原因的分析。利用他们的分类法,研究人员指出了 LLM 特定的认知弱点。
1. “Token化”盲点 (词形)
LLM 将文本作为 “Token” (字符块) 处理,而不是作为视觉单词或语音声音处理。
- 形态学/拼写/音韵学: LLM 在这里表现糟糕。如果类别是“以 ‘S’ 开头的单词”,LLM 可能会错过它,因为单词的语义含义分散了它的注意力。
- 多词表达: 这是一个主要的失败点。
- *例子: * 跟在 “FIRE” 后面的词 -> Ant, Drill, Island, Opal。
- 对于 LLM 来说,“Opal”是一种宝石。“Fire Opal”是一个概念,但仅通过隐藏词“Fire”将“Opal”与“Ant”联系起来,需要多步跨越,这是当前架构难以处理的。
2. 语义拐杖
LLM 建立在海量文本数据之上,为语义关系创建了强大的向量嵌入。
- 语义关系: 这是 AI 的最强项。如果类别是“鱼的种类”,“Bass”、“Salmon”和“Trout”之间的向量相似度很高。
- 百科知识: 模型在这里也表现尚可 (例如,知道乐队的具体成员) ,前提是这些信息在其训练数据中。
下表完美地展示了这种差异。

看看 语义关系 (Semantic Relations) 和 百科 (Encyclopedic) 的柱子——它们很高。现在看看 多词表达 (Multiword Expressions) 和 词义 + 词形 (Word Meaning + Word Form) 。 准确率断崖式下跌。Claude 3.5 Sonnet (青色柱) 是唯一在“多词”类别中表现尚可的模型,这可能归功于对习语或短语动词的更好训练,但它在大多数情况下仍然失败。
3. 红鲱鱼问题
Connections 旨在欺骗你。它使用“干扰项”。
- 红鲱鱼类别: 三个词完美符合一个类别,但缺少第四个词。
- 红鲱鱼单词: 存在一个类别,但在棋盘上有 5 或 6 个词可以放入其中 (你只需要 4 个) 。
案例 1: 红鲱鱼类别 在下图中,单词 SKIM、WHOLE 和 SOY 被高亮显示。人类 (或 AI) 可能会立刻想到“牛奶类型”。但棋盘上没有第四种牛奶类型。AI 经常会产生幻觉,生造第四个连接,或者强行加入一个弱连接来满足“牛奶”的假设。实际上,这些词属于三个完全不同的组 (Whole -> Numbers 整数, Skim -> Touch lightly 掠过, Soy -> Sauces 酱油) 。

案例 2: 红鲱鱼单词 在下面的例子中,看看圣诞主题的单词: STOCKING, CANDY CANE, REINDEER, MISTLETOE。这看起来像一组!但等等……还有一个 SNOWMAN (未高亮) 。这里有 五个 圣诞单词。 谜题要求你意识到 “Candy Cane” 实际上属于“有条纹的东西”这一类,将其他四个留给圣诞类别。LLM (除了 Claude) 都掉进了这个陷阱,将 Candy Cane 与 Reindeer 归为一组,而未能检查是否存在更好的配置。

4. 答案正确,理由错误
有趣的是,研究人员发现有时 LLM 找对了组,但理由是错的。
- *推理与聚类的比率: * 研究人员计算了模型正确解释其分组的频率。
- 分类推理得分 (下表 6) 始终低于聚类得分 (上表 5) 。这意味着有些情况下,AI 靠运气或弱关联猜对了组,但未能识别出真正统一的主题 (例如“紫色”的文字游戏类别) 。

结论: “系统 2”的差距
这篇论文的发现表明,虽然 LLM 知识渊博,但它们缺乏“系统 2”思维。
- 系统 1 是快速、直观和联想性的 (就像发现“Salmon”和“Trout”是鱼) 。LLM 擅长于此。
- 系统 2 是缓慢、审慎和逻辑性的。它涉及说,“好吧,‘Star’ 适合这里,但如果我把 ‘Star’ 用在这一组,我就无法完成电影组。因此,我必须回溯并尝试不同的组合。”
NYT Connections 游戏是一次系统 2 的锻炼。它需要约束满足和全局优化——你不能只选前四个看起来相关的词;你必须确保 剩下 的 12 个词也能形成有效的分组。
接下来是什么?
论文总结道,为了打败 Connections,未来的 AI 系统可能需要:
- 迭代推理: 能够做出猜测,检查剩余单词,意识到冲突,并回溯 (类似于 AlphaGo 的下棋方式) 。
- 检索增强: 访问词典或 WordNet 以检查特定的词汇属性 (例如,“这个词是否以 ‘ship’ 结尾?”) 。
- 合成训练: 在专门设计用于教授水平思维和文字游戏的数据集上进行训练。
在那之前,人类专家可以高枕无忧了。你写代码的速度可能比不上 GPT-4o,但在弄清楚 “Sponge” (海绵) 、“Bob” (鲍勃) 、“Square” (方) 和 “Pants” (裤子) 属于一组 (组成海绵宝宝 SpongeBob SquarePants) 这件事上?你仍然是冠军。
这篇博文解读了 P. Samadarshi 等人 (2025) 的研究论文 “Connecting the Dots: Evaluating Abstract Reasoning Capabilities of LLMs Using the New York Times Connections Word Game”。
](https://deep-paper.org/en/paper/file-2885/images/cover.png)