引言: LLM 的“祖父悖论”
想象一下你在阅读一个逻辑谜题: “Marian 和她的妹妹 Michelle 去买鞋了。Darnell 的祖父 Stanley 教她折纸飞机,与此同时她的母亲 Marian 正在做晚饭。请问 Michelle 和 Stanley 之间是什么亲属关系?”
对于人类来说,这需要稍微停顿一下。你可能会在脑海中构建一个图像或快速画个草图: Stanley 是 Darnell 的祖父。Marian 是 Darnell 的母亲 (所以 Marian 是 Stanley 的女儿) 。Michelle 是 Marian 的妹妹。因此,Michelle 也是 Stanley 的女儿。
像 GPT-4 这样的大型语言模型 (LLM) 虽然极其流畅,但在遇到这种多步推理时往往会跌跟头。它们是逐个 token 线性处理文本的。当关系被掩埋在叙述中,或者当“节点 A” (Michelle) 与“节点 B” (Stanley) 被大量无关的上下文 (如买鞋或纸飞机) 隔开时,模型往往会丢失线索。它可能会产生幻觉,臆造出一段关系,或者仅仅根据词语的接近程度进行猜测。
在一篇题为 “Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text” 的精彩论文中,来自加州大学洛杉矶分校 (UCLA) 和英特尔实验室的研究人员提出了一种解决方案,既不需要重新训练模型,也不需要使用昂贵的外部工具。相反,他们教 LLM 以图 (Graph) 的方式进行“思考”。
本文将探讨他们的 结构导向提示 (Structure Guided Prompt) 框架——这是一种零样本 (zero-shot) 方法,显式地指示 LLM 将文本转换为图,并导航该图以寻找答案。
挑战: 为什么线性思维者在面对网状数据时会挣扎
要理解解决方案,我们必须先理解问题所在。LLM 是概率引擎。它们根据前面的上下文预测下一个单词。然而,推理问题,特别是那些涉及实体和关系的问题,很少是线性的,它们是结构性的。
标准的提示方法,包括流行的 思维链 (Chain-of-Thought, CoT) (即我们要求模型“一步步思考”) ,仍然主要依赖于逻辑的线性推导。虽然 CoT 有所帮助,但在以下情况下往往会失效:
- 存在歧义: 自然语言是混乱的。“她的母亲”在不同的上下文中可能指代不同的人。
- 充满干扰: 无关的细节 (如买鞋) 分散了模型的注意力。
- 链条过长: 需要的步骤越多 (A \(\rightarrow\) B \(\rightarrow\) C \(\rightarrow\) D) ,模型产生幻觉连接的概率就越高。
研究人员认为,人类通过在大脑中创建 知识图谱 (Knowledge Graphs, KGs) 来处理这个问题。我们提取实体 (人、物体) 和边 (关系) 来验证逻辑。

如上图 2 所示,为了解决 Marian/Stanley 问题,人类会隐式地画出家谱。这篇论文提出的问题是: 我们能否提示 LLM 显式地执行这个同样的图构建过程?
解决方案: 结构导向提示
这篇论文的核心贡献是一个三阶段的提示框架。它是 任务无关 (task-agnostic) 的 (适用于家谱、逻辑谜题、物体追踪等) ,也是 零样本 (zero-shot) 的 (不需要训练示例) 。
该框架迫使 LLM 放慢速度,将其处理模式从“预测文本”切换为“构建和遍历图”。
第一阶段: 概念图构建
在第一阶段,提示指示 LLM 阅读非结构化文本并将其转换为结构化的图格式。模型识别实体 (节点) 及其关系 (边) 。
例如,给定一个关于家庭的故事,模型会创建三元组:
- (Marian, hasSister, Michelle)
- (Darnell, hasGrandfather, Stanley)
- (Marian, hasMotherOf, Darnell)
通过显式生成这些事实,模型使其理解“落地”。它过滤掉了噪音 (纸飞机和买鞋) ,只保留了结构逻辑。

图 3 展示了 LLM 在脑海中构建的内容。虽然文本可能有一段长,但提炼出的图揭示了从 Seth 到 Jeremy 的实际路径。
第二阶段: 特定任务规划
一旦建立了图,仅仅“拥有”它是不够的。模型需要一个关于如何使用它的计划。这就是该框架区别于通用提示的地方。根据问题的类型,导航策略也会发生变化。
研究人员针对不同任务确定了不同的规划策略:
- 关系预测: 如果问题问“X 和 Y 有什么关系?”,计划就是在图中找到节点 X 和节点 Y 之间的最短路径。
- 动态实体预测: 如果问题涉及随时间的变化 (例如,“Alice 把球给了 Bob,然后 Bob 把它给了 Charlie”) ,计划就是逐步跟踪状态变化以更新图。
- 图排序: 如果问题要求排序 (例如,“谁是第二高的?”) ,计划就是基于关系属性排列节点。
第三阶段: 执行
最后,LLM 使用它构建的图来执行计划。它通过遍历节点生成回答。
回到图 3 中的例子 (Seth 和 Jeremy) :
- 图: 模型看到 Seth \(\rightarrow\) Christian \(\rightarrow\) Jonathan \(\rightarrow\) Ruth \(\rightarrow\) Stephanie \(\rightarrow\) Jeremy。
- 计划: 追踪路径。
- 执行:
- Seth 是 Christian 的父亲。
- Christian 是 Jonathan 的兄弟 (所以 Seth 是 Jonathan 的父亲) 。
- Jonathan 有个妹妹 Ruth (Seth 是 Ruth 的父亲) 。
- Ruth 有个女儿 Stephanie (Seth 是 Stephanie 的祖父) 。
- Stephanie 有个兄弟 Jeremy。
- 结论: Seth 是 Jeremy 的祖父。
通过强制这种显式遍历,模型避免了基于表面词语联想而“妄下结论”。
应用框架: 多样化的推理任务
研究人员在几类不同的推理问题上测试了这个框架。理解“推理”不是单一的技能,而是能力的集合,这一点至关重要。
1. 关系预测 (家谱问题)
这是经典的多跳问题。正如在 CLUTRR 数据集讨论的那样,模型必须根据已声明的关系 (“父亲的兄弟”) 推断未声明的关系 (如“叔叔”或“孙子”) 。图结构在这里特别强大,因为家谱本质上就是图。
2. 动态知识图谱上的实体预测
这是标准 LLM 最难的任务之一。考虑一下“贝壳游戏”或追踪被打乱的物体。
- *场景: * “Alice 有一个红球。Bob 有一个蓝球。Alice 和 Bob 交换了。然后 Bob 把他的球给了 Charlie。Charlie 有什么颜色的球?”
- *问题: * 标准 LLM 往往在多次交换后丢失当前状态的线索。
- *解决方案: * 结构导向提示指示模型在每个时间步 (\(t_0, t_1, t_2...\)) 更新图,确保最终状态是准确的。
3. 复杂实体预测 (桥接)
这涉及需要在不同上下文或段落之间跳转的问题,常见于 HotpotQA 数据集。

如图 4 所示,回答“《星火燎原》 (Catching Fire) 的女主角几岁了?”需要两个明显的跳跃:
- 确定《星火燎原》的主角 (Katniss Everdeen) 。
- 找到 Katniss Everdeen 的年龄。
该框架引导 LLM 将其分解为子问题,将第一跳的答案作为第二跳的关键。
4. 逻辑推断
这涉及三段论和蕴通 (例如,“所有人都会死。苏格拉底是人。所以……”) 。提示引导模型将前提视为节点,将逻辑蕴涵视为有向边,执行“前向链式推理”以得出结论。
实验与结果
“像图一样思考”真的有用吗?研究人员将他们的方法与两个基线进行了比较:
- 标准提示: 直接问问题。
- 零样本思维链 (0-CoT) : 附加“让我们一步步思考”。
他们在 GPT-3.5 和 GPT-4 上进行了测试。结果具有统计显著性。

如图 1 所示,蓝色条形 (结构导向提示) 始终显著高于橙色条形 (0-CoT) 。
数据中的关键观察
让我们更详细地看一下性能细分。

动态追踪的巨大提升
请看图 5 中的 “Entity Prediction over Dynamic KG” 图表。这是该方法最耀眼的地方。在追踪被打乱的物体 (3、5 或 7 个物体) 时,随着复杂性增加,标准 CoT 的性能迅速下降。结构导向提示保持了高得多的准确率,因为它显式地追踪了图中的状态变化。
对路径长度的鲁棒性
在 关系预测 任务 (CLUTRR) 中,随着“跳数” (关系距离) 从 3 增加到 10,标准模型的性能直线下降。基于图的方法受到的性能衰减要小得多。一旦图建立起来,遍历 5 个节点并不比遍历 3 个节点难多少。
“结论”瓶颈
在案例研究中发现了一个有趣的失败模式。有时,LLM 会构建出完美的图并追踪到正确的路径,但在最后一个 token 生成时仍然会产生幻觉,给出错误的最终答案。
- *例子: * 模型正确地追踪到 Alice 正在和 Lola 跳舞。它写出了“Alice 正在和 Lola 跳舞”。但当被要求选择选项 A、B 或 C 时,它可能会莫名其妙地选择了错误的字母。
- *启示: * 这表明虽然推理能力得到了提升,“答案提取”阶段仍然具有概率模型固有的脆弱性。
讨论: 为什么这很重要?
这篇论文的意义不仅仅在于在基准测试中获得更高的分数。它告诉了我们关于如何与大型语言模型交互的一些根本性问题。
1. 结构是“力量倍增器”
LLM 是在海量非结构化文本上训练的。然而,当我们强迫它们将数据结构化时,它们的推理能力就被解锁了。我们不需要为了做到这一点而训练新模型;这种能力是潜在的,等待着正确的提示来激发。
2. 外部知识图谱的局限性
以前的方法通常试图将 LLM 与外部数据库或知识图谱引擎 (如 Neo4j) 结合起来。虽然这种方法很强大,但它既复杂又昂贵。这篇论文证明,对于许多推理任务, LLM 可以成为自己的知识图谱 。 它可以从提供的上下文中即时提取结构。
3. 语言与逻辑之间的鸿沟
论文指出了一个局限性: 知识图谱是僵化的。它们难以捕捉文学作品中的细微差别、情感或“模糊”逻辑。图可以表示“Alice 是 Bob 的妹妹”,但它很难表示“Alice 暗暗嫉妒 Bob”。虽然结构导向提示解决了逻辑谜题,但它可能不是细致文学分析的银弹。
结论
“结构导向提示”框架为提示工程的未来提供了一个引人注目的蓝图。通过模仿人类可视化的认知过程——将一大段文本转化为心理地图——我们可以帮助 LLM 以更高的准确率处理复杂的多步推理任务。
对于学生和从业者来说,结论很清楚: 当要求 AI 解决复杂问题时,不要只问答案。先让它把地图画出来。
本博客文章基于 Kewei Cheng, Nesreen K. Ahmed, Theodore Willke 和 Yizhou Sun 的论文 “Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text” 撰写。
](https://deep-paper.org/en/paper/2402.13415/images/cover.png)