引言: LLM 的“祖父悖论”

想象一下你在阅读一个逻辑谜题: “Marian 和她的妹妹 Michelle 去买鞋了。Darnell 的祖父 Stanley 教她折纸飞机，与此同时她的母亲 Marian 正在做晚饭。请问 Michelle 和 Stanley 之间是什么亲属关系？”

对于人类来说，这需要稍微停顿一下。你可能会在脑海中构建一个图像或快速画个草图: Stanley 是 Darnell 的祖父。Marian 是 Darnell 的母亲 (所以 Marian 是 Stanley 的女儿) 。Michelle 是 Marian 的妹妹。因此，Michelle 也是 Stanley 的女儿。

像 GPT-4 这样的大型语言模型 (LLM) 虽然极其流畅，但在遇到这种多步推理时往往会跌跟头。它们是逐个 token 线性处理文本的。当关系被掩埋在叙述中，或者当“节点 A” (Michelle) 与“节点 B” (Stanley) 被大量无关的上下文 (如买鞋或纸飞机) 隔开时，模型往往会丢失线索。它可能会产生幻觉，臆造出一段关系，或者仅仅根据词语的接近程度进行猜测。

在一篇题为 “Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text” 的精彩论文中，来自加州大学洛杉矶分校 (UCLA) 和英特尔实验室的研究人员提出了一种解决方案，既不需要重新训练模型，也不需要使用昂贵的外部工具。相反，他们教 LLM 以图 (Graph) 的方式进行“思考”。

本文将探讨他们的 结构导向提示 (Structure Guided Prompt) 框架——这是一种零样本 (zero-shot) 方法，显式地指示 LLM 将文本转换为图，并导航该图以寻找答案。

挑战: 为什么线性思维者在面对网状数据时会挣扎

要理解解决方案，我们必须先理解问题所在。LLM 是概率引擎。它们根据前面的上下文预测下一个单词。然而，推理问题，特别是那些涉及实体和关系的问题，很少是线性的，它们是结构性的。

标准的提示方法，包括流行的 思维链 (Chain-of-Thought, CoT) (即我们要求模型“一步步思考”) ，仍然主要依赖于逻辑的线性推导。虽然 CoT 有所帮助，但在以下情况下往往会失效:

存在歧义: 自然语言是混乱的。“她的母亲”在不同的上下文中可能指代不同的人。
充满干扰: 无关的细节 (如买鞋) 分散了模型的注意力。
链条过长: 需要的步骤越多 (A \(\rightarrow\) B \(\rightarrow\) C \(\rightarrow\) D) ，模型产生幻觉连接的概率就越高。

研究人员认为，人类通过在大脑中创建 知识图谱 (Knowledge Graphs, KGs) 来处理这个问题。我们提取实体 (人、物体) 和边 (关系) 来验证逻辑。

一个示例说明了人类如何处理多步问题。人类通常会创建一个图来可视化关系，然后基于该图一步步进行推断。

如上图 2 所示，为了解决 Marian/Stanley 问题，人类会隐式地画出家谱。这篇论文提出的问题是: 我们能否提示 LLM 显式地执行这个同样的图构建过程？

解决方案: 结构导向提示

这篇论文的核心贡献是一个三阶段的提示框架。它是 任务无关 (task-agnostic) 的 (适用于家谱、逻辑谜题、物体追踪等) ，也是 零样本 (zero-shot) 的 (不需要训练示例) 。

该框架迫使 LLM 放慢速度，将其处理模式从“预测文本”切换为“构建和遍历图”。

第一阶段: 概念图构建

在第一阶段，提示指示 LLM 阅读非结构化文本并将其转换为结构化的图格式。模型识别实体 (节点) 及其关系 (边) 。

例如，给定一个关于家庭的故事，模型会创建三元组:

(Marian, hasSister, Michelle)
(Darnell, hasGrandfather, Stanley)
(Marian, hasMotherOf, Darnell)

通过显式生成这些事实，模型使其理解“落地”。它过滤掉了噪音 (纸飞机和买鞋) ，只保留了结构逻辑。

来自 CLUTRR 数据集的故事的图表示。目标是确定 Seth 和 Jeremy 之间的家庭关系。

图 3 展示了 LLM 在脑海中构建的内容。虽然文本可能有一段长，但提炼出的图揭示了从 Seth 到 Jeremy 的实际路径。

第二阶段: 特定任务规划

一旦建立了图，仅仅“拥有”它是不够的。模型需要一个关于如何使用它的计划。这就是该框架区别于通用提示的地方。根据问题的类型，导航策略也会发生变化。

研究人员针对不同任务确定了不同的规划策略:

关系预测: 如果问题问“X 和 Y 有什么关系？”，计划就是在图中找到节点 X 和节点 Y 之间的最短路径。
动态实体预测: 如果问题涉及随时间的变化 (例如，“Alice 把球给了 Bob，然后 Bob 把它给了 Charlie”) ，计划就是逐步跟踪状态变化以更新图。
图排序: 如果问题要求排序 (例如，“谁是第二高的？”) ，计划就是基于关系属性排列节点。

第三阶段: 执行

最后，LLM 使用它构建的图来执行计划。它通过遍历节点生成回答。

回到图 3 中的例子 (Seth 和 Jeremy) :

图: 模型看到 Seth \(\rightarrow\) Christian \(\rightarrow\) Jonathan \(\rightarrow\) Ruth \(\rightarrow\) Stephanie \(\rightarrow\) Jeremy。
计划: 追踪路径。
执行:

Seth 是 Christian 的父亲。
Christian 是 Jonathan 的兄弟 (所以 Seth 是 Jonathan 的父亲) 。
Jonathan 有个妹妹 Ruth (Seth 是 Ruth 的父亲) 。
Ruth 有个女儿 Stephanie (Seth 是 Stephanie 的祖父) 。
Stephanie 有个兄弟 Jeremy。
结论: Seth 是 Jeremy 的祖父。

通过强制这种显式遍历，模型避免了基于表面词语联想而“妄下结论”。

应用框架: 多样化的推理任务

研究人员在几类不同的推理问题上测试了这个框架。理解“推理”不是单一的技能，而是能力的集合，这一点至关重要。

1. 关系预测 (家谱问题)

这是经典的多跳问题。正如在 CLUTRR 数据集讨论的那样，模型必须根据已声明的关系 (“父亲的兄弟”) 推断未声明的关系 (如“叔叔”或“孙子”) 。图结构在这里特别强大，因为家谱本质上就是图。

2. 动态知识图谱上的实体预测

这是标准 LLM 最难的任务之一。考虑一下“贝壳游戏”或追踪被打乱的物体。

*场景: * “Alice 有一个红球。Bob 有一个蓝球。Alice 和 Bob 交换了。然后 Bob 把他的球给了 Charlie。Charlie 有什么颜色的球？”
*问题: * 标准 LLM 往往在多次交换后丢失当前状态的线索。
*解决方案: * 结构导向提示指示模型在每个时间步 (\(t_0, t_1, t_2...\)) 更新图，确保最终状态是准确的。

3. 复杂实体预测 (桥接)

这涉及需要在不同上下文或段落之间跳转的问题，常见于 HotpotQA 数据集。

HotpotQA 中的桥接问题。它依赖于多跳顺序推理来回答问题。

如图 4 所示，回答“《星火燎原》 (Catching Fire) 的女主角几岁了？”需要两个明显的跳跃:

确定《星火燎原》的主角 (Katniss Everdeen) 。
找到 Katniss Everdeen 的年龄。

该框架引导 LLM 将其分解为子问题，将第一跳的答案作为第二跳的关键。

4. 逻辑推断

这涉及三段论和蕴通 (例如，“所有人都会死。苏格拉底是人。所以……”) 。提示引导模型将前提视为节点，将逻辑蕴涵视为有向边，执行“前向链式推理”以得出结论。

实验与结果

“像图一样思考”真的有用吗？研究人员将他们的方法与两个基线进行了比较:

标准提示: 直接问问题。
零样本思维链 (0-CoT) : 附加“让我们一步步思考”。

他们在 GPT-3.5 和 GPT-4 上进行了测试。结果具有统计显著性。

结果摘要显示，结构导向提示在各种任务中始终优于 0-CoT。

如图 1 所示，蓝色条形 (结构导向提示) 始终显著高于橙色条形 (0-CoT) 。

数据中的关键观察

让我们更详细地看一下性能细分。

详细的条形图比较了不同方法在关系预测、图排序和逻辑推断等任务上的表现。

动态追踪的巨大提升

请看图 5 中的 “Entity Prediction over Dynamic KG” 图表。这是该方法最耀眼的地方。在追踪被打乱的物体 (3、5 或 7 个物体) 时，随着复杂性增加，标准 CoT 的性能迅速下降。结构导向提示保持了高得多的准确率，因为它显式地追踪了图中的状态变化。

对路径长度的鲁棒性

在 关系预测 任务 (CLUTRR) 中，随着“跳数” (关系距离) 从 3 增加到 10，标准模型的性能直线下降。基于图的方法受到的性能衰减要小得多。一旦图建立起来，遍历 5 个节点并不比遍历 3 个节点难多少。

“结论”瓶颈

在案例研究中发现了一个有趣的失败模式。有时，LLM 会构建出完美的图并追踪到正确的路径，但在最后一个 token 生成时仍然会产生幻觉，给出错误的最终答案。

*例子: * 模型正确地追踪到 Alice 正在和 Lola 跳舞。它写出了“Alice 正在和 Lola 跳舞”。但当被要求选择选项 A、B 或 C 时，它可能会莫名其妙地选择了错误的字母。
*启示: * 这表明虽然推理能力得到了提升，“答案提取”阶段仍然具有概率模型固有的脆弱性。

讨论: 为什么这很重要？

这篇论文的意义不仅仅在于在基准测试中获得更高的分数。它告诉了我们关于如何与大型语言模型交互的一些根本性问题。

1. 结构是“力量倍增器”

LLM 是在海量非结构化文本上训练的。然而，当我们强迫它们将数据结构化时，它们的推理能力就被解锁了。我们不需要为了做到这一点而训练新模型；这种能力是潜在的，等待着正确的提示来激发。

2. 外部知识图谱的局限性

以前的方法通常试图将 LLM 与外部数据库或知识图谱引擎 (如 Neo4j) 结合起来。虽然这种方法很强大，但它既复杂又昂贵。这篇论文证明，对于许多推理任务, LLM 可以成为自己的知识图谱 。它可以从提供的上下文中即时提取结构。

3. 语言与逻辑之间的鸿沟

论文指出了一个局限性: 知识图谱是僵化的。它们难以捕捉文学作品中的细微差别、情感或“模糊”逻辑。图可以表示“Alice 是 Bob 的妹妹”，但它很难表示“Alice 暗暗嫉妒 Bob”。虽然结构导向提示解决了逻辑谜题，但它可能不是细致文学分析的银弹。

结论

“结构导向提示”框架为提示工程的未来提供了一个引人注目的蓝图。通过模仿人类可视化的认知过程——将一大段文本转化为心理地图——我们可以帮助 LLM 以更高的准确率处理复杂的多步推理任务。

对于学生和从业者来说，结论很清楚: 当要求 AI 解决复杂问题时，不要只问答案。先让它把地图画出来。

本博客文章基于 Kewei Cheng, Nesreen K. Ahmed, Theodore Willke 和 Yizhou Sun 的论文 “Structure Guided Prompt: Instructing Large Language Model in Multi-Step Reasoning by Exploring Graph Structure of the Text” 撰写。

引言: LLM 的“祖父悖论”#

挑战: 为什么线性思维者在面对网状数据时会挣扎#

解决方案: 结构导向提示#

第一阶段: 概念图构建#

第二阶段: 特定任务规划#

第三阶段: 执行#

应用框架: 多样化的推理任务#

1. 关系预测 (家谱问题)#

2. 动态知识图谱上的实体预测#

3. 复杂实体预测 (桥接)#

4. 逻辑推断#

实验与结果#

数据中的关键观察#

动态追踪的巨大提升#

对路径长度的鲁棒性#

“结论”瓶颈#

讨论: 为什么这很重要？#

1. 结构是“力量倍增器”#

2. 外部知识图谱的局限性#

3. 语言与逻辑之间的鸿沟#

结论#