引言

在自然语言处理 (NLP) 的快速演进中，我们通常假设“更多数据”和“更多结构”总是意味着更好的性能。多年来，提高语言模型水平的黄金标准是显式地教导它们语言的语法和逻辑结构——这一过程被称为 语义解析 (Semantic Parsing) 。

通过将杂乱的自然语言句子转换为结构化、逻辑化的形式 (就像图解说明谁对谁做了什么) ，我们帮助 BERT 等模型达到了最先进的结果。但随着我们要过渡到 GPT-4 和 LLaMA 等大型语言模型 (LLM) 的时代，一个奇怪的悖论出现了: 向这些巨型模型灌输显式的结构化数据往往会使它们表现得更差。

为什么这种对小模型如此有效的方法对大模型却失效了？更重要的是，我们能否在不破坏 LLM 的情况下，仍然利用语言结构的力量？

在这篇文章中，我们将深入探讨论文 “Rethinking Semantic Parsing for Large Language Models” (重新思考大型语言模型的语义解析) , 该论文提出了一个引人入胜的解决方案，称为 SENSE 。研究人员发现，与其向 LLM 强制灌输复杂的解析树，不如简单地提供一个“语义提示”——引导模型使用其内部的语法理解——这样可以显著提高其在理解、翻译和简化任务中的表现。

背景: 语义解析的作用

要理解 SENSE 的创新之处，我们需要先了解什么是语义解析以及它为何重要。

什么是语义解析？

语义解析是将自然语言句子翻译成机器可理解表示的任务。可以把它想象成加强版的句子图解。它分解句子以识别词语之间的关系。常见的框架包括:

语义角色标注 (Semantic Role Labeling, SRL): 识别句子中的谓语 (动作) 和论元 (参与者) 。例如，在“John ate the cake”中，John 是 *施事 (Agent) *，cake 是 *受事 (Patient) *。
抽象语义表示 (Abstract Meaning Representation, AMR): 一种基于图的表示方法，用于捕捉句子的逻辑，抽象掉具体的措辞以关注含义。

前 LLM 时代 vs. LLM 时代

在“较小”深度学习模型 (如 BERT 或 RoBERTa) 的时代，整合这些语义结构是提高性能的可靠方法。如果你在构建一个问答系统，向模型提供 SRL 标签有助于它更好地理解上下文。

然而，LLM 的运作方式不同。它们是在海量原始文本上训练的，并且已经隐式地学习了这些结构。这篇论文背后的研究人员提出了一个关键问题: 语义信息是否仍有助于提高 LLM 在下游任务上的表现?

他们的初步调查揭示了一个问题。当他们尝试将显式的解析结果 (如 AMR 图) 整合到 LLM 的输入中时，性能下降了。语义解析的复杂符号和模式似乎变成了噪声，非但没有帮助，反而困扰了模型。

问题: 显式注入失效

研究人员确定了三种与 LLM 交互的标准范式，如下图所示。

图 1: 评估 LLM 在下游任务上的不同方法。(a) 代表直接提示模型，(b) 和 (c) 分别从输入端或输出端添加语义解析结果。倒置的笑脸表示负面影响。我们的方法 SENSE 引入了语义提示，而不直接感知结果。

让我们分解一下 图 1 中展示的方法:

Vanilla (a): 标准方法。给 LLM 一个指令和输入，它给出答案。
SP-Input (b): 获取输入句子，通过外部解析器运行它以获得逻辑结构 (如 AMR 图) ，然后将该结构与原始句子一起粘贴到提示中。

*结果: * 性能下降。LLM 难以处理僵化的符号表示。

SP-Output (c): 要求 LLM 先自行生成解析树，然后利用它来回答问题。

*结果: * 性能下降。模型可能会生成错误的解析结果，从而误导其最终答案。

研究人员得出结论，显式注入解析结果会适得其反，因为它将模型限制在固定的解析类型中，并引入了“陌生的符号表示”。

解决方案: SENSE (语义提示)

如果输入语义解析的结果是坏事，那如果我们只是提醒模型语义解析的存在呢？

提出的方法 SENSE 采用了一种心理学式的提示方法。SENSE 不是提供解析后的数据，而是在提示中嵌入 语义提示 (Semantic Hints) 。

SENSE 如何工作

再看一遍 图 1(d) 。工作流程更简洁。模型没有获得解析树。相反，指令包含如下短语:

“请利用语义解析结果来增强对句子结构和语义的理解……” (Please use semantic parsing result to enhance comprehension of the sentence’s structure and semantics…)

这充当了一个触发器。它鼓励 LLM “利用其内部的语义解析能力”。这是一种零样本 (zero-shot) 方法，意味着不需要重新训练模型；只需要正确地提问。

用于不同任务的具体提示非常有启发性。它们不要求特定的输出格式 (如 JSON 或 XML) ；它们只是在语言学层面上对任务进行情境化。

图 2: 针对下游任务设计的 SENSE 示意图。

如图 图 2 所示，这种差异虽然微妙但很强大:

翻译: “利用有助于理解语法和语义的语义解析结果……”
改写: “使用可以增强理解的语义解析结果……”
简化: “在句子语义解析结果的帮助下……”

通过这种方式构建提示，LLM 被引导去关注句子的结构元素——动词、主语、关系——然后再生成回答。

实验结果

研究人员在各种 NLP 任务中测试了 SENSE，看看这种“安慰剂式”的提示是否真的有效。结果是一致的: SENSE 优于普通提示和显式解析方法。

1. 自然语言理解 (GLUE)

GLUE 基准测试是一组旨在测试模型“理解”语言程度的任务 (例如，情感分析、语法正确性、文本蕴通过) 。

下表将 SENSE 与标准基线 (如 GPT-3.5 和 LLaMA-3) 以及较旧的监督模型 (BERT) 进行了比较。

表 1: GLUE 基准测试的实验结果。

表 1 的主要结论:

缩小差距: 虽然 LLM 在这些特定任务上通常落后于微调过的 BERT 模型，但 SENSE 显著缩小了这一差距。例如，GPT-4o-mini 的平均准确率从 79.43% 提高到了 81.25% 。
持续的收益: 几乎所有任务都有所改进。看 MRPC (改写检测) ，GPT-4o-mini 从 72.30% 跃升至 76.47%。
模型无关性: 该方法对开源模型 (LLaMA-3) 和闭源模型 (GPT 系列) 同样有效。

2. 文本生成: 改写

改写要求模型用不同的词重写句子，同时保持完全相同的含义。这是在 语义相似度 (保持意义) 和 词汇/句法多样性 (改变词语和结构) 之间的一种微妙平衡。

表 2: 改写任务的实验结果。我们报告了源句与预测句之间的语言学指标。

表 2 的主要结论:

更低的词汇重叠: SENSE (标有 +SENSE 的行) 显著降低了词汇重叠 (GPT-4o-mini 从 39.00 降至 34.00) 。这意味着模型使用了 不同的词，而不仅仅是复制输入。
更高的句法多样性: 多样性分数增加，表明模型正在改变句子的语法结构，而不仅仅是替换同义词。
保持语义: 至关重要的是，语义相似度得分保持在高位 (约 90%) 。

这证实了语义提示促使模型深入理解句子结构并进行重构，而不是进行浅层的编辑。

3. 文本简化

文本简化涉及使句子更易于阅读。这通过 SARI (与参考进行比较) 和 SAMSA (衡量结构保留) 等指标来衡量。

表 3: 简化任务的实验结果。我们添加了两个指标，SARI 和 SAMSA，以评估输出的语义结构。

表 3 的主要结论:

SAMSA 分数激增: 最显著的改进在于 SAMSA 指标 (在 TurkCorpus 上从 31.42 升至 37.03) 。该指标专门衡量当结构被拆分或简化时，意义保留的程度。
BLEU 分数: 标准准确度指标 (BLEU) 也有显著提升 (58.16 到 63.42)。

4. 机器翻译

最后，作者在翻译任务 (WMT22 基准) 上测试了 SENSE。翻译需要对源语言和目标语言的语法都有深刻的掌握。

表 8: WMT22 上的实验结果。

表 8 的主要结论:

最先进的性能: 在德语到英语 (DE-EN) 任务中，SENSE 结合 GPT-3.5 实现了 86.44 的 COMET 分数，优于之前的“WMT-Best”系统。
思维链比较: 有趣的是，标准的思维链 (Chain-of-Thought, CoT) 提示 (“让我们一步步思考”) 实际上损害了翻译的性能 (见 +CoT 行) 。然而，SENSE 持续地提高了性能。

为什么 SENSE 有效？

这看起来像魔法。为什么在提示中增加一句关于“语义解析”的话会改变神经网络的数学输出？

为了调查这一点，研究人员可视化了模型的 Attention Scores (注意力分数) 。注意力机制决定了模型在生成输出时关注输入句子的哪些部分。

图 3: LLaMA3-70B 在改写任务中对源句子的注意力分数可视化。

图 3 提供了一个令人信服的视觉解释:

顶部热图 (案例 1) : 在句子 “What can make Physics easy to learn?” 中，Vanilla (普通) 提示的注意力分布有些松散。SENSE 提示 (深蓝色条) 将明显更高的注意力放在了单词 “Physics” 上。
底部热图 (案例 2) : 在复杂的特定技术命令中，SENSE 重点关注像 “terminal”、“C programming” 和 “shell” 这样的关键实体。

结论: 语义提示充当了一种聚焦机制。它抑制了模型关注功能词 (如 “the”, “a”, “is”) 的倾向，并将计算资源重新定向到承载核心语义的词语上。通过告诉模型“思考语义”，模型有效地更强烈地关注“承载意义”的词语。

与其他方法的比较

该论文有力地证明了 SENSE 不仅优于普通提示，而且优于以前利用结构的尝试。

对比显式解析 (SP-Input/Output): 如前所述，显式解析会引入噪声。SENSE 通过保持提示的整洁避免了这一点。
对比思维链 (CoT): CoT 在推理任务 (数学、逻辑) 中很有名。然而，研究人员发现 CoT 对翻译或分类等语言任务的效果较差。SENSE 似乎是语言中心任务的“CoT 等价物”。

结论与启示

“Rethinking Semantic Parsing for Large Language Models” 一文中提出的研究为提示工程师和 NLP 研究人员提供了宝贵的教训: 相信模型的内部表示。

我们并不总是需要提供外部工具或僵化的数据结构来获得更好的性能。LLM 已经摄取了整个互联网；它们知道什么是动词，什么是主语。它们只是需要被提醒去使用这些知识。

主要收获:

显式并不总是更好: 向 LLM 注入原始语义解析树会损害性能。
提示很强大: 一个简单的指令 (“使用语义解析”) 可以触发复杂的内部处理。
注意力很关键: SENSE 通过将模型的注意力重新定向到语义上重要的关键词来发挥作用。
广泛的适用性: 该方法适用于理解、改写、简化和翻译任务。

随着我们继续探索大型语言模型的能力，像 SENSE 这样的方法强调了提示工程的前沿不仅仅在于我们输入什么数据，还在于我们如何引导模型的“思维过程”来利用它已经知道的东西。

引言#

背景: 语义解析的作用#

什么是语义解析？#

前 LLM 时代 vs. LLM 时代#

问题: 显式注入失效#

解决方案: SENSE (语义提示)#

SENSE 如何工作#

实验结果#

1. 自然语言理解 (GLUE)#

2. 文本生成: 改写#

3. 文本简化#

4. 机器翻译#

为什么 SENSE 有效？#

与其他方法的比较#

结论与启示#

引言