引言
“重要的不是你说什么,而是你怎么说。”
这句古老的格言通常适用于人际关系,意味着语气和表达方式与信息本身同样重要。出人意料的是,这条规则同样严格适用于大型语言模型 (LLMs) 。
如果你曾花数小时微调 ChatGPT 或 LLaMA 的提示词——这里改个词,那里加个“请”字——你就经历过提示词工程 (Prompt Engineering) 中那种常令人沮丧的艺术。我们知道指令的细微变化会导致截然不同的输出,但直到最近,这个过程主要还是基于直觉和试错。
如果我们能将这种艺术转化为科学呢?如果我们能确切地知道 哪些 语言上的改变——比如替换名词、改变动词时态或调整句子结构——实际上能帮助模型表现得更好呢?
Jan Philip Wahle 及其同事近期发表的一篇题为 “Paraphrase Types Elicit Prompt Engineering Capabilities” 的研究论文正好解决了这个问题。通过在 120 项任务中系统性地测试数十万种提示词变体,研究人员为理解语言细微差别如何塑造机器智能提供了路线图。
在这篇深度解读中,我们将探索他们的方法,剖析他们的发现,并揭示为什么“改写” (Paraphrasing) 可能是你提示词工程工具箱中最强大的工具。
核心问题: LLM 的敏感性
LLM 通过遵循指令来模拟人类互动。然而,人类通常可以忽略措辞去推断意图,但 LLM 对语法和词汇极其敏感。
试想一个简单的指令:
- “Avoid procrastination.” (避免拖延。)
- “Stop postponing what you have to do.” (停止推迟你必须做的事。)
对人类来说,这些句子在语义上是相同的。但对 LLM 来说,它们是两条截然不同的向量路径,可能导致不同质量的输出。研究人员认为,改写提供了“一扇通往提示词工程核心的窗口”。通过分析模型对特定类型改写的反应,我们可以确定模型看重哪些语言特征、它们理解什么以及它们的缺陷在哪里。
方法论: 系统化提示词
研究人员不仅仅是随机重写提示词;他们应用了一套严谨的语言变化分类法。他们评估了 五个主要模型 (Command R+, LLaMA 3 70B, LLaMA 3 8B, Mixtral 8x7B, 和 Gemma 7B) ,涵盖 120 个不同的 NLP 任务 (从情感分析到代码生成) 。
改写流程
该研究的核心方法包括选取一个原始任务提示词,并使用受控生成模型生成 26 个特定的变体。这些变体被归类为六个语言变化“家族”。

如图 2 所示,流程从原始提示词流向特定的语言过滤器。以下是他们测试的分类细则:
- Morphology (形态学): 单词形式的改变 (例如,将 “assign” 改为 “assignment”,或将 “must” 改为 “should”) 。
- Lexicon (词汇): 词汇的改变。用同义词替换或改变特指度 (例如,将 “text” 改为 “paragraph”) 。
- Syntax (语法): 语法结构的改变 (例如,将主动语态改为被动语态,或改变否定形式) 。
- Lexico-Syntax (词汇-语法): 选词与结构的混合 (例如,将 “buy” 换成 “purchase”,这可能会改变周围介词的用法) 。
- Discourse (语篇/话语): 语流或风格的改变,例如标点符号或从直接引语变为间接引语。
- Others (其他): 重新排列单词或添加/删除非必要信息。
为了直观地了解本研究中的具体提示词长什么样,请看下图 10 中用于 “NumerSense” 任务的模板。模型必须预测一个缺失的数字。研究人员会提取该模板中的指令文本,并应用上述的语言变化。

结果: 措辞有多重要?
主要结果显而易见: 改写提示词可以带来巨大的性能提升。
研究人员测量了“潜在增益” (Potential Gain) ,即如果针对特定任务选择了最佳的改写类型,性能 (使用 ROUGE-L 指标) 可以提升多少。

如图 1 所示,潜在的上升空间非常显著:
- Gemma 7B 显示了巨大的 13.4% 的潜在增益。
- Mixtral 8x7B 显示了 6.7% 的增益。
- LLaMA 3 8B 显示了 5.5% 的增益。
这张图表表明,目前的模型性能通常只是一个“下限”。解决任务的智能存在于模型之中,但它需要特定的“钥匙”——正确的语言措辞——来解锁它。
哪些语言杠杆作用最大?
并非所有的改写都是生而平等的。有些改变会困扰模型,而另一些则能阐明指令。该研究按语言组分解了性能影响。

图 3 揭示了影响力的层级:
- Lexicon Changes (词汇变化,+1.26% 中位数增益): 简单地替换词汇 (例如 “detect” vs. “find”) 具有最高的中位数影响。这表明模型有“偏好词”或与特定术语相关的特定关联,能触发更好的能力。
- Syntax Changes (语法变化,+1.19% 中位数增益): 改变句子结构有显著帮助。这可能简单到重新排列从句以优先强调最重要的指令。
- Morphology (形态变化,-0.87% 中位数损失): 有趣的是,形态变化 (如改变动词时态或单复数形式) 平均而言往往会 损害 性能,尽管它们在特定的利基领域可能非常有效。
为了更好地理解这种粒度,我们可以查看这些组内的具体 类型。

图 11 详细列出了这些子类型。请注意, “Same Polarity Substitution” (用另一个正面同义词替换正面词) 产生了 +1.32% 的增益,而 “Inflectional changes” (屈折变化,如将 run 改为 running) 导致了损失。这种细微差别至关重要: 它意味着在刷新词汇的同时保持情感色彩和意图 (极性) 是一种致胜策略。
提示词的缩放定律
更聪明的模型需要更少的提示词工程吗?数据表明是的。
研究发现模型大小与对改写的敏感度之间存在强相关性。较小的模型 (如 Gemma 7B) 是不稳定的;它们可能因糟糕的提示词而严重失败,但也可能因好的提示词而表现出色。较大的模型 (如 LLaMA 3 70B) 更稳健——它们不太可能被糟糕的措辞搞糊涂,但也无法从完美的措辞中获得那么多增益。

图 12 形象化了这种比较。蓝点 (LLaMA 3 8B) 的分布比橙点 (70B) 宽得多。
- 要点: 如果你为了节省推理成本而部署较小、较便宜的模型,你的提示词工程策略就变得至关重要。通过优化提示词,你实际上可以“越级挑战”,使 8B 模型的表现更接近 70B 模型的基线。
为什么改写有效? (破除假设)
研究人员仔细检查了混杂因素,以解释 为什么 这些改变能提高性能。
假设 1: 这只是死记硬背
理论: 也许改写后的提示词看起来更像模型训练时的数据 (如 CommonCrawl 或 Wikipedia) ,所以模型更容易完成它们。 发现: 不。
研究人员将提示词与 FineWeb 语料库 (3500 亿个 token) 进行了对比。他们计算了 \(\Delta_{train}\) ——即原始提示词和改写提示词与训练数据相似度的差异。

图 5 展示了结果。如果“记忆”理论成立,我们会看到高性能点 (红色/黄色) 聚集在 x 轴的最右侧 (高相似度) 。相反,高性能是垂直分布的。最成功的提示词通常 不是 那些最接近训练数据的提示词。
假设 2: 复杂度和长度
理论: 也许更长、更啰嗦的提示词给了模型“更多思考时间”,或者更短、更有力的提示词更清晰。 发现: 没有相关性。

表 2 显示了提示词复杂度指标 (如 token 数量) 与性能之间的 Pearson 相关性。这些值始终接近于零 (例如 0.02) 。这表明仅仅增加单词或使提示词变得“复杂”并不会本质上导致更好的结果。重要的是改变的 语义,而不是长度。
假设 3: 这只是随机性 (温度)
理论: LLM 是概率性的。也许“更好”的提示词只是恰好在随机种子下运气好? 发现: 基本上是错误的。

图 7 绘制了不同温度设置 (从 0.0 到 1.0) 下的性能差异。虽然高温引入了随机性,但研究发现,即使在低温下 (模型最确定的时候) ,改写带来的性能增益依然存在。这证实了提示词中的语言信号推动了改进,而不是靠运气。
创造力的代价: 词汇多样性
还有最后一个权衡需要考虑。如果我们为了准确性 (得到“正确”答案) 而优化提示词,我们会失去创造力吗?
研究人员使用 RTTR (根型符-形符比) 等指标测量了 词汇多样性 , 看看当准确率上升时,模型的输出是否变得重复或枯燥。

图 6 揭示了一个混合的结果。对于像 摘要生成 (Summarization,品红点) 这样的任务,你可以击中“甜蜜点” (右上象限) ,即同时获得更好的性能 和 高词汇多样性。然而,对于 问题重写 (Question Rewriting,红点) ,准确性的提高往往导致词汇多样性的降低。
这意味着,如果你的目标是创意写作,你可能需要与目标是精确逻辑或数据提取时不同的改写策略。
结论
论文 “Paraphrase Types Elicit Prompt Engineering Capabilities” 让我们从提示词的“黑魔法”视角转向更工程化的方法。
以下是给学生和从业者的关键要点:
- 不要满足于初稿: 你的第一个提示词很少是最好的。改写是一种有效且高影响力的优化策略。
- 关注词汇和语法: 不要只是增加指令;尝试替换动词和改变句子结构。这些能带来最高的回报。
- 小模型需要更好的提示词: 如果你的算力有限 (例如使用 LLaMA 8B 或 Gemma 7B) ,提示词工程是你提升性能最有效的杠杆。
- 与长度无关: 把提示词写长并不会让它变聪明。让它在语言上更精确才会。
随着 LLM 的不断进化,人类意图与机器执行之间的接口仍然是自然语言。理解“提示词语言学”不再仅仅是 NLP 研究人员的事——它是任何在这些强大模型之上构建应用的人的必备技能。
](https://deep-paper.org/en/paper/2406.19898/images/cover.png)