引言

我们正处于大语言模型 (LLM) 的“黄金时代”。从起草电子邮件到生成代码片段，像 GPT-4 和 Llama-2 这样的模型已经融入了我们的日常工作流程中。然而，当我们对这些模型进行基准测试时，我们通常将它们视为搜索引擎: 提出一个问题，得到一个答案，然后对结果进行评分。

但这真的是我们使用 AI 的方式吗？

在现实世界中，交互很少是一次性的事件。我们会聊天，我们会要求修改，我们会稍微改变话题，然后又回到之前的某个观点。我们会要求模型“记住我三条消息前说过的话”。这就是多轮交互的领域，对于 AI 而言，相较于回答独立的查询，这无疑是一项难度大得多的挑战。

虽然像 MMLU (大规模多任务语言理解) 这样的基准测试告诉我们模型拥有多少知识，但它们并不能告诉我们模型是否可以在不丢失上下文的情况下进行连贯的对话。为了解决这一盲点，来自香港中文大学和华为诺亚方舟实验室的研究团队推出了 MT-Eval 。

这篇论文提出了一个综合性的基准测试，专门用于拆解和评估 LLM 的多轮对话能力。在这篇文章中，我们将剖析他们的方法论，探讨他们识别出的四种对话模式，并审视那些令人深省的结果: 大多数模型，即使是强大的模型，当对话持续进行时，表现也会显著下降。

背景: 为什么多轮对话很难

在深入了解 MT-Eval 的具体方法之前，了解为什么多轮对话在计算和语言学上对 LLM 具有挑战性是很有帮助的。

当模型处理单个提示词 (Prompt) 时，它只需要关注当前的指令。而在多轮对话中，“上下文窗口”——模型必须考虑的文本量——随着每一次交流而增长。模型必须:

保留历史: 记住对话一开始陈述的事实。
忽略无关信息: 筛选之前的对话轮次，找到与当前查询相关的内容。
保持一致性: 确保新的回答不会与之前的回答相矛盾。
适应变化: 处理那些修改或细化先前约束条件的指令。

现有的基准测试 (如 MT-Bench) 试图对此进行衡量，但它们通常仅限于两轮 (一个问题和一个后续提问) 。MT-Eval 显著扩展了这一视野，在更长的会话中测试模型，以观察它们会在哪里“崩溃”。

MT-Eval: 方法论

这篇论文的核心贡献在于多轮交互的分类体系。研究人员分析了现实世界的用户数据 (来自 LMSYS-Chat-1M 数据集) ，并将人与 AI 的互动归类为四种截然不同的模式。

图 1: MT-Eval 中四种对话任务的示意图: Recollection (回忆) 、Expansion (扩展) 、Refinement (细化) 和 Follow-up (跟进) 。

如上图 1 所示，该基准测试围绕这四大支柱构建。让我们详细探讨每一个。

1. Recollection (回忆)

挑战: 模型能否记住对话开始时设定的规则？

在这个任务中，用户在第一轮就给出了一个全局指令。例如，“每个回答都以字母 ‘C’ 开头”或“不要使用任何逗号”。然后对话继续进行不相关的问题 (干扰项) 。如果模型回答了问题但忘记了它十轮前同意的格式规则，即视为失败。这测试了长期记忆和随时间推移的指令依从性。

2. Expansion (扩展)

挑战: 模型能否从多个角度讨论同一个话题？

在这里，用户停留在同一个主要主题上 (例如“《霍比特人》”) ，但要求提供各种类型的信息——摘要、角色细节或相关事实。模型需要理解上下文保持不变，而不需要用户在每个提示词中都显式重复书名。这测试了模型维持主题“状态”的能力。

挑战: 模型能否处理日益复杂的约束条件？

这模仿了一个非常常见的工作流程: 迭代草稿。

第 1 轮: “写一段关于这段文本的摘要。”
第 2 轮: “把它改成 JSON 格式。”
第 3 轮: “删除所有形容词。”

每一轮都增加一个新的约束或修改一个旧的约束。模型必须在脑海中堆叠这些指令。如果它只关注最新的指令 (“删除形容词”) 而忘记了之前的指令 (“做成 JSON”) ，它就失败了。这衡量了动态操作上下文的能力。

4. Follow-up (跟进)

挑战: 模型能否回答依赖于其自身先前输出的问题？

在跟进任务中，用户会问诸如“你为什么那么说？”或“多告诉我一些你提到的第二那个人的情况”之类的问题。如果不理解模型之前的生成内容，这些查询是不可能回答的。这测试了对话的连贯性和自我引用能力。

构建基准测试

为了确保基准测试的稳健性并避免数据泄露 (即模型在训练期间已经见过测试数据) ，作者使用混合方法构建了新的查询。他们使用 GPT-4 生成合成任务和文档——以确保新颖性——然后对其进行人工审查。

表 1: MT-Eval 的关键统计数据。

如表 1 所示，生成的数据集相当庞大。它包含 168 个对话会话中的 1,170 个轮次。平均提示词长度相当高 (超过 700 个单词) ，反映了要求模型处理的文档的复杂性。

实验与结果

研究人员评估了 11 个流行的大语言模型。其中包括:

闭源模型: GPT-3.5-Turbo, GPT-4。
开源模型: Llama-2-chat (7B, 13B), Vicuna-v1.5, ChatGLM3, Qwen-chat, Mistral-Instruct, 和 Mixtral-Instruct。

他们使用 GPT-4 作为裁判，对回复进行 1-10 分的评分，这种方法已被证明与人类评估高度相关。

排行榜

总体结果提供了当前 LLM 领域在对话能力方面的快照。

表 2: 四种对话任务中的多轮对话表现。

表 2 揭示了几个关键见解:

GPT-4 的统治地位: 不出所料，GPT-4 以 9.03 的平均分摘得桂冠。它是唯一一个在所有类别中始终得分很高的模型，特别是在 Recollection (回忆) 任务中 (9.61) ，而其他模型很难记住指令。
开源模型的崛起: 虽然闭源模型普遍领先，但像 Mixtral-Instruct-8x7B 和 Mistral-Instruct-7B 这样的模型正在奋起直追。在 Follow-up (跟进) 任务中，Mixtral 实际上获得了 9.52 分，表现优于 GPT-3.5-Turbo。
“Recollection (回忆) ”瓶颈: 看一下“Recollection”一栏的得分。虽然 GPT-4 得分为 9.61，但像 ChatGLM3 和 Llama-2-chat 这样优秀的模型却跌到了 2.9–3.8 的范围。这表明许多模型在长对话中保持约束条件方面存在系统性故障。

性能差距: 单轮 vs. 多轮

这就论文最关键的贡献在于单轮和多轮表现的比较。研究人员创建了查询的单轮版本，以观察仅仅因为对话的发生，性能会下降多少。

表 3: 各模型在不同对话任务中单轮和多轮设置下的表现。

表 3 (上图) 讲述了一个令人担忧的故事。括号中的数字显示了性能下降的幅度。

Llama-2-chat-13B 从单轮转到多轮时，分数下降了超过 2 整分 。
ChatGLM3 和 Mixtral 也出现了显著的退化。
GPT-4 最为稳健，仅下降了 0.33 分。

这证明了一个模型可能非常擅长回答孤立的问题 (Single-Turn ST) ，但当同一个问题成为历史记录的一部分时 (Multi-Turn MT) ，它就会崩溃。这种“差距”是对话脆弱性的一个度量指标。

模型为何会失败？

论文深入探讨了导致这种退化的原因。他们确定了两个主要罪魁祸首: 距离 (Distance) 和 错误传播 (Error Propagation) 。

1. 距离问题 (遗忘)

随着对话的进行，最初的指令 (例如“句子以 C 开头”) 与当前轮次之间的距离在增加。

图 3: 不同模型在 Recollection 任务中能够坚持指令的平均轮数。

图 3 展示了模型能“坚持”一条指令多久。

GPT-4 (绿色条) : 在几乎所有轮次中保持一致。
开源模型: 通常会立即失败或仅在几轮后失败。

例如，在“json_format”任务中，较弱的模型可能会在第一轮提供 JSON，但到第三轮就退回到纯文本。随着新的 Token 涌入它们的上下文窗口，它们只是简单地“忘记”了约束。

2. 细化的复杂性

在 Refinement (细化) 任务中，指令会堆积。模型必须同时处理当前的请求以及所有有效的先前请求。

图 2: Refinement 任务中随轮次变化的表现。

图 2 显示了 Refinement 任务中随轮次变化的性能轨迹。你可以看到几乎所有模型都呈普遍下降趋势。随着约束堆栈的增长，模型难以同时满足所有约束。 (第 7 轮的跳跃是因为任务重置为新话题，清除了积累的难度) 。

3. 错误传播 (雪球效应)

最有趣的发现之一是错误传播 。在多轮对话中，模型在第 3 轮的输入包括了它自己在第 2 轮的回答。如果第 2 轮的回答是错的，那么第 3 轮现在的条件就是基于错误数据的。

研究人员通过向模型提供“黄金”上下文 (人工修正的历史) 与“预测”上下文 (模型自己之前的历史) 来测试这一点。

结果: 当提供“黄金”历史时，模型的表现显著更好。
含义: 多轮对话失败的很大一部分原因不仅仅是不理解当前的查询；而是被之前的错误误导了。一旦模型产生幻觉或犯错，它往往会在随后的轮次中变本加厉地延续那个错误。

4. 干扰因素

模型有多容易分心？研究人员在文档和关于该文档的问题之间插入了不相关的“闲聊”轮次。

表 6: 在 Refinement 任务中插入不同数量的干扰轮次后各种 LLM 的表现。

表 6 显示了这些干扰的影响。当不相关的轮次被插入到文档和查询 “之间 (Between) ” 时，大多数模型的表现都会下降 (GPT-4 除外，它保持了稳健) 。这证实了增加与相关内容的距离会使检索变得更难，即使中间的内容仅仅是噪音。

与人类判断的一致性

对使用 GPT-4 作为裁判的一个常见批评是，它是否真实反映了人类的偏好。为了验证他们的自动评分，作者让人类标注者审查了数据的一个子集。

表 5: 不同任务中人类评分与 GPT-4 评分之间的相关性得分。

如表 5 所示，人类评分与 GPT-4 评分之间存在很强的相关性 (Pearson 0.65) 。这表明 MT-Eval 中使用的自动指标是衡量人类如何感知对话质量的可靠代理。

结论与启示

MT-Eval 对 LLM 社区来说是一次现实检验。虽然我们为知识基准测试的高分而欢呼，但这项研究强调了对话的鲁棒性是一种独立且更难的能力。

关键要点:

多轮差距: 不要相信单轮基准测试能预测聊天机器人的表现。随着对话的延长，模型性能会下降。
记忆是脆弱的: 除非你使用的是最先进的闭源模型，否则要预料到 AI 会忘记聊天早期设定的约束。
一步错，步步错: 错误传播意味着一次幻觉可能会破坏整个会话。
开源正在追赶: 像 Mixtral 这样的模型正在缩小差距，特别是在跟进问题 (Follow-up) 等任务中，尽管它们在长期回忆方面仍然落后。

对于学生和开发者来说，这篇论文强调了在现实的长上下文场景中测试应用程序的重要性。构建一个可靠的 AI 助手不仅仅是把第一个答案弄对——而是要让对话一轮接一轮地保持在正轨上。

第一句提示词之外：利用 MT-Eval 评估 LLM 如何处理长对话

引言

背景: 为什么多轮对话很难