何时说“我不知道”：教多语言 LLM 学会拒绝回答

如果你曾经试用过 ChatGPT 或类似的大语言模型 (LLM) ，你很可能遇到过“幻觉”——即模型自信地陈述一个完全错误的事实的时刻。对于讲英语的人来说，随着模型的改进，这些错误变得越来越少见。然而，对于数十亿讲“低资源”语言 (即训练数据中代表性较低的语言，如泰米尔语、泰卢固语或马拉地语) 的人来说，可靠性差距是巨大的。

当 LLM 不知道答案时，最安全的举措是拒绝回答 (abstain) ——简单地说，“我不知道”。但在多语言环境中，教模型何时回答、何时拒绝回答是一个复杂的挑战。

在这篇文章中，我们将深入探讨一篇引人入胜的研究论文，题为 *“Teaching LLMs to Abstain across Languages via Multilingual Feedback” (通过多语言反馈教 LLM 跨语言拒绝回答) *。研究人员提出了一种新颖的方法，利用不同语言之间的关系来帮助 LLM 进行自我反思，最终使人工智能对每个人都更加可靠和公平。

问题所在: 多语言可靠性差距

我们通常假设，如果一个 AI 在英语方面很聪明，那么它在其他语言方面也一定很聪明。不幸的是，事实并非如此。多语言 LLM 经常表现出严重的知识差异。它们可能是英语或法语的百科全书式专家，但在尼泊尔语或马拉雅拉姆语的基本事实面前却举步维艰。

解决幻觉的标准方案是教模型衡量其自身的置信度。如果置信度低，模型就拒绝回答。研究人员已经开发了各种“拒绝回答策略”，包括校准 (检查 token 概率) 、提示 (询问模型“你确定吗？”) 和训练。

问题在于？这些策略几乎完全是针对英语开发和测试的。当研究人员将这些标准的、以英语为中心的拒绝回答策略应用于低资源语言时，结果令人沮丧。

$Figure 1: Average accuracy of abstention baselines in low- and high-resource languages with AYA-13B. Existing abstain strategies drop by \$8 . 4 \\%\$ on average when applied to QA in low-resource languages.$

如上图 Figure 1 所示，当从高资源语言 (红色柱状) 转向低资源语言 (蓝色柱状) 时，“拒绝回答准确率 (Abstain Accuracy) ” (即正确决定何时回答与何时保持沉默的能力) 显著下降。在 MMLU 数据集上，现有策略的有效性下降了 12.8%。

本质上，在低资源语言中，LLM 不仅更有可能出错，而且更不善于知道自己错了。

解决方案: 多语言反馈

这篇论文的核心假设既简单又精彩: 视角 (Perspective) 。

如果你不确定某个答案，你可能会征求朋友的第二意见。如果你问一个和你想法完全一样的朋友，他们可能只是确认了你的偏见。但如果你问背景或视角略有不同的朋友，他们的反馈可能会帮助你意识到自己的错误。

研究人员将这一逻辑应用于 LLM。他们不再要求模型用英语 (这可能与当地语境脱节) 或仅用目标语言 (模型可能在该语言上较弱) 来反思其答案，而是要求模型用相关语言生成反馈。

它是如何工作的

所提出的方法称为通过多语言反馈拒绝回答 (Abstaining via Multilingual Feedback) , 遵循三个步骤:

提出答案: LLM 用目标语言 (例如乌克兰语) 生成问题的答案。
生成反馈: 提示 LLM 批评自己的答案。关键在于，它会用几种不同的语言生成这种反馈。
拒绝回答决策: 基于这些多样化的反馈，模型决定原始答案是“真” (保留) 还是“假” (拒绝回答) 。

Figure 2: Overview of abstaining via multilingual feedback.LLMs generate feedback on its proposed answer in four language settings to make abstain decisions.

Figure 2 展示了这一工作流程。请看标记为“Multilingual, Related” (多语言，相关) 的右下角象限。当模型被问到一个乌克兰语的问题时，它会寻求相关斯拉夫语言 (如斯洛伐克语、俄语和波兰语) 的反馈。这种“语言家族”的方法为模型评估自身工作提供了更丰富的背景。

为什么要用“相关”语言？

为什么不直接使用随机语言？或者干脆只用英语？

研究人员测试了四种特定设置，以查看哪种效果最好:

单语-母语 (Mono-Native) : 仅用问题的原始语言生成反馈。
单语-英语 (Mono-English) : 所有反馈均用英语 (资源最丰富的语言) 生成。
多语-随机 (Multi-Random) : 用随机语言生成反馈。
多语-相关 (Multi-Related) : 用在语言学或文化上与问题语言接近的语言生成反馈。

为了从数学上确定哪些语言是“相关的”，研究人员使用了 Lang2vec , 这是一种基于语言属性 (句法、音系、地理等) 将语言表示为向量的工具。他们使用以下公式计算语言之间的距离:

$()\n\\mathrm { d i s t } ( \\ell , \\ell ^ { \\prime } ) = \\frac { 1 } { | \\mathbf { \\nabla } \\mathcal { A } | } \\sum _ { a \\in \\mathcal { A } } \\frac { \\left( \\pmb { v } _ { \\ell } ^ { a } \\right) ^ { T } \\pmb { v } _ { \\ell ^ { \\prime } } ^ { a } } { | \\pmb { v } _ { \\ell } ^ { a } | | \\pmb { v } _ { \\ell ^ { \\prime } } ^ { a } | }\n[$

通过最小化这个距离，他们可以为任何给定语言选择最相关的邻居——例如，当问题是卡纳达语时寻求泰卢固语的反馈，或者当问题是加泰罗尼亚语时寻求西班牙语的反馈。

这种方法为何有效: 冲突的力量

你可能认为只用英语 (单语-英语) 效果最好，因为 LLM 在英语方面最强。然而，结果显示并非如此。

研究人员分析了在这些不同设置中生成的反馈类型。他们将反馈分为四种角色:

相似 (Similar) : 只是重复答案。
不相关 (Unrelated) : 产生完全不相关的幻觉。
互补 (Complementary) : 增加新的、支持性的信息。
冲突 (Conflicting) : 不同意提出的答案。

冲突的反馈实际上是好事。 它迫使模型停下来思考: “等等，如果我的反馈说这是错的，也许我应该拒绝回答。”

$Figure 3: GPT-4 evaluation of the role of the \$k\$ pieces of feedback to a given question: whether they are similar,complementary, conflicting,or unrelated.We also present the abstain accuracy in each feedback role below the role name, showing that conflicting feedback are best for LLM self-reflection while Multi-related has the most conflicting feedback scenarios.$

Figure 3 显示, 多语-相关 (Multi-Related) 方法 (右下) 产生的冲突反馈 (蓝色部分) 和互补反馈 (橙色部分) 比例最高。单语方法往往会产生“相似”的反馈 (绿色部分) ，制造了一个回声室效应，模型只是因为错误的答案而自我表扬。

此外，当让 GPT-4 判断反馈质量时，它发现“多语-相关”的反馈比其他替代方案更具相关性和信息量。

Figure 4: GPT-4 evaluation of feedback pairs to the same question, comparing MULTI-RELATED against other feedback settings to evaluate which produces more relevant and informative feedback.

如 Figure 4 所示，“多语-相关”反馈在与母语和纯英语策略的正面交锋中胜出，特别是在与问题的特定文化或语言细微差别相关性方面。

实验结果

研究人员使用三个模型 (Aya-13B、ChatGPT 和 GPT-4) 在涉及常识推理和一般知识的多个数据集上评估了他们的方法。

头条结果: 多语-相关策略始终优于强大的基线。它在低资源语言的拒绝回答准确率上实现了高达 9.2% 的提升 。

这种提升并没有以牺牲高资源语言为代价；该方法在那里仍然具有竞争力。但真正的胜利在于缩小了差距——使模型对讲卡纳达语和马拉地语等语言的人更安全。

公平和权益

平均准确率可能会掩盖不平等。如果一个模型在英语中准确率为 99%，而在孟加拉语中为 10%，平均值可能看起来还可以，但系统本质上是不公平的。

研究人员使用基尼系数 (Gini coefficient) 来衡量权益 (Equity) ——这通常是经济学中用来衡量财富不平等的指标。在这种语境下，较低的基尼系数意味着模型在不同语言间的表现更加平等。

$]\n\\mathrm { G } = \\frac { 1 } { | \\mathcal { L } | } \\Big ( | \\mathcal { L } | + 1 - 2 \\frac { \\sum _ { i = 1 } ^ { | \\mathcal { L } | } ( | \\mathcal { L } | + 1 - i ) \\mathrm { u } _ { i } } { \\sum _ { i = 1 } ^ { | \\mathcal { L } | } \\mathrm { u } _ { i } } \\Big )\n[$

$]\n\\mathrm { M } _ { \\tau } = \\sum _ { \\ell \\in \\mathcal { L } } \\mathrm { d } \\boldsymbol { \\ell } ^ { \\tau } \\cdot \\mathrm { u } _ { \\ell } , \\ \\mathrm { d } _ { \\ell } = \\frac { \\mathrm { n } _ { \\ell } } { \\sum _ { \\ell \\in \\mathcal { L } } \\mathrm { n } _ { \\ell } }\n()$

使用这些指标，发现“多语-相关”方法是最公平的。它创造了一种“水涨船高”的效应，而不仅仅是针对主导语言进行优化。

文化的作用

这篇论文最深刻的发现之一是: 语言不仅仅是代码；它是文化。

研究人员按不同因素分解了语言的“相关性”: 句法 (语法) 、地理 (位置) 、音系 (声音) 和文化 (价值观) 。

Table 3: Performance averages for high, mid,and lowresource languages,as well as the equity metric G for various language relatedness settings. Best performance in bold and second-best in underline. Culturally informed language selection is best for mid and lowresource languages and also more equitable.

Table 3 揭示了一个迷人的见解: 文化 (基于世界价值观调查) 是选择反馈语言以提高公平性的最有效指标。这表明，当 LLM 试图回答问题时，共享文化框架与共享语法根源同样重要。

通过观察模型在哪里失败，这一点得到了进一步支持。

Figure 6 比较了不同主题下高资源和低资源语言之间的拒绝回答准确率差距。

右侧 (差距大) : 诸如“美国外交政策”、“高中欧洲历史”和“道德纠纷”等主题。这些主题带有浓厚的文化色彩且以西方为中心。
左侧 (差距小) : 诸如“高中数学”、“解剖学”和“物理学”等主题。这些是客观、普遍的真理。

社会和文化主题上的巨大差距凸显出，低资源语言中的幻觉往往源于文化知识的匮乏，而不仅仅是词汇量的不足。

未来的启示

论文最后提出了几个前瞻性的实验，预示了该领域的发展方向。

1. 跨语言检索

在许多现实场景中，我们使用“检索增强生成” (RAG) ——即向 LLM 提供外部文档。如果我们将低资源查询翻译成英语来查找文档，我们还能使用多语言反馈吗？

Figure 7: Abstain accuracy in the cross-lingual retrieval setting, where English Wikipedia is employed forretrieval to aid QA in low-resource languages. Multilingual feedback consistently produces more accurate abstain decisions in six of the seven low-resource languages.

Figure 7 确认了这一点，是的，即使在使用英语文档进行检索时，“多语-相关”反馈方法 (绿色柱状) 通常也比基于概率或反思的基线更有助于模型做出更好的拒绝回答决策。

2. 模型协作

像 GPT-4 这样的大型通用模型能与像 Aya-13B 这样较小、专业的模型协同工作吗？

研究人员尝试使用 GPT-4 回答问题，但使用 Aya-13B 生成多语言反馈。

Table 4: Performance when using GPT-4 itself or the other AYA-13B multilingual LLM for feedback generation. The collaboration between a general-purpose LLM for QA and a smaller but more multilingual model for feedback generation benefits low-resource languages.

Table 4 显示这种协作实际上造福了低资源语言。较小的、文化多样化的模型充当了对大型、以西方为中心的模型的“检查”。

3. 为什么我们不能直接迁移决策

最后，你可能会想: “我们就不能把问题翻译成英语，看看模型在英语中是否拒绝回答，然后复制那个决定吗？”

Figure 5: Overlap of abstain decisions made in different languages,where the overlap indicates that LLMs abstain in both/all three of the languages.We find that abstain decisions are only somewhat transferrable between relevant and high-resource language clusters.

Figure 5 表明答案是“不能”。维恩图展示了拒绝回答决策的重叠情况。在右下角 (低资源) ，重叠很小。一个模型可能会自信地用英语回答一个问题，但在泰米尔语中对同一个问题产生幻觉。拒绝回答是一个特定于语言的问题。

结论

“迷失在翻译中 (Lost in translation) ”这个短语通常是关于意义的，但对于 AI 来说，它是关于可靠性的。随着我们推动全球 AI 的普及，我们不能将低资源语言仅仅视为英语的翻译。

这项研究表明, 多语言反馈——利用相关语言的集体智慧——是一个强大的工具。通过透过相关文化和语言家族的视角来识别知识差距，我们可以教导 LLM 变得谦逊。

提高“拒绝回答准确率”不仅仅是降低错误率；更是建立信任。正如这篇论文所示，通往可信赖 AI 的道路不是单语的——它在结构上是深度多语言的。

问题所在: 多语言可靠性差距#

解决方案: 多语言反馈#

它是如何工作的#

为什么要用“相关”语言？#

这种方法为何有效: 冲突的力量#

实验结果#

公平和权益#

文化的作用#

未来的启示#

1. 跨语言检索#

2. 模型协作#

3. 为什么我们不能直接迁移决策#

结论#