打破 AI 数学的语言障碍：Cross-PAL 简介

数学常被称为通用语言。无论你用英语、中文还是斯瓦希里语来描述问题，像 \(20 - 12 + 5\) 这样的计算结果都是一样的。然而，对于大语言模型 (LLM) 来说，这种通用性并非理所当然。虽然像 GPT-4 这样的模型在英语环境下表现出惊人的推理能力，但当使用低资源语言进行提示时，它们的表现往往会大打折扣。

挑战在于多步推理 。解决一个应用题需要理解叙述内容，规划逻辑步骤序列，并执行计算。当 LLM 被迫在一种它未经过大量训练的语言中完成这些任务时，认知负荷往往过高，从而导致错误。

在这篇文章中，我们将探讨一篇提出新颖解决方案的研究论文: 跨语言程序辅助语言模型 (Cross-lingual Program-Aided Language Models，简称 Cross-PAL) 。这种方法利用计算机代码的严谨逻辑来跨越语言鸿沟，使模型能够在用高资源语言 (如英语) “思考”的同时，解决目标语言中的问题。

问题所在: 多语言推理的差距

上下文学习 (In-context learning) ——即通过少量示例提示模型——已经彻底改变了我们与 AI 交互的方式。像思维链 (Chain-of-Thought, CoT) 这样的技术鼓励模型在给出最终答案之前生成中间推理步骤 (例如，“首先，我将计算 X，然后计算 Y……”) 。这显著提高了数学和逻辑任务的准确性。

然而，CoT 有一个局限性: 它依赖于自然语言。如果你要求模型用泰卢固语或孟加拉语进行推理，而模型在这些语言上看到的训练数据有限，那么它内部的“独白”往往会变得语无伦次。

以往解决这个问题的尝试包括:

翻译: 将问题翻译成英语，解决它，然后再翻译回来。这会引入翻译错误。
原生 CoT: 强迫模型用目标语言进行思考。如果模型对该语言复杂推理的掌握较弱，这种方法就会失败。

Cross-PAL 背后的研究人员发现了一个缺失的环节: 结构。自然语言是歧义的，而代码不是。通过强迫模型将其推理结构化为计算机程序，我们可以将问题的逻辑与口语的语法解耦。

Cross-PAL 登场: 用代码进行推理

Cross-PAL 是一种跨语言对齐推理程序的方法。Cross-PAL 不要求模型写一段文本来解释解决方案，而是要求模型编写代码 (特别是 Python 风格的伪代码) 来解决问题。

其核心创新在于一种两步提示机制，它充当了用户语言与模型最强推理能力之间的桥梁。

架构

如下图所示，该过程分为两个明显的阶段: 理解器 (Understander) 和求解器 (Solver) 。

图 1: Cross-PAL 引导 LLM 生成跨语言的推理程序。在这个例子中，给定语言 Ls (中文) 中的独立问题，解决步骤为: (1) 生成英语的结构化规划策略， (2) 收集规划好的策略并在 Ls 中完成最终解答。自洽 Cross-PAL (SCross-PAL) 对齐不同的推理路径，对最终解答进行集成。

让我们用图 1 中的例子来分解这两个阶段，其中输入问题是中文 (\(L_s\)) 。

第一阶段: 跨语言理解器

在这第一步中，目标是理解问题并规划解决方案。提示要求 LLM 充当“多语言理解专家”。

关键在于，提示包含了一些示例 (少样本演示) ，其中问题是目标语言，但推理步骤 (代码注释和变量名) 使用的是高资源语言，通常是英语 (\(L_t\)) 。

为什么是英语？因为互联网上绝大多数代码——也就是模型的训练数据——都是用英语语法和注释编写的。

模型读取中文问题并生成推理路径。形式上，生成的规划 \(\mathcal{A}\) 是一个步骤序列 \(s_1 \dots s_n\)。这个生成过程基于输入问题 \(Q\)、源语言 \(L_s\) 和目标推理语言 \(L_t\) 进行最大化:

Equation 1

通过切换到英语进行规划阶段，模型利用了其最强的推理回路。它使用英语代码注释列出逻辑大纲: “定义初始棒棒糖变量”、“减去给出的棒棒糖”等。

第二阶段: 特定语言求解器

一旦在第一阶段生成了英语规划，系统就会进入求解器阶段。在这里，提示指示模型充当原始语言 (中文) 的程序员。

模型获取第一阶段生成的基于英语的规划，并将其转换为原始语言的最终可执行程序或结构化解决方案。这看起来可能有点反直觉——为什么要回到中文？目的是确保最终答案符合用户的请求，并验证当逻辑被重新置于源语言语境中时是否仍然成立。

最终解决方案的推理步骤 \(\mathcal{R}_t\) 是基于先前的规划 \(P\) 生成的:

Equation 2

最后，具体的答案 \(A_t\) (例如数字“11”) 是通过执行或解析这些推理步骤得出的:

Equation 3

这种“三明治”方法——输入 (\(L_s\)) \(\rightarrow\) 规划 (\(L_{English}\)) \(\rightarrow\) 输出 (\(L_s\)) ——允许模型使用英语作为认知拐杖，同时不丢失原始请求的上下文。

自洽性: 集成的力量

作者并没有止步于单一的推理路径。他们引入了自洽 Cross-PAL (SCross-PAL) 。

在复杂的推理中，即使是人类也可能用两种不同的方法来解决同一个问题，以复核他们的工作。SCross-PAL 也是这样做的。它提示模型生成跨越不同语言或变体的多条不同的推理路径。

例如，它可能会生成一个主要用英语思考的规划，另一个用中文思考，还有一个用德语思考。然后，它会查看所有这些路径得出的最终数字答案。

系统使用投票机制来选择最终答案。它选择在所有生成的路径 (\(A_t\)) 和语言 (\(L\)) 中出现频率最高的答案 \(\hat{A}\)。这种多数投票法过滤掉了可能仅在某个特定语言路径中出现的“幻觉”或计算错误。

Equation 4

这种集成方法显著提高了鲁棒性，确保一种语言中的语言细微差别不会破坏整个计算。

实验结果

研究人员在两个主要的跨语言数学基准测试上评估了 Cross-PAL: MGSM (多语言小学数学) 和 MSVAMP 。他们测试了多种语言，范围从高资源语言 (德语、法语) 到低资源语言 (斯瓦希里语、泰卢固语) 。

优于基线

结果令人信服。Cross-PAL 始终优于直接提示和标准的思维链 (CoT) 方法。

在 MSVAMP 基准测试中，下面的雷达图可视化了性能覆盖范围。线条离中心越远，准确率越高。

图 2: MSVAMP 上的准确率 (%)。

注意红线( Cross-PAL )和紫线( SCross-PAL )。它们包围了内部线条 (直接提示和其他基线) ，表明在几乎所有测试语言中 (包括泰语 (th) 和孟加拉语 (bn)) 都具有卓越的性能。

跨语言的一致性

当我们将 Cross-PAL 与“原生 (Native) ”版本进行比较时，Cross-PAL 的有效性得到了进一步凸显。作者进行了一项实验，比较了 Cross-PAL (使用英语作为中间规划语言) 与“原生”版本 (中间规划直接在目标语言中进行) 。

图 3: 使用 CrossPAL、SCross-PAL、Cross-PAL(Native) 和 SCrossPAL(Native) 在 MGSM 上的准确率 (%)。

如图 3 所示，标准 Cross-PAL (蓝色柱状图) 通常优于或匹配原生版本 (绿色柱状图) ，特别是在低资源语言中。这证实了假设: 注入基于英语的结构化规划有助于模型在其他语言中更好地进行推理。

小模型的扩展性

最重要的发现之一是，这种方法并不仅限于像 GPT-4 这样的大型模型。作者在较小的开源模型上测试了 Cross-PAL，如 Llama-2-7b、Llama-3-8b 和 Phi-3 。

表 2: 使用 Cross-PAL 进行单阶段提示、两阶段提示以及两阶段提示中仅第一阶段的性能表现

上表显示，即使对于较小的模型，两步法 (Double-step，即 Cross-PAL) 也比单步提示产生了显著的改进。例如，在 Llama-3 上，准确率从大约 51% (单步) 跃升至 55.4% (两步) 。这表明结构化的、程序辅助的提示起到了“推理放大器”的作用，使较小的模型能够超水平发挥。

分析: 为什么这行之有效？

论文深入探讨了 Cross-PAL 为何有效的机制。

1. 英语作为枢纽

英语在预训练数据中的主导地位不容忽视。通过将任务的逻辑部分路由经过英语，Cross-PAL 最大限度地降低了模型被不熟悉语言的语法搞混的风险。表 2 (上图) 中的“First-step (第一步) ”结果表明，仅规划阶段就对成功做出了重大贡献。

2. 高资源与低资源的整合

在自洽性实验 (SCross-PAL) 中，作者研究了应该将哪些语言包含在投票集成中。

图 4: 在我们的 SCross-PAL 中整合语言对最终性能的影响。遵循表 13，我们整合了从低资源到高资源的语言，反之亦然。

上图揭示了一个关键见解:

绿线 (高资源 + 英语) : 添加更多高资源语言通常会维持或提升性能。
蓝线 (低资源 \(\rightarrow\) 高资源) : 从低资源语言开始会导致较低的性能，随着高资源语言的加入，性能会缓慢提升。

本质上，“选民”的质量很重要。集成一堆低资源的推理路径 (这很容易出错) 不如集成少数几个高资源的路径有效。

3. 双语协同效应

作者还发现，仅仅在原生提示中添加英语作为辅助路径就能产生巨大的提升，尤其是对于低资源语言。

图 5: 使用 SCrossPAL、SCross-PAL(Native)、SCross-PAL + English 和 SCross-PAL(Native) + English 在 MGSM 上的准确率 (%)。

在图 5 中，请看橙色柱状图 (仅原生) 和绿色柱状图 (原生 + 英语) 之间的差异。对于像泰卢固语 (te) 这样的语言，添加英语推理路径几乎使性能翻倍。这证实了英语作为模型推理过程稳定器的作用。

结论与启示

Cross-PAL 论文在使 AI更加公平方面迈出了重要一步。通过承认 LLM 目前的局限性——即它们对英语的偏向——并设计一种将这种偏向转化为优势的提示策略 (使用英语进行规划) ，作者在无需昂贵的模型再训练的情况下，改进了多语言数学推理。

关键要点:

代码是推理的锚点: 结构化的代码演示在引导多步推理方面比自然语言更有效。
语码转换行之有效: 在高资源语言 (英语) 中进行规划并在目标语言中执行，比在低资源环境中保持单语效果更好。
集成具有鲁棒性: 跨不同语言路径的投票 (SCross-PAL) 过滤掉了错误和幻觉。
小模型受益: 该技术解锁了较小的开源模型的推理能力，使强大的 AI 更易于获取。

随着我们迈向更加全球化的 AI 应用，像 Cross-PAL 这样的技术将变得至关重要。它们确保用户的语言偏好不会决定他们获得的智能质量。在我们等待预训练数据集在所有语言中真正实现平衡的同时，程序辅助语言模型提供了一座巧妙而有效的桥梁。

问题所在: 多语言推理的差距#

Cross-PAL 登场: 用代码进行推理#

架构#

第一阶段: 跨语言理解器#

第二阶段: 特定语言求解器#

自洽性: 集成的力量#

实验结果#

优于基线#

跨语言的一致性#

小模型的扩展性#

分析: 为什么这行之有效？#

1. 英语作为枢纽#

2. 高资源与低资源的整合#

3. 双语协同效应#

结论与启示#