简介

想象一下,你是一名高规格医学会议的同声传译员。演讲者快步走上讲台,开始语速飞快地谈论心脏病学。他们提到了一个患有“PVC”的病人。如果你只是逐字翻译,你可能会卡住。这是指聚氯乙烯 (一种塑料) 吗?不,在这个语境下,它代表的是*室性早搏 (Premature Ventricular Contraction) *。

为了瞬间做出这种区分,你需要上下文。你需要知道话题是心脏病学。你甚至可能需要在事前准备好一份术语表。

几十年来,同声机器翻译 (SiMT) 系统——即人工智能版的传译员——一直在这个问题上挣扎。大多数现有系统都在句子层面上运作,通常对更广泛的主题或特定术语一无所知。它们以牺牲质量来换取速度,经常生成语法正确但结合上下文看却毫无意义的翻译。

但是,如果我们能给 AI 提供一份人类传译员使用的“小抄”呢?

在论文 “LLMs Are Zero-Shot Context-Aware Simultaneous Translators” 中,来自冲绳科学技术大学院大学 (OIST) 和奈良先端科学技术大学院大学 (NAIST) 的研究人员提出了一个迷人的解决方案。他们证明了现成的 (off-the-shelf) 大型语言模型 (LLM) ,如 Llama-3,可以在没有任何专门训练 (零样本) 的情况下超越专用的 SiMT 系统。通过巧妙地注入背景信息并使用一种新颖的提示策略,他们将一个通用的 LLM 变成了一个具备上下文感知能力的同声翻译器。

在这篇文章中,我们将拆解他们的方法,探索他们如何设法让一个聊天机器人像实时传译员一样行动,并分析那些暗示机器翻译范式转变的实验结果。

背景: 同声传译的挑战

在深入探讨解决方案之前,我们需要理解问题所在。同声传译与“离线”翻译 (比如在谷歌翻译中输入一段话) 有着根本的不同。

延迟与质量的权衡

在离线翻译中,模型在开始翻译之前能看到整个句子。它基于文本中随后出现的词,知道句子是以问号结束,或者知道“bank”指的是河岸而不是银行。

同声传译中,系统必须在演讲者仍在说话时就开始翻译。这就产生了一个残酷的权衡:

  • 低延迟: 如果系统在听到一个词后立即翻译,由于缺乏未来的上下文,它面临犯错的风险。
  • 高质量: 如果系统等待听到更多的词以确保准确性,这种滞后 (延迟) 会让听众感到恼火。

缺失的一环: 上下文

大多数传统的 SiMT 系统依赖于“策略 (policies) ”——即告诉模型何时等待 (读,READ) 以及何时翻译 (写,WRITE) 的规则。例如,“Wait-k”策略会在翻译前等待 k 个词。

然而,这些系统通常是“上下文盲”的。它们不知道前一句话是关于气候变化的,也无法访问术语表。这正是 LLM 大放异彩的地方。LLM 专为处理长上下文和遵循复杂指令而构建,这使它们成为弥补这一差距的完美候选者。

核心方法: 零样本上下文感知翻译

研究人员提出了一种不需要微调 LLM 的方法。相反,他们将翻译过程视为一个专门的提示工程 (prompt engineering) 挑战,并结合了一个巧妙的架构循环。

架构

该系统采用“级联”方法。这意味着音频不会直接输入到 LLM 中。相反,它经过一个管道:

  1. 音频输入: 演讲者的声音。
  2. 在线 ASR (自动语音识别) : 一个模型 (Whisper) 实时将音频转换为文本。
  3. LLM (翻译器) : 文本被输入到 Llama-3-70B 中以生成翻译。

这听起来可能很简单,但魔力在于文本是如何被喂给 LLM 的。

图 1: 模型概览。输入的音频块由 WHISPER (1) 增量处理,识别出的单词存储在缓冲区中。提示词 (2) 包括特殊字符串、带有背景信息 (红色) 的系统消息 (蓝色) 、部分源文本以及模型之前的翻译 (如果存在) 。给定提示词,LLM 生成令牌,直到生成一个新的完整单词或 \\({ \\sf < } | \\sf e o t _ { - } \\mathrm { i d } | >\\) (3)。如果生成了一个新的完整单词,则执行写 (WRITE) 操作: 缓冲区中的一个新源单词和新生成的单词 (此例中为“Vorzeitige”) 被添加到提示词中。如果生成了 \\({ \\ < } | \\mathsf { e o t \\_ i d } | >\\),则执行读 (READ) 操作: 提示词仅更新缓冲区中的一个新源单词。

图 1 所示,该过程是一个循环:

  1. 缓冲区 (Buffer) : 来自 ASR 的传入单词存储在一个缓冲区中。
  2. 提示词构建 (Prompt Construction) : 系统构建一个提示词,其中包括:
  • 定义任务的 系统消息 (System Message) (“你是一名会议口译员…”) 。
  • 背景信息 (Background Information) (例如,技术术语的定义) 。
  • 部分源文本 (Partial Source) (演讲者目前为止所说的话) 。
  • 部分翻译 (Partial Translation) (LLM 目前为止已翻译的内容) 。
  1. 生成 (Generation) : LLM 尝试预测下一个单词。

决策逻辑: 读 vs 写

LLM 如何知道是翻译一个词还是等待更多上下文?研究人员利用 LLM 自身的输出来做决定。

  • 写 (WRITE) 操作: 如果 LLM 生成了一个完整的单词 (例如,“Vorzeitige”) ,系统就会接受它。这个词被添加到“部分翻译”历史中,并从源缓冲区中提取一个新词。
  • 读 (READ) 操作: 如果 LLM 生成了一个特殊的“回合结束”令牌 (如 <|eot_id|>) 或停止生成,这本质上是在发出信号: “我还没有足够的信息。”系统随之保持当前的翻译不变,但将源缓冲区中的一个新词添加到提示词中,为 LLM 的下一次尝试提供更多上下文。

数学公式

生成下一个目标令牌 (\(y_t\)) 的概率不仅取决于源文本和翻译历史,关键还取决于背景信息 (\(b\)) 。

公式 1 显示目标令牌 y_t 的概率条件依赖于之前的目标令牌、源令牌和背景信息 b。

在方程中包含 \(b\) (背景信息) 正是这种方法与标准 SiMT 模型的区别所在。它允许模型在计算最可能的翻译时“偷看”小抄。

“响应引导 (Response Priming) ”技巧

使用基于聊天的 LLM 进行翻译的一个主要挑战是它们的话痨本性。如果你让 LLM 翻译,它可能会说: “当然!这是基于您提供的上下文的翻译……”

这对于同声传译来说是灾难性的。你只想要翻译,而且要翻译。

为了解决这个问题,作者使用了响应引导 (Response Priming) 。 他们在提示词的“助手 (Assistant) ”部分预先填入了目前为止生成的翻译。通过强制 LLM 继续一个句子而不是开始一个新的话轮,他们有效地“封住了”模型进行客套对话的嘴。它别无选择,只能预测下一个翻译单词。

注入知识

研究人员创建了一个包含主题和命名实体的背景信息数据集 (JSON 格式) 。

清单 1: 用于增强 TED-TST-2023 和 TED-TST-2024 的背景信息示例。

如上面的清单所示,系统被输入了特定的定义 (例如,“通胀削减法案 (Inflation Reduction Act) ”,“COP 流程 (COP process) ”) 。这模仿了人类传译员在活动开始前审阅会议材料的过程。

实验与结果

为了测试他们的方法,作者将他们的基于 LLM 的方法与几个最先进的基准进行了比较,包括 SeamlessStreaming (Meta 的大规模多语言模型) 和 TransLLaMa

他们使用了 FLEURS 和 TED 演讲等标准数据集,但也引入了一个名为 AMBIEVAL 的新数据集。该数据集专门关注歧义词 (比如“kicks”,在石油钻探中可能意味着“井涌”,而在其他语境下意味着“踢”) ,以测试上下文注入是否真的有效。

性能与延迟

SiMT 的“圣杯”是高 BLEU 分数 (质量) 伴随低 LAAL (延迟/滞后) 。

图 3: 翻译质量 (由 BLEU 衡量) 对延迟 (由 LAAL 衡量) 的依赖关系,涵盖多种语言对。

图 3 展示了五个语言对 (英语到法语、俄语、德语、西班牙语、意大利语) 的结果。

  • “Ours”线 (蓝色) 始终位于顶部附近。
  • 这表明在相同的延迟 (latency) 下,零样本 LLM 方法提供的翻译质量高于大多数经过训练的基线模型。

定量分析

让我们看看 TED-TST-2023 数据集上英语到德语任务的具体数字。

表 1: 我们在 TED-TST-2023 上的英语-德语语言对的方法与最先进基线的质量和延迟结果对比。

表 1 中,该方法获得了 22.13 的 BLEU 分数 , 超过了 SeamlessStreaming (19.75) 和 TransLLaMa (19.36)。它在达到这一成绩的同时,保持了约 2000ms 的可比延迟 (LAAL) 。这是一个重大的结果: 一个未经训练的通用模型击败了专为该任务设计的模型。

上下文的力量 (AMBIEVAL 结果)

最惊人的结果来自 AMBIEVAL 数据集,该数据集的设计初衷就是在缺乏上下文的情况下难以翻译。

表 3: 我们在 AMBIEVAL 上的英语-德语语言对的方法与最先进基线的质量和延迟结果对比。

看看 表 3 中的差距。

  • Ours: 42.60 BLEU
  • NAIST: 39.80 BLEU
  • SeamlessStreaming: 29.76 BLEU

LLM 方法在这里彻底碾压了竞争对手。因为基线模型无法摄取“术语表”或背景信息,它们无法正确翻译技术性的歧义词。而配备了上下文定义的 LLM 则能轻松应对。

模型规模重要吗?

作者还检查了更小、更快的模型是否能完成同样的工作。他们测试了 Llama-3-8B (较小版本) 与 70B 参数模型的对比。

表 7: 较小的 LLM 表现明显不如默认的 70B 版本。结果显示的是 TED-TST-2024 数据集。

表 7 中的结果 (以及下方的总结图) 显示, 8B 模型的表现明显较差 。 似乎关注背景信息并严格遵守“响应引导”约束的能力,需要更大模型才具备的推理能力。

LLM 甚至可以利用最少的信息来提高质量。值得注意的是,较小版本的 LLAMA-3 似乎没有从增加的背景信息中受益。

它够快吗?

你可能会担心运行一个 700 亿参数的模型对于实时翻译来说太慢了。

表 4: 所选基线和我们的模型的参数计数和实时率 (RTF) 。

表 4 显示了实时率 (RTF) 。RTF 低于 1.0 意味着系统处理音频的速度比说话速度快。所提出的方法实现了 0.86 的 RTF , 这意味着在现代硬件上 (具体来说,他们使用了 4 个 NVIDIA A100 GPU) ,它确实可以用于直播流。

结论与启示

这篇论文提出了一个令人信服的论点,即我们不一定需要为 AI 中的每个难题构建专门的模型。有时,大模型的通用推理能力,结合巧妙的工程设计 (如提示词管理和上下文注入) ,可以超越专用系统。

主要收获:

  1. 零样本的成功: 你可以在不从头开始训练神经网络的情况下构建最先进的同声翻译器。
  2. 上下文问题已解决: 传统 SiMT 的“盲点”——缺乏上下文——通过向 LLM 提示词注入背景信息得到了有效解决。
  3. 术语处理: 对于技术翻译 (医学、法律、工程) ,这种方法具有巨大优势,因为它可以遵循术语表。

未来展望: 研究人员指出,该系统仍然依赖于独立的 ASR (Whisper) 模型,这可能会引入错误或延迟。下一个前沿是 LLM 内部的 端到端 (End-to-End) 语音到文本翻译,完全绕过文本转换步骤。此外,随着闭源模型 (如 GPT-4) 可能开放其 API 以允许“响应引导” (出于安全原因,目前通常被阻止) ,性能可能会进一步飞跃。

对于 AI 学生来说,这篇论文堪称大师级范例,展示了如何利用现代 LLM 的“指令遵循”特性来解决复杂的、实时的时序任务。事实证明,有时预测 (句子的) 未来的最佳方式,是对上下文有非常好的理解。