想象一下,你是联合国的一名同声传译员。一位外交官正在用英语发言,而你正在将其翻译成日语。这位讲英语的人开始说道: “The crucial agreement that we signed yesterday…” (我们昨天签署的那份关键协议……)

在英语中,动词 (signed/签署) 出现得很早。但在日语中,语法结构是主-宾-谓 (SOV) 。自然的日语翻译可能需要你等到整句英语说完,才能知道对这份协议做了什么。但你不能等。你必须现在就说。如果你等太久,发言人就会说到后面三句了,你就会跟丢。

这就是同声语音翻译 (Simultaneous Speech Translation, SiST) 面临的根本挑战: 延迟 (Latency,翻译滞后了多久)质量 (Quality,翻译的准确性和自然度) 之间的权衡。

在奈良先端科学技术大学院大学 (Nara Institute of Science and Technology) 最近发表的一篇题为 “Simul-MuST-C: Simultaneous Multilingual Speech Translation Corpus Using Large Language Model” 的论文中,研究人员提出了一种新颖的解决方案。他们利用大语言模型 (LLMs) 创建了一个新的数据集,该数据集模仿了人类口译员的策略,特别是被称为 “萨拉米切片法” (Salami Technique) 的方法。

在这篇文章中,我们将探讨他们如何重新设计翻译数据,以教 AI 模型在不迷失语意的情况下更快地进行翻译。

问题所在: 语序瓶颈

为了训练 AI 模型进行翻译,我们通常使用“离线”翻译语料库。这些数据集包含成对的句子 (例如,一个英语句子及其完美的日语翻译) 。这些翻译通常是由人类完成的,他们在写下翻译之前可以奢侈地阅读完整的源句子。

虽然这样能产生高质量、自然的文本,但对于同声翻译来说却是糟糕的。

在离线翻译中,译者经常会完全颠倒语序以适应目标语言的语法。如果一个 AI 模型在这个数据上训练,它就会学会等待句子结束再弄清楚语序。在直播场景中,这种等待会造成不可接受的延迟。

研究人员在下图中清楚地说明了这个问题:

图 1: 英语-日语平行句示例。上半部分显示了标准的 MuST-C 翻译,交叉的箭头表示语序重排。下半部分显示了 Simul-MuST-C 保留了语序。

图 1 的上半部分。箭头混乱地交叉着。这代表了标准的 MuST-C 数据集。为了翻译第一个英语短语 (“Some individual services”) ,模型必须跳到日语句子的末尾。

现在看下半部分( Simul-MuST-C )。箭头是平行的。日语翻译几乎线性地跟随英语语序。这个概念被称为单调性 (Monotonicity) 。 翻译的单调性越高,实时翻译就越容易。

灵感来源: 萨拉米切片法

人类口译员翻译的不是句子;他们翻译的是意义单元。当一个句子很复杂时,他们会把它切成小的、可管理的部分——就像切萨拉米香肠一样。他们立即翻译每一片,边翻译边连接。

这种萨拉米切片法允许口译员在保持源语言 (英语) 语序的同时,用目标语言 (日语、德语或中文) 产出可理解的输出,即使语法不那么“教科书般完美”。

研究人员提出了一个关键问题: 我们能否使用 LLMs 利用萨拉米切片法重写现有的数据集,并使用该数据训练出更好的 SiST 模型?

核心方法: 构建 Simul-MuST-C

收集专业同声传译员的真实数据既昂贵又困难。研究人员没有聘请人类,而是求助于 GPT-4o

他们采用了 MuST-C v2.0 数据集 (一个基于 TED 演讲的流行多语言语音翻译语料库) ,并通过大语言模型对其进行处理。他们的目标是将“离线”翻译转变为“同传风格”的翻译。

三步提示策略

研究人员设计了一个特定的提示词模板,强迫 LLM 像口译员一样思考。如图 2 所示,该过程涉及三个不同的步骤:

  1. 分割 (Segmentation) : LLM 将长的英语源句子分解成简短、有意义的块 (即“萨拉米切片”) 。
  2. 翻译 (Translation) : 它将每个块单独翻译成目标语言。
  3. 组合 (Combination) : 它将翻译后的块组合成一个单一的、线性的句子。

图 2: 用于构建 Simul-MuST-C 的提示词模板及其示例。它显示了任务定义、说明和输入/输出结构。

通过明确指示模型使用萨拉米切片法,研究人员为三种语言对生成了一个名为 Simul-MuST-C 的新数据集:

  • 英语到日语 (En-Ja)
  • 英语到中文 (En-Zh)
  • 英语到德语 (En-De)

选择这些语言是因为它们与英语的语法差异程度各不相同。日语差异很大 (SOV 对 SVO) ,中文有些相似但有语序重排问题,而德语在结构上更接近英语。

真的有效吗?分析单调性

在训练任何翻译模型之前,研究人员需要验证新数据集是否真的比原始数据集更具单调性 (线性) 。

他们使用词对齐分数来衡量这一点,分数越高意味着语序与源语言越匹配。

表 2: 语序单调性比较。与 MuST-C 相比,Simul-MuST-C 在所有语言对中都显示出更高的分数。

表 2 所示,改进非常显著,特别是对于英语到日语 (En-Ja)

  • MuST-C (原始) : 0.572 单调性分数。
  • Simul-MuST-C (新) : 0.815 单调性分数。

这证实了 GPT-4o 成功地重写了日语翻译以遵循英语语序。中文 (En-Zh) 和德语 (En-De) 的改进较小,主要是因为这些语言本来就与英语更一致。

以下是具体的文本示例:

表 3: 展示语序单调性的文本示例。在 En-Ja 中,新数据集将 “60 to 80 percent” 保持在末尾,与英语源语匹配。

表 3 中,看看英语-日语的例子。

  • 源语: “…at the 60 to 80 percent level.” (出现在句子末尾) 。
  • MuST-C: 将此短语移至日语句子的开头 (标签 4) 。
  • Simul-MuST-C: 将此短语保留在日语句子的末尾,与英语语流匹配。

实验设置

为了测试这些新数据是否真的对 AI 模型有帮助,研究人员使用两个不同的数据集训练了语音转文本翻译模型:

  1. 基线 (Baseline) : 在原始 MuST-C (标准翻译) 上训练。
  2. 提议的方法 (Proposed) : 在 Simul-MuST-C (萨拉米风格翻译) 上训练。

他们使用 Wait-k 策略评估模型。这是同声翻译中的一种常见策略,模型在生成翻译之前等待 k 个单词 (例如 3、5 或 7 个单词) 。较小的 k 意味着低延迟 (快) ,而较大的 k 通常意味着更好的质量。

评估指标

  • 质量: 使用 BLEU (文本重叠) 和 COMET/COMET-QE (语义相似度) 进行测量。
  • 延迟: 使用平均 Token 延迟 (ATD) 进行测量——本质上是用户等待翻译的时间。

结果

实验表明,Simul-MuST-C 数据集的有效性在很大程度上取决于语言之间的语法距离。

1. 英语到日语 (最大的赢家)

由于英语和日语的语序差异如此之大,强制模型从“单调”数据中学习产生了巨大的影响。

图 3: En-Ja 的结果。Simul-MuST-C 模型 (红线) 始终显示出比基线更低的延迟和更好的无参考质量 (COMET-QE) 。

图 3 展示了 En-Ja 的结果。让我们分析一下 COMET-QE_ATD 图表 (右下角) 。

  • 红线 (Simul-MuST-C) 位于绿线 (MuST-C) 的左侧。这意味着在相同质量下,新模型的延迟显著降低
  • 随着 k 的增加,差距进一步扩大。这表明 Simul-MuST-C 模型完成翻译的速度要快得多。

有趣的是,当查看 BLEU 分数 (左上角) 时,基线似乎具有竞争力。然而,BLEU 是将输出与参考翻译进行比较。由于标准参考翻译是“离线”的 (经过大量重排) ,基线模型仅仅因为模仿了那种重排风格就获得了更高的分数。当使用 COMET-QE (不依赖参考翻译,只看意义) 时,Simul-MuST-C 模型表现更优。

2. 英语到中文 (适度改进)

对于中文,结果是积极的,但不如日语那样引人注目。

表 5: En-Zh 生成句子的示例。Simul-MuST-C 保持了单词 “program” 相对于源语的位置。

表 5 显示了定性比较。在 MuST-C 输出中,“项目” (program) 一词被推到了句尾。在 Simul-MuST-C 输出中,它出现得很早,与英语 “There is a program…” 匹配。这种对齐减少了模型的认知负荷,使其能够更快地生成翻译。

3. 英语到德语 (变化微乎其微)

对于英语到德语,差异可以忽略不计。由于德语语序已经与英语非常相似,原始数据集已经具有高度的单调性 (超过 0.92 分) 。应用萨拉米切片法并没有充分改变结构,因此对模型性能没有产生重大影响。

讨论: 质量与延迟的权衡

这项研究强调了 AI 翻译中一个迷人的细微差别: 自然度与速度。

理想情况下,翻译应该是完美自然的 (听起来像母语) 且即时的。但在同声传译中,你经常不得不牺牲一点语法的完美性来跟上发言人的节奏。

Simul-MuST-C 数据集教导模型做出同样的牺牲。通过在遵循源语序的数据上进行训练,模型学会了生成可能感觉略带“口译感” (分段感) 而不是“书面感” (润色感) 的翻译,但它们到达的速度要快得多,而且语义准确。

这对于像英语-日语这样语法距离遥远的语言对尤为重要。如果没有这项技术,模型将被迫产生幻觉或默默等待句子结束——这在现场对话中都是失败的表现。

结论

研究人员成功证明,我们不需要昂贵的人工策划数据集来训练同声翻译系统。通过使用像 GPT-4o 这样的 LLM 来模拟“萨拉米切片法”,我们可以生成大量将目标语言与源语言对齐的训练数据。

关键要点:

  1. 单调性至关重要: 对齐源语言和目标语言之间的语序可以减少延迟。
  2. LLM 作为数据生成器: GPT-4o 有效地模拟了人类口译策略,创建了高质量的训练数据。
  3. 距离决定影响: 该方法对于语法距离较远的语言 (如英日) 是颠覆性的,但对于相似的语言 (如英德) 则不太关键。

这项工作为实时翻译系统铺平了道路,这些系统不仅准确,而且是真正的同步,比以往任何时候都更快地跨越沟通鸿沟。