想象一下,你正站在舞台上,实时将一段演讲从英语翻译成日语。演讲者说: “I am not here to say that men are to blame…” (我不在这里说是男人的错……)
如果你等到整句话说完才开始翻译,那你是在做交替传译 。 但如果你在演讲者说到 “I am not here to…” 的同时也还在继续说话时就开始翻译,那你就是在做同声传译 (SI) 。
对于人类来说,这令人精疲力竭。对于机器来说,这简直是一场算法噩梦——尤其是在英语和日语这样语法结构截然不同的语言之间。英语通常动词在前 (SVO: 主语-谓语-宾语) ,而日语的动词往往在最后 (SOV: 主语-宾语-谓语) 。为了准确翻译,机器通常想等动词出现。但为了翻译得快,它又等不起。
这种延迟 (latency) 与质量 (quality) 之间的权衡,是同声机器翻译 (SiMT) 的核心难题。
今天,我们将深入探讨一篇引人入胜的论文,题为 “Simultaneous Interpretation Corpus Construction by Large Language Models in Distant Language Pair” (基于大语言模型的远距离语言对同声传译语料库构建) 。研究人员提出了一个解决 SiMT 数据稀缺问题的新颖方案: 利用像 GPT-4 这样的大型语言模型 (LLM) 来合成高质量的训练数据,模仿专业人类口译员的策略。
核心问题: 为什么 SiMT 如此困难?
在标准的“离线”机器翻译 (比如你在谷歌翻译中输入一段话) 中,模型在生成翻译之前能看到完整的源句子。它可以向后看,重新排列词序,并完善语法。
而在 SiMT 中,模型接收的是输入流。它必须决定何时 READ (读取) 更多的词,何时 WRITE (翻译/输出) 一个词。
语序鸿沟
当翻译“远距离”语言对时,挑战达到顶峰。
- 英语: “I ate an apple.” (我吃了一个苹果。)
- 日语: “Watashi wa (I) ringo wo (apple) tabeta (ate).” (我 把苹果 吃了。)
如果系统按照输入的顺序逐字翻译 (“I ate…”) ,日语输出听起来可能会很不自然,或者需要一个还没说出来的动词。如果它等到英语句子结束以获得正确的语序,由此产生的延迟对于实时对话来说是不可接受的。
数据瓶颈
为了教会 AI 处理这个问题,我们需要训练数据: 即遵循同声传译风格 (保留信息块顺序) 的英语语音和日语翻译对。
- 人类 SI 语料库: 真实口译员的录音很少见,转录成本高昂,而且通常充满“噪声” (包含总结、省略或错误) 。
- 离线语料库: 标准翻译数据集过多地重排了语序,迫使 SiMT 模型等待太长时间。
这引出了研究人员的解决方案: LLM-SI-Corpus (大模型同传语料库) 。
解决方案: 合成口译数据
作者提出了一种方法,利用 LLM 将现有的、高质量的离线语音翻译 (ST) 语料库转换为“口译风格”的数据。
其核心思想是获取一个标准的英语句子,并要求 LLM (特别是 GPT-3.5 或 GPT-4) 重写日语翻译,使其遵循英语源句的语序,本质上是在模仿一种称为分块单调翻译 (Chunk-Wise Monotonic Translation, CWMT) 的技术。
流程管道
让我们看看研究人员是如何可视化数据全景的。

如图 1 所示,源材料是 TED 演讲。
- 离线翻译 (Offline Translation): 这是标准数据,日语语法完美,但结构上与英语差异巨大 (高延迟) 。
- NAIST-SIC: 这是真实的人类口译数据。它很有价值,但不一致。
- LLM-SI-Corpus (Ours): 这是新的贡献。研究人员使用离线文本并通过 LLM 进行处理,创建了一个“完美”的同声传译数据集。
“CWMT” 策略
他们提示工程的核心是基于分块单调翻译 (CWMT) 。 这是教给人类口译员的一项准则。它包括:
- 分块 (Chunking): 将英语句子分解为有意义的短语 (从句、介词短语) 。
- 翻译 (Translating): 局部翻译每个块。
- 连接 (Connecting): 按照原始英语顺序将翻译好的块拼接起来,使用连接词 (连词、指示代词) 使其在日语中流畅。
这种策略最大限度地减少了向后看 (前瞻) 的需求 (降低延迟) ,同时保持内容的准确性。
创建语料库: 提示词 (The Prompt)
如何让 LLM 像同声传译员一样思考?你必须非常具体。研究人员设计了一个结构化的提示词,强制 LLM 遵循 CWMT 工作流。

图 2 详细说明了这一过程。提示词充当了 AI 的“系统指令”:
- 角色: “你是一名熟练的同声传译员。”
- 步骤 1 (分块) : 根据语法边界 (如关系代词或介词) 拆分源文本。
- 步骤 2 (翻译) : 翻译每个块。
- 步骤 3 (拼接) : 自然地连接它们,不 重新排列块的顺序。
要求输出为 JSON 格式,确保研究人员可以提取对齐的块进行分析。通过将此提示词应用于 NAIST-SIC-Aligned-ST 语料库 (基于 TED 演讲) ,他们生成了一个海量的“理想”同声传译数据集。
可视化风格差异
为了理解这为什么重要,我们需要比较不同的翻译风格。

表 4 提供了一个具体的例子。
- 源句: “And (1) I’m / (2) not here to / (3) say that / (4) men are to / (5) blame…”
- 离线 (OFFLINE): 翻译完全翻转了结构。它将英语句子末尾的概念移到了日语句子的开头。如果 SiMT 模型在这个数据上训练,它必须等到听见 “blame” (责怪) 或 “crisis” (危机) 后,才能开始生成日语句子的开头。
- 同声传译 (SI): 这种风格更紧密地遵循英语语序。短语 (4) “men” 和 (5) “blame” 在翻译中很早就出现了,就像在源句中一样。
LLM-SI-Corpus 旨在复制这种 SI 风格,但具有机器的一致性。
实验: 它有效吗?
研究人员使用他们新生成的 LLM 语料库微调了语音转文字 (Speech-to-Text) 翻译模型,并将其与使用标准数据训练的模型进行了比较。
实验设置
- 任务: 语音转文字翻译 (英语音频 -> 日语文本) 。
- 策略: 他们使用了 “wait-k” (等待 k) 策略。这是一个固定规则,模型在生成一个 token 之前等待 k 个音频块。通过改变 k 值,他们可以衡量延迟与质量之间的权衡。
- 指标:
- 延迟: 平均滞后 (Average Lagging, AL) — 翻译落后演讲者多远? (越低越好) 。
- 质量: BLEU (文本重叠) ,BLEURT 和 COMET (语义相似度) 。
关键结果
结果令人印象深刻。让我们看看在 tst-COMMON 数据集上的表现。

在图 3 中,我们看到的是质量 vs. 延迟 。
- X 轴 (延迟) : 值越低 (左侧) 意味着系统越快。
- Y 轴 (质量) : 值越高 (上方) 意味着翻译越好。
- 目标: 我们希望线条位于左上角 (既快又准) 。
观察结果:
- 低延迟优势: 看绿色 (GPT-3.5) 和 红色 (GPT-4) 线。在低延迟下 (图表左侧,AL < 1000ms) ,它们在 BLEU、BLEURT 和 COMET 上的得分始终高于橙色 (Offline) 基线。
- 语义稳定性: 在像 COMET 和 BLEURT 这样的指标 (衡量意义而非精确的词匹配) 中,LLM 语料库即使在系统被迫非常快的情况下也能保持高质量。
- 击败人类数据: 紫色 (SIC) 线代表在真实人类口译数据上训练的模型。它的表现通常较差。这证实了人类数据虽然“真实”,但往往因为噪声太大 (充满错误和填充词) ,不适合作为这些模型的训练数据。
与人工创建的 CWMT 相比如何?
研究人员还在一个由人类严格遵循 CWMT 准则手动标注的测试集 (“Chunk-wise” 数据集) 上测试了他们的模型。

图 5 展示了这个专用测试集上的结果。在这里,LLM-SI-Corpus 模型 (绿/红) 全面领先。这验证了 LLM 成功学会了提示词中要求的“分块”策略。它们生成的翻译完美契合了高质量同声传译员预期的结构。
讨论: 定性分析
数字固然好,但实际输出看起来如何?LLM 真的能更好地保留语序吗?
让我们检查一下 表 11 , 它比较了不同模型的输出。

- 源句: “(1) I just came back from a community that / (2) holds the secret / (3) to human survival.” (我刚从一个社区回来,它掌握着人类生存的秘密。)
- 离线/参考: 翻译顺序为 (3) -> (2) -> (1)。在日语中,这种结构 (人类生存的秘密掌握着的社区) 在语法上很自然,但需要听完句子的结尾才能说出开头。
- GPT-3.5 / GPT-4: 它们的翻译顺序为 (1) -> (2) -> (3)。“刚从一个社区回来。它掌握着秘密。关乎人类生存。”
LLM 模型成功地调整了日语语法以适应英语的语流。这使得 SiMT 系统可以立即输出短语 (1),从而大幅减少听众感知的滞后。
GPT-3.5 vs. GPT-4
有趣的是,研究人员发现,虽然 GPT-4 通常生成质量更高、更流畅的文本,但 GPT-3.5 有时在遵守单调语序方面更严格。GPT-4 偶尔会为了更好的流畅度稍微重排句子来“优化”它,这在技术上增加了延迟。然而,这两个模型在延迟-质量权衡方面都远超离线基线。
结论与未来展望
这篇论文为在同声传译中使用合成数据提出了令人信服的论据。 LLM-SI-Corpus 证明了我们不一定需要数千小时昂贵的人类口译录音来训练有效的 SiMT 系统。
主要收获:
- LLM 作为数据生成器: LLM 可以通过提示词遵循复杂的语言准则 (如 CWMT) ,将离线文本转换为口译风格的文本。
- 优于人类数据: 合成数据比充满噪声的人类口译转录更干净、更一致,从而带来更好的模型训练效果。
- 解决语序难题: 由此产生的语料库有效地教会了模型处理英日语序差异,实现了在显著降低延迟的同时保持高质量翻译。
这种方法具有高度的可扩展性。生成该语料库的成本相对较低 (GPT-3.5 约 20 美元) ,这表明该方法可以轻松应用于其他困难的语言对 (如德语-英语或中文-英语) ,从而普及实时翻译技术。
随着 LLM 的不断进步,AI 中“翻译”与“口译”之间的界限可能会变得模糊,使我们离那台能像我们说话一样快的通用翻译机更近一步。
](https://deep-paper.org/en/paper/2404.12299/images/cover.png)