AI 能解决语言歧义难题吗？语言学分析中的 RoBERTa 对决 GPT-4

语言充满了玄机。请看这两个句子:

She ran to the mountains. (她跑向群山。)
She ran in the mountains. (她在群山中奔跑。)

从句法上看，它们几乎一模一样。两者都遵循“主语 + 动词 + 介词短语”的结构。一个基础的解析器可能会看到完全相同的树形结构: 一个名词，一个动词，和一个修饰语。

但作为人类读者，你知道它们意味着根本不同的事情。第一句描述的是朝向目标的运动 ; 介词短语 “to the mountains” 是完成动作意义所需的论元 (argument) 。第二句描述的是发生在某地的活动；“in the mountains” 仅仅是设定了场景。

这种区别正是论元结构构式 (Argument Structure Constructions, ASCs) 的核心。虽然人类能毫不费力地捕捉到这些细微差别，但教会计算机区分它们——特别是用于评估语言学习者时——在自然语言处理 (NLP) 中是一个巨大的挑战。

在一篇题为 *“Leveraging pre-trained language models for linguistic analysis” (利用预训练语言模型进行语言学分析) * 的有趣论文中，研究人员 Hakyung Sung 和 Kristopher Kyle 调查了现代 AI——具体来说是像 RoBERTa 和 GPT-4 这样的预训练语言模型 (PLMs) ——是否最终能破解这一难题。

问题所在: 当句法还不够时

多年来，试图对语言学习进行建模的研究人员一直依赖自动化工具来解析句子。目标通常是评估“语言复杂度”——即学生的写作水平有多高。然而，当形式和意义不能完美对应时，传统工具往往会失效。

如下图所示，标准的依存句法解析器可能会将这两种结构标记为相同的，从而错失了子句的语义“味道”。

图 1: 通过 DisplaCy 可视化区分两种不同类型 ASC 在相似依存结构中的语义角色

在图 1 的上方示例中，该构式暗示了一个目的地。在下方示例中，它暗示了一个位置。这就是 ASC 概念发挥作用的地方。ASC 是独立于具体词汇而携带意义的模式。例如，“致使-移动 (Caused-Motion) ”构式 (如 She put the book on the table) 总是暗示 X 导致 Y 移动到 Z。

为了模拟人类 (包括母语者和语言学习者) 如何习得语言，我们需要能够可靠识别这些特定构式的工具。研究人员提出了一个关键问题: 我们能否利用存储在大型 AI 模型内部的“知识”来比以往更好地识别这些构式?

参赛选手: 编码器 vs. 解码器

这项研究在两种使用大型语言模型的不同理念之间展开了一场对决:

使用编码器的监督学习 (RoBERTa): 采用一个旨在理解上下文的模型，并在高质量的人工标注数据集上对其进行微调。
使用解码器的提示工程 (GPT-4): 要求一个庞大的生成式模型充当标注员或数据生成器，利用其“零样本 (zero-shot) ”或“少样本 (few-shot) ”能力。

作者设计了三个不同的实验来看看哪种方法更胜一筹。

图 2: 实验概览

如上方的实验概览所示，该研究探索了三条路径:

实验 1: 将人工标注输入 RoBERTa 以训练一个专家模型。
实验 2: 给 GPT-4 提供提示 (Prompts) ，让其直接标记新句子。
实验 3: 要求 GPT-4 编写句子 (生成数据) ，然后用这些数据来训练 RoBERTa。

理解目标: 我们在找什么？

在深入研究结果之前，了解模型被要求寻找什么很有帮助。研究人员使用了一个名为 ASC 树库 (ASC Treebank) 的数据集，其中包含来自母语者 (L1) 和语言学习者 (L2) 的句子。

他们专注于将特定的语义框架映射到 ASC 标签。以下是他们试图捕捉的构式分类:

表 1: ASC 表示

例如，如果模型看到 “I gave him the address”，它需要将其标记为 双及物 (DITRAN) , 因为它遵循 *施事-动词-接受者-受事 (Agent-Verb-Recipient-Theme) * 的模式。如果它看到 “Money may become tight”，则将其标记为 不及物结果 (INTRAN_RES) 。

实验 1: 专家 (RoBERTa)

在第一个实验中，研究人员使用了 RoBERTa , 这是一个基于 Transformer 的编码器模型。与生成文本的 GPT 不同，RoBERTa 非常擅长一次性查看整个句子并理解单词之间的关系。

他们将 ASC 识别视为一项 命名实体识别 (NER) 任务。就像 AI 可能被训练为将 “New York” 高亮显示为 Location (地点) 一样，RoBERTa 被训练为高亮显示特定的动词并为其打上正确的 ASC 标签 (如 CAUS_MOT 或 TRAN_S) 。

他们使用“金标准 (Gold Standard) ”数据来训练模型——即由人类精心标注的句子。他们测试了不同的训练数据组合，包括母语英语 (L1) 和学习者英语 (L2) 。

结果: 在结合了 L1 和 L2 金标准数据上训练的模型表现强劲。它在所有测试中都取得了超过 0.90 的 F1 分数 (一种准确度度量) 。这证明了在拥有高质量训练数据的情况下，像 RoBERTa 这样的编码器模型能够以接近人类的精度学会识别这些微妙的语言构式。

表 2: 跨 ASC 类型、模型和语域的 F1 分数

实验 2: 通才 (GPT-4 作为标注员)

收集“金标准”数据既昂贵又缓慢。它需要受过训练的语言学家阅读数千个句子。因此，研究人员问: 我们可以直接让 GPT-4 来做标注吗?

他们在三种设置下测试了 GPT-4:

零样本 (Zero-shot): “这是一个句子。标记 ASC。不提供示例。”
3 样本 (3-shot): “这是 3 个如何操作的示例。现在标记这个句子。”
10 样本 (10-shot): “这是 10 个示例。现在标记这个句子。”

图 3: 在零样本设置下提示 GPT-4 生成 ASC 标签的示例

结果: GPT-4 表现挣扎。

零样本 表现很差 (F1 分数为 0.434) 。在没有指导的情况下，它根本无法掌握所需的特定语言学定义。
少样本 帮助显著。提供 10 个示例将分数提升到了 0.631 。

然而，即使有了示例，GPT-4 也无法触及受监督 RoBERTa 模型设定的基准 (后者稳居 ~0.88-0.91) 。虽然 GPT-4 很聪明，但对于这种特定的语言学任务，它缺乏微调后的专家模型所具备的一致且细粒度的精度。

表 3: 使用 GPT-4 进行 ASC 标注的 F1 分数 (实验 2)

实验 3: 合成数据方案？

如果 GPT-4 不够准确，无法担任裁判，也许它可以担任作家？

在最后一个实验中，研究人员试图解决“数据稀缺”问题。他们没有付钱让人类标注数据，而是要求 GPT-4 生成数千个包含特定 ASC 的句子。然后，他们使用这些合成数据来训练 RoBERTa。

他们测试了两种情况:

仅使用 GPT 生成的数据训练 RoBERTa。
用 GPT 生成的数据 *增强 (augment) * 真实的人类数据。

结果: 仅在合成数据上训练产生的结果平平。在 10 样本生成数据上训练的模型获得了 0.605 的 F1 分数——远低于在 (较小的) 真实人类数据集上训练所获得的 0.812 。

更令人惊讶的是，用合成数据增强人类数据并没有真正的帮助。如下表所示，添加 GPT 数据 ("+3-shot" 和 “+10-shot” 列) 通常导致分数比仅使用金标准数据 (“gold1” 列) 更低或持平。性能的最大飞跃来自于简单地添加更多的人类数据 ("+gold2") 。

表 5: 使用不同训练集进行 ASC 标注的 F1 分数比较

为什么合成数据失败了？

这可能是这篇论文最有趣的发现。你可能会认为数据就是数据。如果 GPT-4 写了一个及物句子，它应该对训练有好处，对吧？

问题在于 语言复杂度 。研究人员分析了 GPT-4 写的句子，并将它们与网络语料库中的人类句子进行了比较。

人类生成 vs. GPT-4 生成的句子

看看上图中两者的区别。

GPT-4 (右侧): “He threw the ball to his dog.” (他把球扔给了他的狗。) “The bird flew out of the cage.” (鸟儿飞出了笼子。)
人类 (左侧): “I doubt the very few who actually read my blog have not come across this yet…” (我怀疑真正读我博客的那极少数人还没遇到过这种情况……)

GPT-4 的句子在语法上是正确的，但在结构上很简单。它们缺乏自然人类语言中的混乱感、从句和“现实世界”的噪音。当 RoBERTa 在干净、简单的 GPT 句子上进行训练时，它未能学会如何处理真实测试集中那些复杂、混乱的句子。

结论: 人工标注的价值

这项研究讲述了一个关于语言学 NLP 现状的引人入胜的故事。

RoBERTa 非常有效: 当提供高质量的人类数据时，编码器模型可以可靠地识别复杂的论元结构，解决了困扰早期解析器的歧义问题。
金标准无可替代: 虽然像 GPT-4 这样的大型语言模型令人印象深刻，但它们还不能在通过高精度语言任务中取代人工标注的数据集。在生成训练数据时，它们难以复制自然语言的复杂性，导致了“简单进，简单出” (Simple in, simple out) 的问题。

对于应用语言学的学生和研究人员来说，结论很明确: 暂时不要抛弃你们的手工标注协议。 自动化工具正在成为分析学习者语言和评估能力的强大盟友，但它们仍然严重依赖人类专家建立的事实基准 (Ground Truth) 。

随着 AI 模型的不断进化，我们可能会看到更好的合成数据生成或改进的零样本能力。但就目前而言，“金标准”依然是金标准。

问题所在: 当句法还不够时#

参赛选手: 编码器 vs. 解码器#

理解目标: 我们在找什么？#

实验 1: 专家 (RoBERTa)#

实验 2: 通才 (GPT-4 作为标注员)#

实验 3: 合成数据方案？#

为什么合成数据失败了？#

结论: 人工标注的价值#