引言

我们生活在一个大型语言模型 (LLM) 的时代，像 GPT-4、LLaMA 和 Mistral 这样的模型正在通过律师资格考试、解决复杂的数学证明题并编写代码。我们根据“排行榜”——即一系列测试其推理能力、世界知识和问题解决能力的大规模基准测试——来评判它们。

但在对这些高阶认知任务的兴奋中，有一个基本问题往往被忽略了: 这些模型在语言的基本机制方面表现究竟如何?

一个能解释量子物理的模型，如果要求它造一个正好包含三个动词的句子，它真的能做到吗？它能控制句法树的深度吗？这些听起来可能像是简单的问题，但它们探究了这些 AI 系统深层的语言熟练度。

来自 ItaliaNLP 实验室的研究人员最近发表了一篇题为 《Evaluating Large Language Models via Linguistic Profiling》 (通过语言特征分析评估大型语言模型) 的论文，从任务导向的热潮中退后一步。他们没有要求模型解谜，而是要求它们执行特定的“语言体操”。结果让我们得以一窥 LLM 如何生成文本的内部机制，揭示了虽然它们很强大，但在精确的结构控制方面仍非常吃力。

图 1: 评估方法的图示示例。LLM 被提示生成一个句子，同时需遵守目标语言约束 (例如使用动词和从属关系) 。

如上图所示，核心问题很简单: 如果你让 LLM “生成一个包含 3 个动词的句子”，它真的会照做吗？还是会被内容分散注意力，从而无法满足结构约束？

背景: 从分析人类到分析机器

要理解这项研究，我们需要了解 语言特征分析 (Linguistic Profiling) 。传统上，这是一种计算语言学技术，用于分析人类撰写的文本。通过统计特征——如形容词的数量、子句的长度或句法的复杂性——语言学家可以确定作者身份、识别作者的母语或评估文本的复杂性。

本文的作者反转了这一剧本。他们没有分析现有的文本，而是利用这一概念来 测试 LLM 的生成能力 。

当前评估中的空白

目前的绝大多数评估 (如 OpenLLM 排行榜) 都侧重于模型说了什么 (答案) 。而这项研究侧重于模型如何构建语言。

有一个被称为“可控文本生成” (CTG) 的子领域，研究人员尝试让模型生成具有特定情感 (例如，“写一篇快乐的评论”) 或风格的文本。然而，很少有研究严格测试模型是否能处理严格的 形态句法 (语法和词性) 和句法 (句子结构) 约束。

推动这项工作的假设非常有趣: 仅仅因为模型在训练过程中隐式地“学会”了语法，并不保证它能按命令显式地操纵这些语法规则。

核心方法: 句法压力测试

研究人员设计了一套综合方法来对五个流行的开源 LLM 进行特征分析: Gemma (2B 和 7B) 、LLaMA-2 (7B 和 13B) 和 Mistral (7B) 。

该方法是系统化的。他们定义了一组语言属性，为这些属性选择了特定的目标值，然后提示模型生成符合这些约束的句子。

1. 语言约束

团队选择了 20 个特定的属性进行测试，分为两大类:

形态句法属性 (词汇层级) 这些约束涉及所使用的单词类型 (词性或 POS 标记) 。

实词 (Content Words) : 名词、动词、形容词、副词、专有名词。
虚词/功能词 (Functional Words) : 助动词、连词、限定词、介词 (ADP) 。

句法属性 (句子结构层级) 这些要难得多。它们涉及单词在句子结构 (依存树) 中如何相互关联。

树深度 (max_depth): 句法树有多深？ (句子复杂度的度量) 。
链接长度 (max_link): 相关单词之间的距离 (例如，一个主语与其动词被一个长从句隔开) 。
词序: 控制动词前主语或动词后宾语。
从属关系: 使用了多少从句 (如“虽然下雨了”) ，以及它们放置的位置。

2. 提示策略

研究人员没有使用模糊的请求。他们使用了严格的提示词模板，以确保每个模型面临完全相同的挑战。

表 4: 用于让 LLM 生成句子的提示词。

正如你在 表 4 中看到的，提示词非常直接: “生成一个带有 [数值] [属性] 的句子。”

3. 选择真实值

你不能直接要求模型生成一个包含 50 个动词的句子——那不是自然语言。为了保持测试的公平性，研究人员分析了 英语通用依存 (EWT) 树库 , 这是一个包含大量真实英语句子的数据集。他们筛选了 5 到 40 个单词之间的句子，并提取了这些属性的现实范围。

表 5: 实验中使用的属性值集合。

表 5 展示了难度递增的级别。例如，对于 动词 (Verbs) , 他们要求模型生成包含 0、1、3、5 或 7 个动词的句子。这创造了一个难度“阶梯”，以此观察模型是否能处理不断增加的复杂性。

4. 零样本 vs. 少样本

实验以两种模式运行:

零样本 (Zero-Shot) : 仅给模型指令 (例如，“生成一个包含 2 个动词的句子”) 。
少样本 (Few-Shot / 5-shot) : 在要求模型生成新句子之前，先给出 5 个满足标准的例句。这测试了模型是否能“在上下文中”学习模式。

实验与结果

那么，模型的表现如何呢？研究人员使用了两个不同的指标来为 AI 打分:

成功率 (SR): 模型是否得出了确切的数字？ (通过/失败) 。
斯皮尔曼相关系数 ($\rho$): 模型是否遵循了趋势？ (即，如果要求更多形容词，它是否生成了更多，即使确切数量是错的？)

洞察 1: 精确控制很难

如果你想让 LLM 写一个正好包含 5 个介词的句子，你可能会失望。 成功率总体上普遍较低。

图 2: 0-shot 和 5-shot 场景下每个语言属性和每个模型的成功率 (%)。分数针对每组特征值进行报告。

图 2 可视化了这些成功率。以下是关键要点:

Mistral (紫色柱) 通常是表现优异的模型。尽管只有 70 亿参数，它通常优于更大的 LLaMA-13B 模型。
零样本 (左侧面板) : 大多数模型都很吃力。看看像 max_depth 和 max_link 这样的句法特征的低分。模型发现很难提前规划句子树的几何结构。
少样本 (右侧面板) : 当给出示例时，表现通常会提高。然而，奇怪的是，Mistral 的表现实际上在某些少样本场景中下降了，这表明额外的上下文有时可能会混淆高度优化的小型模型，或者使它们过拟合所提供的特定示例。

洞察 2: 模型理解“更多”和“更少”

虽然它们未能通过严格的通过/失败测试，但模型显示出了很高的 斯皮尔曼相关性 。

这意味着，如果你要求模型提供“值 1”，然后“值 3”，再是“值 5”，模型成功地增加了该特征的数量，即使绝对数字有偏差 (例如，它可能给你 2、4 和 6) 。

形态句法更容易: 当被要求时，模型非常擅长添加更多的名词、形容词或副词。
句法是独特的: 句法深度 (max_depth) 的相关性要低得多。这证实了对于 LLM 来说, 类别知识 (什么是名词？) 比 关系知识 (这些从句如何嵌套？) 更容易。

洞察 3: 涟漪效应 (约束如何塑造句子)

语言是相互关联的。你通常不能在不增加形容词来描述名词，或不增加动词来赋予动作的情况下，单纯地增加名词。研究人员分析了约束一个属性如何影响所有其他属性。

图 3: 控制值与预测值之间的相关矩阵。生成的句子长度 (n_tokens) 的相关性也被报告。灰色单元格 ( ) 对应于非统计显着的相关性。

图 3 是这些关系的热力图。Y 轴代表模型被要求控制的内容，X 轴代表句子中实际出现的内容。

对角线: 对角线上的深红色方块表明，模型通常增加了被要求增加的特征。
句子长度 ($n\_tokens$): 看一下热力图最右边的一列。它几乎全是红色的。这表明几乎任何语言约束与句子长度之间都存在极强的正相关。如果你要求更多的任何东西——动词、深度、链接——模型几乎总是通过写一个更长的句子来解决问题。

然而，在 少样本 (底行) 场景中，注意“热度” (红色) 是如何变化的。模型开始专业化。例如，当 Mistral 被约束增加从属连词 (SCONJ) 时，它正确地增加了从句 (subord_prop)，表明它理解连词和从句之间的语法关系。

洞察 4: 自然性 vs. 人工性

这些生成的句子“正常”吗？为了检查这一点，研究人员将 AI 生成句子的统计特征与黄金标准的英语文本 (EWT 树库) 进行了比较。

$图 4: EWT 树库的相关矩阵。矩阵中的每一行显示了树库中所有句子的语言属性 \$v p _ { i }\$ 的增加值 (y 轴) 与同一属性及所有其他句子属性 (x 轴) 之间的斯皮尔曼相关性分数。灰色单元格 ( ) 对应于非统计显着的相关性。$

图 4 展示了英语中的“自然”相关性。例如，在真实的英语中，随着句子变长 ($n\_tokens$)，树的深度 (max_depth) 自然会增加 (右下角的深蓝色) 。

研究人员计算了 AI 的模式与这种自然人类模式之间的“余弦距离”。

表 3: EWT 的相关矩阵与每个模型的预测相关矩阵之间的平均余弦距离。最低和最高的余弦距离分别高亮显示。

表 3 揭示了一个关键发现: 少样本提示使句子更自然。 距离分数 (越低越好) 从 0-shot 到 5-shot 显著下降。通过仅仅看五个真实英语句子的例子，模型调整了它们的生成策略，以产生在统计上更接近人类语言的文本。

结论与启示

这篇论文为大型语言模型的能力提供了一剂清醒剂。虽然它们可以写诗和写代码，但它们遵守严格的、低层次语言约束的能力仍然是不完美的。

以下是给学生和从业者的主要结论:

规模不是一切: Mistral 7B 模型始终优于更大的 LLaMA 13B。这表明，对于语言精度而言，架构和训练数据质量比单纯的参数数量更重要。
针对特定目标使用特定指标:

如果你需要模型遵循严格的规则 (例如，“写一首俳句”或“正好用 10 个字总结”) ，目前的 LLM 可能会很吃力。你应该用 成功率 (Success Rate) 来衡量这一点。
如果你想控制风格或 复杂度 (例如，“让这段文字更简单”或“让这段文字更具描述性”) ，LLM 非常擅长跟随趋势。你应该用 相关性 (Correlation) 来衡量这一点。

提示词很重要: 提供示例 (少样本) 不仅仅是帮助模型得到正确答案；它还能帮助模型生成在统计上更“自然”且更像人类的语言。

随着我们的发展，评估 LLM 不应仅仅关于它们是否在数学测试中得到正确答案。它还应该关于它们是否真正掌握了语言的积木。这种“语言特征分析”方法为测试下一代 AI 提供了一种强有力的新途径。

引言#

背景: 从分析人类到分析机器#

当前评估中的空白#

核心方法: 句法压力测试#

1. 语言约束#

2. 提示策略#

3. 选择真实值#

4. 零样本 vs. 少样本#

实验与结果#

洞察 1: 精确控制很难#

洞察 2: 模型理解“更多”和“更少”#

洞察 3: 涟漪效应 (约束如何塑造句子)#

洞察 4: 自然性 vs. 人工性#

结论与启示#

引言