引言
我们生活在一个大型语言模型 (LLM) 的时代,像 GPT-4、LLaMA 和 Mistral 这样的模型正在通过律师资格考试、解决复杂的数学证明题并编写代码。我们根据“排行榜”——即一系列测试其推理能力、世界知识和问题解决能力的大规模基准测试——来评判它们。
但在对这些高阶认知任务的兴奋中,有一个基本问题往往被忽略了: 这些模型在语言的基本机制方面表现究竟如何?
一个能解释量子物理的模型,如果要求它造一个正好包含三个动词的句子,它真的能做到吗?它能控制句法树的深度吗?这些听起来可能像是简单的问题,但它们探究了这些 AI 系统深层的语言熟练度。
来自 ItaliaNLP 实验室的研究人员最近发表了一篇题为 《Evaluating Large Language Models via Linguistic Profiling》 (通过语言特征分析评估大型语言模型) 的论文,从任务导向的热潮中退后一步。他们没有要求模型解谜,而是要求它们执行特定的“语言体操”。结果让我们得以一窥 LLM 如何生成文本的内部机制,揭示了虽然它们很强大,但在精确的结构控制方面仍非常吃力。

如上图所示,核心问题很简单: 如果你让 LLM “生成一个包含 3 个动词的句子”,它真的会照做吗?还是会被内容分散注意力,从而无法满足结构约束?
背景: 从分析人类到分析机器
要理解这项研究,我们需要了解 语言特征分析 (Linguistic Profiling) 。 传统上,这是一种计算语言学技术,用于分析人类撰写的文本。通过统计特征——如形容词的数量、子句的长度或句法的复杂性——语言学家可以确定作者身份、识别作者的母语或评估文本的复杂性。
本文的作者反转了这一剧本。他们没有分析现有的文本,而是利用这一概念来 测试 LLM 的生成能力 。
当前评估中的空白
目前的绝大多数评估 (如 OpenLLM 排行榜) 都侧重于模型说了什么 (答案) 。而这项研究侧重于模型如何构建语言。
有一个被称为“可控文本生成” (CTG) 的子领域,研究人员尝试让模型生成具有特定情感 (例如,“写一篇快乐的评论”) 或风格的文本。然而,很少有研究严格测试模型是否能处理严格的 形态句法 (语法和词性) 和 句法 (句子结构) 约束。
推动这项工作的假设非常有趣: 仅仅因为模型在训练过程中隐式地“学会”了语法,并不保证它能按命令显式地操纵这些语法规则。
核心方法: 句法压力测试
研究人员设计了一套综合方法来对五个流行的开源 LLM 进行特征分析: Gemma (2B 和 7B) 、LLaMA-2 (7B 和 13B) 和 Mistral (7B) 。
该方法是系统化的。他们定义了一组语言属性,为这些属性选择了特定的目标值,然后提示模型生成符合这些约束的句子。
1. 语言约束
团队选择了 20 个特定的属性进行测试,分为两大类:
形态句法属性 (词汇层级) 这些约束涉及所使用的单词类型 (词性或 POS 标记) 。
- 实词 (Content Words) : 名词、动词、形容词、副词、专有名词。
- 虚词/功能词 (Functional Words) : 助动词、连词、限定词、介词 (ADP) 。
句法属性 (句子结构层级) 这些要难得多。它们涉及单词在句子结构 (依存树) 中如何相互关联。
- 树深度 (
max_depth): 句法树有多深? (句子复杂度的度量) 。 - 链接长度 (
max_link): 相关单词之间的距离 (例如,一个主语与其动词被一个长从句隔开) 。 - 词序: 控制动词前主语或动词后宾语。
- 从属关系: 使用了多少从句 (如“虽然下雨了”) ,以及它们放置的位置。
2. 提示策略
研究人员没有使用模糊的请求。他们使用了严格的提示词模板,以确保每个模型面临完全相同的挑战。

正如你在 表 4 中看到的,提示词非常直接: “生成一个带有 [数值] [属性] 的句子。”
3. 选择真实值
你不能直接要求模型生成一个包含 50 个动词的句子——那不是自然语言。为了保持测试的公平性,研究人员分析了 英语通用依存 (EWT) 树库 , 这是一个包含大量真实英语句子的数据集。他们筛选了 5 到 40 个单词之间的句子,并提取了这些属性的现实范围。

表 5 展示了难度递增的级别。例如,对于 动词 (Verbs) , 他们要求模型生成包含 0、1、3、5 或 7 个动词的句子。这创造了一个难度“阶梯”,以此观察模型是否能处理不断增加的复杂性。
4. 零样本 vs. 少样本
实验以两种模式运行:
- 零样本 (Zero-Shot) : 仅给模型指令 (例如,“生成一个包含 2 个动词的句子”) 。
- 少样本 (Few-Shot / 5-shot) : 在要求模型生成新句子之前,先给出 5 个满足标准的例句。这测试了模型是否能“在上下文中”学习模式。
实验与结果
那么,模型的表现如何呢?研究人员使用了两个不同的指标来为 AI 打分:
- 成功率 (SR): 模型是否得出了确切的数字? (通过/失败) 。
- 斯皮尔曼相关系数 (\(\rho\)): 模型是否遵循了趋势? (即,如果要求更多形容词,它是否生成了更多,即使确切数量是错的?)
洞察 1: 精确控制很难
如果你想让 LLM 写一个正好包含 5 个介词的句子,你可能会失望。 成功率总体上普遍较低。

图 2 可视化了这些成功率。以下是关键要点:
- Mistral (紫色柱) 通常是表现优异的模型。尽管只有 70 亿参数,它通常优于更大的 LLaMA-13B 模型。
- 零样本 (左侧面板) : 大多数模型都很吃力。看看像
max_depth和max_link这样的句法特征的低分。模型发现很难提前规划句子树的几何结构。 - 少样本 (右侧面板) : 当给出示例时,表现通常会提高。然而,奇怪的是,Mistral 的表现实际上在某些少样本场景中下降了,这表明额外的上下文有时可能会混淆高度优化的小型模型,或者使它们过拟合所提供的特定示例。
洞察 2: 模型理解“更多”和“更少”
虽然它们未能通过严格的通过/失败测试,但模型显示出了很高的 斯皮尔曼相关性 。
这意味着,如果你要求模型提供“值 1”,然后“值 3”,再是“值 5”,模型成功地增加了该特征的数量,即使绝对数字有偏差 (例如,它可能给你 2、4 和 6) 。
- 形态句法更容易: 当被要求时,模型非常擅长添加更多的名词、形容词或副词。
- 句法是独特的: 句法深度 (
max_depth) 的相关性要低得多。这证实了对于 LLM 来说, 类别知识 (什么是名词?) 比 关系知识 (这些从句如何嵌套?) 更容易。
洞察 3: 涟漪效应 (约束如何塑造句子)
语言是相互关联的。你通常不能在不增加形容词来描述名词,或不增加动词来赋予动作的情况下,单纯地增加名词。研究人员分析了约束一个属性如何影响所有其他属性。

图 3 是这些关系的热力图。Y 轴代表模型被要求控制的内容,X 轴代表句子中实际出现的内容。
- 对角线: 对角线上的深红色方块表明,模型通常增加了被要求增加的特征。
- 句子长度 (\(n\_tokens\)): 看一下热力图最右边的一列。它几乎全是红色的。这表明几乎任何语言约束与句子长度之间都存在极强的正相关。如果你要求更多的任何东西——动词、深度、链接——模型几乎总是通过写一个更长的句子来解决问题。
然而,在 少样本 (底行) 场景中,注意“热度” (红色) 是如何变化的。模型开始专业化。例如,当 Mistral 被约束增加从属连词 (SCONJ) 时,它正确地增加了从句 (subord_prop),表明它理解连词和从句之间的语法关系。
洞察 4: 自然性 vs. 人工性
这些生成的句子“正常”吗?为了检查这一点,研究人员将 AI 生成句子的统计特征与黄金标准的英语文本 (EWT 树库) 进行了比较。

图 4 展示了英语中的“自然”相关性。例如,在真实的英语中,随着句子变长 (\(n\_tokens\)),树的深度 (max_depth) 自然会增加 (右下角的深蓝色) 。
研究人员计算了 AI 的模式与这种自然人类模式之间的“余弦距离”。

表 3 揭示了一个关键发现: 少样本提示使句子更自然。 距离分数 (越低越好) 从 0-shot 到 5-shot 显著下降。通过仅仅看五个真实英语句子的例子,模型调整了它们的生成策略,以产生在统计上更接近人类语言的文本。
结论与启示
这篇论文为大型语言模型的能力提供了一剂清醒剂。虽然它们可以写诗和写代码,但它们遵守严格的、低层次语言约束的能力仍然是不完美的。
以下是给学生和从业者的主要结论:
- 规模不是一切: Mistral 7B 模型始终优于更大的 LLaMA 13B。这表明,对于语言精度而言,架构和训练数据质量比单纯的参数数量更重要。
- 针对特定目标使用特定指标:
- 如果你需要模型遵循严格的规则 (例如,“写一首俳句”或“正好用 10 个字总结”) ,目前的 LLM 可能会很吃力。你应该用 成功率 (Success Rate) 来衡量这一点。
- 如果你想控制 风格 或 复杂度 (例如,“让这段文字更简单”或“让这段文字更具描述性”) ,LLM 非常擅长跟随趋势。你应该用 相关性 (Correlation) 来衡量这一点。
- 提示词很重要: 提供示例 (少样本) 不仅仅是帮助模型得到正确答案;它还能帮助模型生成在统计上更“自然”且更像人类的语言。
随着我们的发展,评估 LLM 不应仅仅关于它们是否在数学测试中得到正确答案。它还应该关于它们是否真正掌握了语言的积木。这种“语言特征分析”方法为测试下一代 AI 提供了一种强有力的新途径。
](https://deep-paper.org/en/paper/file-3047/images/cover.png)