引言

在当前的人工智能时代,大型语言模型 (LLM) 常被誉为“通用学习器”。我们已经看到它们写代码、创作十四行诗,甚至通过律师资格考试。这种多功能性导致了一个日益普遍的假设: 只要你向 Transformer 投喂足够的数据,它就能学会任何事物的底层模型。

但是,当我们脱离语言领域,转向物理世界时,这种说法还成立吗?LLM 是真的“理解”了支配系统的物理定律,还是仅仅在死记硬背统计相关性?

这正是研究论文 《Exploring the Learning Capabilities of Language Models using LEVERWORLDS》 (利用 LEVERWORLDS 探索语言模型的学习能力) 背后的核心问题。研究人员调查了语言模型是否能够学会预测简单物理系统 (带有重物的杠杆) 的结果,更关键的是,与经典统计方法相比,它们的学习效率如何。

结果提供了一个迷人的现实检验。虽然 LLM 确实 可以学会这些任务,但与更简单、更古老的算法相比,它们的效率低得惊人。这篇文章将通过 LEVERWORLDS 框架,剖析“结构”与“变异性”之间的拉锯战,并解释为什么有时简单的逻辑回归 (Logistic Regression) 能击败十亿参数的巨型模型。

学习的两大支柱: 结构与变异性

要理解这项研究的重要性,我们首先需要定义“学习”一个随机 (stochastic) 环境意味着什么。作者认为,学习涉及攻克两个截然不同的挑战:

  1. 结构 (Structure) : 永恒不变的普遍规则。在物理语境下,这就是物理定律。例如,如果你扔下一个球,重力决定了它如何下落。这条规则在地球上任何地方都适用。
  2. 变异性 (Variability) : 依赖于上下文的随机性。如果你从不同的建筑物扔球,建筑物的高度是变化的。这是该城市或数据集特有的特定分布。

当 AI 模型试图预测球落地需要多长时间时,它需要隐式地同时学习重力定律 (结构) 和建筑物的平均高度 (变异性) 。

这就产生了一种被称为 偏差-方差权衡 (Bias-Variance Tradeoff) 的张力,这是机器学习中的一个基本概念:

  • 高偏差 (强假设) : 模型“假设”很多。如果你使用物理方程作为模型,你就假设世界遵循该方程。它的学习速度非常快,但如果假设错误,就会失败。
  • 高方差 (灵活) : 模型不做任何假设。它试图完美地拟合数据。它非常灵活,但需要海量数据来区分噪声和实际规则。

LLM 处于什么位置?它们通常是高方差、低偏差的机器。它们假设很少,这使它们很灵活,但正如我们将看到的,这是有代价的: 样本效率 (Sample Efficiency)

LEVERWORLDS 框架

为了验证这些理论,研究人员不能只使用混乱的现实世界文本。他们需要一个受控环境,在这里他们完全知道“基本真理 (ground truth) ”。于是 LEVERWORLDS 诞生了。

LEVERWORLDS 是一个生成简单物理谜题的框架,基于支点上的杠杆 (跷跷板) 。

图 1: 我们实验的概述。首先,我们生成一个物理模型,然后我们要从模型中采样并训练一个语言模型来预测输出。随后我们评估模型的概率估计。

图 1 所示,过程非常直观:

  1. 物理模型: 创建一个杠杆,重物 (质量) 放置在特定距离处。
  2. 采样: 系统生成该世界的实例。
  3. 语言形式化: 这些物理实例被转换为文本字符串 (例如,“mass1: 3, distance1: 3…”) 。
  4. 训练: LLM (或其他模型) 尝试预测结果: 它是会向 左 (L) 倾斜还是向 右 (R) 倾斜?

杠杆的解剖

这个设置的美妙之处在于 因果图 (Causal Graph) 。 我们确切地知道输入与输出之间的关系。

图 2: 杠杆平衡的因果图。不同的世界在物体数量、是否使用密度和体积以及中间变量是否被观测到方面有所不同。

观察 图 2 :

  • 输入: 我们有密度 (\(\rho\))、体积 (\(V\))、质量 (\(m\))、距离 (\(d\)) 和侧边 (\(s\)) 等变量。
  • 物理: 力矩 (\(T\)) 计算公式为 \(T = s \cdot d \cdot m\)。
  • 输出: 平衡 (\(b\)) 取决于力矩的总和。

转折: 隐变量

如果模型能看到 每一个 数字,这项任务就是微不足道的数学题。为了使其成为真正的学习挑战,研究人员隐藏了一些变量 (使其成为 隐变量/Latent )。

例如,模型可能看到物体的质量,但看不到它离中心的距离。它必须根据训练中看到的距离 分布 来推断杠杆倾斜的概率。这迫使模型同时学习物理学 (重的东西会压低天平) 和统计学 (隐藏的物体通常位于 3 米远的地方) 。

参赛选手

研究人员让几种类型的学习算法相互竞争,看谁能最快学会这些世界。

1. Transformer (LLM)

他们使用了 OPT 模型 (参数范围从 1.25 亿到 67 亿) 。这些模型在文本数据上进行了微调。它们将物理问题视为句子补全任务。

2. 朴素极大似然估计 (Naïve MLE)

这是最简单的基准。它对物理学不做任何假设。它将每个唯一的输入组合视为一个单独的桶,只是简单地统计发生了什么。

朴素 MLE 估计器的方程

如上式所示,如果特定输入状态 \(x\) 出现了 \(N_x\) 次,它只需将“左”的结果除以总结果即可计算概率。如果以前没见过某个输入,它就猜测 50/50。该模型具有极高的方差——它死记硬背数据,但无法泛化。

3. 逻辑回归 (Logistic Regression)

这是一种经典的统计方法。它假设输入和输出之间的关系在某种程度上是线性的 (或多项式的) 。它比朴素方法具有更强的“归纳偏置 (inductive bias) ”,因为它假设输入以特定的数学方式相互作用。

4. 结构极大似然估计 (Structure MLE,即“先知”)

这个模型拥有“作弊码”。它知道物理定律 (\(T = m \cdot d\)) 。

结构 MLE 先知的方程

它只需要学习 隐藏 变量的分布。因为知道结构,理论上它的样本效率应该是最高的。

实验与结果

研究人员使用 总变差距离 (Total-Variation, TV Distance) 来评估模型。简而言之,这衡量了模型预测的概率与 真实 概率之间的差距。数值越低越好。

1. Transformer 表现如何?

Transformer 确实 学会了这项任务。随着它们看到更多的样本,错误率下降了。

图 3: OPT 模型的结果。第一行是 world-1 的结果,第二行是 world-3 的结果。在这些情况中,我们绘制了指标随训练样本数量变化的函数图。

图 3 显示了 OPT 模型的学习曲线。

  • 规模很重要: 较大的模型 (深色线) 通常比小模型收敛得更快,达到的错误率更低。
  • 收敛: 它们最终能很好地完成任务,但请看 X 轴 (样本数量) 。它们需要数千个例子才能达到目的。

2. Transformer vs. 经典模型

这是比较变得有意思的地方。让我们看看 逻辑回归

图 4: 逻辑回归模型的结果。

图 4 中,看看曲线下降得有多快。仅用几百个样本,逻辑回归 (特别是带有多项式特征的) 就实现了低错误率。

现在将其与 图 5 中的 MLE 模型 进行比较:

图 5: MLE 模型的结果。

  • 结构 MLE (红/橙) : 因为它懂物理,几乎瞬间就学会了 (误差几乎立即接近零) 。
  • 朴素 MLE (蓝) : 它非常挣扎。因为它将每个输入视为唯一的,所以它需要海量数据才能学到有用的东西。

3. 终极权衡

论文中最具启发性的结果是 结构分 (Structure Score)误差 的比较。

结构分衡量模型是否理解物理的“方向”。例如,如果我增加左侧的质量,向左倾斜的概率应该上升。如果模型预测相反,它的结构分就很低。

结构分方程

研究人员将此分数与误差率绘制在 图 6 中:

图 6: TV 距离与结构分之间的权衡。OPT 代表所有 4 种尺寸、每种 5 个种子的平均距离和平均分数。

图 6 的关键要点:

  • 右下角 (朴素 MLE) : 高误差,低结构。它不懂物理;它只是在计数。
  • 左上角 (结构 MLE) : 低误差,完美的结构。
  • 中间地带: 注意 逻辑回归 (绿色) 比 OPT (蓝色) 模型更接近理想的左上角。

这证实了假设: 对于这类任务,Transformer 的样本效率低于简单的回归模型。 回归模型的假设 (归纳偏置) 比 Transformer 的通用架构更符合物理世界。

难道不能直接提示 GPT-4 吗?

你可能会想,“为什么要微调?直接用 GPT-4 不就行了!”

研究人员通过 上下文学习 (In-Context Learning, ICL) (在提示中给模型示例) 和 管道 (Pipeline) 方法 (要求模型编写代码来解决问题) 对此进行了测试。

表 1: 零样本实验的结果。

表 1 中的结果令人清醒。

  • ICL (上下文学习) : GPT-4o 仅在 3.7% 的实验中达到了低误差 (\(<0.1\)) 。它很大程度上无法仅通过阅读示例来直观地推断出统计分布。
  • 管道: 当被要求编写 Python 程序来解决问题 (使用 scikit-learn 的逻辑回归) 时,GPT-4o 成功了 51%

这表明,就其本身而言,LLM 是糟糕的 统计学家,但它们是体面的 工程师——它们可以编写代码来使用正确的统计工具。

理论极限

对于数学爱好者,论文提供了关于为什么“朴素”方法会如此惨败的界限。样本复杂度 (你需要多少例子) 随着变量的数量呈指数增长。

样本复杂度界限方程

该方程表明,预期平方误差随样本数 \(N_x\) 的倒数而减小。如果模型将每个输入视为唯一的 (如朴素 MLE) ,那么对于任何特定输入,\(N_x\) 都很小,误差仍然很高。

概率界限方程

研究人员使用集中不等式 (如上式) 证明,如果没有结构假设,学习这些世界所需的数据量将变得天文数字。Transformer 介于朴素方法和结构方法之间——它们有效地学习了一种“软”结构,但速度很慢。

结论: 给 AI 从业者的启示

LEVERWORLDS 论文作为一个重要的提醒告诉我们: “更大并不总是更好”,“更新并不总是更聪明”。

  1. Transformer 是通才,而非专才: 它们 可以 学习物理分布,但它们非常依赖数据。它们实际上必须从文本数据中重新推导出乘法和加法的概念。
  2. 归纳偏置很强大: 像逻辑回归这样的经典模型表现得非常好,因为它们的数学结构 (加权和) 反映了杠杆的实际物理原理 (力矩是乘积的总和) 。
  3. 混合的未来: 最有希望的路径不是强迫 LLM 在它们的“脑子” (权重) 里做数学题。而是 管道 方法。使用 LLM 来理解问题,并编写利用经典统计方法的代码。

随着我们继续推动 AI 的边界,区分学习 世界模型 (物理) 和 实例模型 (统计) 将是构建高效、稳健系统的关键。有时候,你不需要一个 Transformer;你只需要一个杠杆和一个支点。