引言

在当前的人工智能时代，大型语言模型 (LLM) 常被誉为“通用学习器”。我们已经看到它们写代码、创作十四行诗，甚至通过律师资格考试。这种多功能性导致了一个日益普遍的假设: 只要你向 Transformer 投喂足够的数据，它就能学会任何事物的底层模型。

但是，当我们脱离语言领域，转向物理世界时，这种说法还成立吗？LLM 是真的“理解”了支配系统的物理定律，还是仅仅在死记硬背统计相关性？

这正是研究论文 《Exploring the Learning Capabilities of Language Models using LEVERWORLDS》 (利用 LEVERWORLDS 探索语言模型的学习能力) 背后的核心问题。研究人员调查了语言模型是否能够学会预测简单物理系统 (带有重物的杠杆) 的结果，更关键的是，与经典统计方法相比，它们的学习效率如何。

结果提供了一个迷人的现实检验。虽然 LLM 确实可以学会这些任务，但与更简单、更古老的算法相比，它们的效率低得惊人。这篇文章将通过 LEVERWORLDS 框架，剖析“结构”与“变异性”之间的拉锯战，并解释为什么有时简单的逻辑回归 (Logistic Regression) 能击败十亿参数的巨型模型。

学习的两大支柱: 结构与变异性

要理解这项研究的重要性，我们首先需要定义“学习”一个随机 (stochastic) 环境意味着什么。作者认为，学习涉及攻克两个截然不同的挑战:

结构 (Structure) : 永恒不变的普遍规则。在物理语境下，这就是物理定律。例如，如果你扔下一个球，重力决定了它如何下落。这条规则在地球上任何地方都适用。
变异性 (Variability) : 依赖于上下文的随机性。如果你从不同的建筑物扔球，建筑物的高度是变化的。这是该城市或数据集特有的特定分布。

当 AI 模型试图预测球落地需要多长时间时，它需要隐式地同时学习重力定律 (结构) 和建筑物的平均高度 (变异性) 。

这就产生了一种被称为 偏差-方差权衡 (Bias-Variance Tradeoff) 的张力，这是机器学习中的一个基本概念:

高偏差 (强假设) : 模型“假设”很多。如果你使用物理方程作为模型，你就假设世界遵循该方程。它的学习速度非常快，但如果假设错误，就会失败。
高方差 (灵活) : 模型不做任何假设。它试图完美地拟合数据。它非常灵活，但需要海量数据来区分噪声和实际规则。

LLM 处于什么位置？它们通常是高方差、低偏差的机器。它们假设很少，这使它们很灵活，但正如我们将看到的，这是有代价的: 样本效率 (Sample Efficiency) 。

LEVERWORLDS 框架

为了验证这些理论，研究人员不能只使用混乱的现实世界文本。他们需要一个受控环境，在这里他们完全知道“基本真理 (ground truth) ”。于是 LEVERWORLDS 诞生了。

LEVERWORLDS 是一个生成简单物理谜题的框架，基于支点上的杠杆 (跷跷板) 。

图 1: 我们实验的概述。首先，我们生成一个物理模型，然后我们要从模型中采样并训练一个语言模型来预测输出。随后我们评估模型的概率估计。

如 图 1 所示，过程非常直观:

物理模型: 创建一个杠杆，重物 (质量) 放置在特定距离处。
采样: 系统生成该世界的实例。
语言形式化: 这些物理实例被转换为文本字符串 (例如，“mass1: 3, distance1: 3…”) 。
训练: LLM (或其他模型) 尝试预测结果: 它是会向 左 (L) 倾斜还是向 右 (R) 倾斜？

杠杆的解剖

这个设置的美妙之处在于 因果图 (Causal Graph) 。我们确切地知道输入与输出之间的关系。

图 2: 杠杆平衡的因果图。不同的世界在物体数量、是否使用密度和体积以及中间变量是否被观测到方面有所不同。

观察 图 2 :

输入: 我们有密度 (\(\rho\))、体积 (\(V\))、质量 (\(m\))、距离 (\(d\)) 和侧边 (\(s\)) 等变量。
物理: 力矩 (\(T\)) 计算公式为 \(T = s \cdot d \cdot m\)。
输出: 平衡 (\(b\)) 取决于力矩的总和。

转折: 隐变量

如果模型能看到 每一个 数字，这项任务就是微不足道的数学题。为了使其成为真正的学习挑战，研究人员隐藏了一些变量 (使其成为 隐变量/Latent )。

例如，模型可能看到物体的质量，但看不到它离中心的距离。它必须根据训练中看到的距离分布来推断杠杆倾斜的概率。这迫使模型同时学习物理学 (重的东西会压低天平) 和统计学 (隐藏的物体通常位于 3 米远的地方) 。

参赛选手

研究人员让几种类型的学习算法相互竞争，看谁能最快学会这些世界。

1. Transformer (LLM)

他们使用了 OPT 模型 (参数范围从 1.25 亿到 67 亿) 。这些模型在文本数据上进行了微调。它们将物理问题视为句子补全任务。

2. 朴素极大似然估计 (Naïve MLE)

这是最简单的基准。它对物理学不做任何假设。它将每个唯一的输入组合视为一个单独的桶，只是简单地统计发生了什么。

朴素 MLE 估计器的方程

如上式所示，如果特定输入状态 \(x\) 出现了 \(N_x\) 次，它只需将“左”的结果除以总结果即可计算概率。如果以前没见过某个输入，它就猜测 50/50。该模型具有极高的方差——它死记硬背数据，但无法泛化。

3. 逻辑回归 (Logistic Regression)

这是一种经典的统计方法。它假设输入和输出之间的关系在某种程度上是线性的 (或多项式的) 。它比朴素方法具有更强的“归纳偏置 (inductive bias) ”，因为它假设输入以特定的数学方式相互作用。

4. 结构极大似然估计 (Structure MLE，即“先知”)

这个模型拥有“作弊码”。它知道物理定律 (\(T = m \cdot d\)) 。

结构 MLE 先知的方程

它只需要学习隐藏变量的分布。因为知道结构，理论上它的样本效率应该是最高的。

实验与结果

研究人员使用 总变差距离 (Total-Variation, TV Distance) 来评估模型。简而言之，这衡量了模型预测的概率与真实概率之间的差距。数值越低越好。

1. Transformer 表现如何？

Transformer 确实学会了这项任务。随着它们看到更多的样本，错误率下降了。

图 3: OPT 模型的结果。第一行是 world-1 的结果，第二行是 world-3 的结果。在这些情况中，我们绘制了指标随训练样本数量变化的函数图。

图 3 显示了 OPT 模型的学习曲线。

规模很重要: 较大的模型 (深色线) 通常比小模型收敛得更快，达到的错误率更低。
收敛: 它们最终能很好地完成任务，但请看 X 轴 (样本数量) 。它们需要数千个例子才能达到目的。

2. Transformer vs. 经典模型

这是比较变得有意思的地方。让我们看看 逻辑回归 。

图 4: 逻辑回归模型的结果。

在 图 4 中，看看曲线下降得有多快。仅用几百个样本，逻辑回归 (特别是带有多项式特征的) 就实现了低错误率。

现在将其与 图 5 中的 MLE 模型 进行比较:

图 5: MLE 模型的结果。

结构 MLE (红/橙) : 因为它懂物理，几乎瞬间就学会了 (误差几乎立即接近零) 。
朴素 MLE (蓝) : 它非常挣扎。因为它将每个输入视为唯一的，所以它需要海量数据才能学到有用的东西。

3. 终极权衡

论文中最具启发性的结果是 结构分 (Structure Score) 与误差的比较。

结构分衡量模型是否理解物理的“方向”。例如，如果我增加左侧的质量，向左倾斜的概率应该上升。如果模型预测相反，它的结构分就很低。

结构分方程

研究人员将此分数与误差率绘制在 图 6 中:

图 6: TV 距离与结构分之间的权衡。OPT 代表所有 4 种尺寸、每种 5 个种子的平均距离和平均分数。

图 6 的关键要点:

右下角 (朴素 MLE) : 高误差，低结构。它不懂物理；它只是在计数。
左上角 (结构 MLE) : 低误差，完美的结构。
中间地带: 注意 逻辑回归 (绿色) 比 OPT (蓝色) 模型更接近理想的左上角。

这证实了假设: 对于这类任务，Transformer 的样本效率低于简单的回归模型。 回归模型的假设 (归纳偏置) 比 Transformer 的通用架构更符合物理世界。

难道不能直接提示 GPT-4 吗？

你可能会想，“为什么要微调？直接用 GPT-4 不就行了！”

研究人员通过 上下文学习 (In-Context Learning, ICL) (在提示中给模型示例) 和 管道 (Pipeline) 方法 (要求模型编写代码来解决问题) 对此进行了测试。

表 1: 零样本实验的结果。

表 1 中的结果令人清醒。

ICL (上下文学习) : GPT-4o 仅在 3.7% 的实验中达到了低误差 (\(<0.1\)) 。它很大程度上无法仅通过阅读示例来直观地推断出统计分布。
管道: 当被要求编写 Python 程序来解决问题 (使用 scikit-learn 的逻辑回归) 时，GPT-4o 成功了 51% 。

这表明，就其本身而言，LLM 是糟糕的 统计学家，但它们是体面的 工程师——它们可以编写代码来使用正确的统计工具。

理论极限

对于数学爱好者，论文提供了关于为什么“朴素”方法会如此惨败的界限。样本复杂度 (你需要多少例子) 随着变量的数量呈指数增长。

样本复杂度界限方程

该方程表明，预期平方误差随样本数 \(N_x\) 的倒数而减小。如果模型将每个输入视为唯一的 (如朴素 MLE) ，那么对于任何特定输入，\(N_x\) 都很小，误差仍然很高。

概率界限方程

研究人员使用集中不等式 (如上式) 证明，如果没有结构假设，学习这些世界所需的数据量将变得天文数字。Transformer 介于朴素方法和结构方法之间——它们有效地学习了一种“软”结构，但速度很慢。

结论: 给 AI 从业者的启示

LEVERWORLDS 论文作为一个重要的提醒告诉我们: “更大并不总是更好”，“更新并不总是更聪明”。

Transformer 是通才，而非专才: 它们可以学习物理分布，但它们非常依赖数据。它们实际上必须从文本数据中重新推导出乘法和加法的概念。
归纳偏置很强大: 像逻辑回归这样的经典模型表现得非常好，因为它们的数学结构 (加权和) 反映了杠杆的实际物理原理 (力矩是乘积的总和) 。
混合的未来: 最有希望的路径不是强迫 LLM 在它们的“脑子” (权重) 里做数学题。而是管道方法。使用 LLM 来理解问题，并编写利用经典统计方法的代码。

随着我们继续推动 AI 的边界，区分学习 世界模型 (物理) 和 实例模型 (统计) 将是构建高效、稳健系统的关键。有时候，你不需要一个 Transformer；你只需要一个杠杆和一个支点。

引言#

学习的两大支柱: 结构与变异性#

LEVERWORLDS 框架#

杠杆的解剖#

转折: 隐变量#

参赛选手#

1. Transformer (LLM)#

2. 朴素极大似然估计 (Naïve MLE)#

3. 逻辑回归 (Logistic Regression)#

4. 结构极大似然估计 (Structure MLE，即“先知”)#

实验与结果#

1. Transformer 表现如何？#

2. Transformer vs. 经典模型#

3. 终极权衡#

难道不能直接提示 GPT-4 吗？#

理论极限#

结论: 给 AI 从业者的启示#

引言