像 Llama 3 或 GPT-4 这样的大语言模型 (LLM) 似乎拥有百科全书般的世界知识。通过在海量文本数据集上的预训练,它们学会了“苹果”是一种水果,“星期一”在“星期二”之前,“汽车”是一种交通工具。这些关系在模型内部形成了一张庞大的语义地图——一个编码词语之间关联的表示空间。

但当我们挑战这张地图时会发生什么?如果仅在一个提示中,我们告诉模型苹果现在与汽车相邻,牛奶相关联,模型能否临时重构其内部理解,并仅凭上下文采纳一个全新的语义现实?

这个问题正是近期研究论文 《表征的上下文学习》 的核心。作者们探讨了 LLM 是否能仅凭提示中提供的信息,从根本上重组其内部表征。他们的结论是: 可以——而且这种变化发生得非常突然,就像积累了足够证据后某个开关被瞬间触发。

这一发现表明,LLM 可能正在运行一种隐式优化过程,动态地重构它们表示意义的方式。下面,让我们看看研究人员是如何揭示这一机制的,以及它如何帮助我们理解人工智能不断进化的“大脑”。


铺垫: 词语中的世界

在分析实验之前,我们先澄清两个关键概念。

1. 表征 (Representations) 。 在 LLM 内部,每个词或概念都被表示为一个高维向量——一个包含成千上万个数字的列表。向量之间的距离和方向编码了意义。经典示例是:

\[ \text{king} - \text{man} + \text{woman} \approx \text{queen}. \]

这种“向量算术”表明模型已经学会了概念之间的几何关系。在预训练阶段,这些结构反映了自然语言中的语义关系。

2. 上下文学习 (In-Context Learning, ICL) 。 现代 LLM 能够在提示内部学习新任务,而无需更改权重。例如,给定如下示例: sea otter → loutre de mer, cheese → fromage,模型便能正确翻译下一个词。这种能力揭示了模型能从上下文中提供的实例中总结并泛化规则。

论文结合了这两个概念,提出一个问题: 当 LLM 进行上下文学习时,它只是重用旧的表征吗?还是会真正形成一张适应当前上下文的语义地图?


核心方法: 教 LLM 玩一个新游戏

为此,研究人员设计了一个巧妙的实验,称为 “上下文图追踪” (in-context graph tracing) 。它构造了一个拥有全新规则的微型世界,要求模型仅根据示例学习其结构。

实验设置如下:

  1. 定义结构。 从一个简单的图开始——例如一个 4×4 网格或一个包含 10 个节点的环——其中每个节点按规则与其他节点相连 (在网格中,每个节点都有上下、左右相邻的节点) 。
  2. 分配熟悉词语。 将诸如 苹果汽车数学 等常见词语随机放置在图上。这些位置关系完全任意——例如 苹果 旁边,这与它们通常的含义无关。
  3. 生成示例。 通过在图上进行随机游走,生成“苹果, 鸟, 牛奶, 沙子, 太阳, 飞机, 歌剧, …”之类的序列。这些词序列被作为上下文输入到模型中。

上下文图追踪任务设置: (a) 熟悉的词语被随机放置在一个 4×4 的网格上。(b) 模型读取在网格上随机游走生成的序列。(c) 问题: 模型的内部表征会重组以反映网格的结构吗?

图 1: 上下文图追踪任务的设置。

当模型阅读数百个这种示例后,它会接收到最后一个词——如“歌剧”——并被要求预测下一个词。成功意味着预测出飞机盒子等新网格中的合法邻居,而不是像音乐这样语义相关的词。

这一任务测试模型是否能够推断并内化一个由上下文定义的结构——本质上,即它是否能即时重建自己的概念地图。


窥探模型内部: 可视化转变过程

为了理解模型如何适应,研究人员使用 主成分分析 (PCA) 来可视化内部激活。PCA 将高维数据降维至二维,同时保留整体结构,使我们能够观察概念的几何分布。

结果令人震惊。随着模型处理更多上下文,其内部表征开始发生重组。那些随机放置在网格或环上的词,开始在模型的激活空间中形成与这些布局相呼应的几何图案。

环形图的表征可视化: (a) 词语排列在环上。(b) 由相邻词对构成的序列。(c) 不同层和不同上下文长度的 PCA 可视化结果显示环形结构的出现。

图 2: 模型激活中涌现出的环形表征。

最初,表征看起来像随机散点。但随着示例的累积——尤其在更深层中——清晰的环形和网格结构浮现。这提供了直接证据,表明模型并非简单地记忆词语关系,而是在构建与上下文图结构一致的内在几何空间。


当新规则与旧知识发生冲突

接着,研究人员测试了当上下文中的新规则与强大的预训练语义先验相冲突时的情况。

例如,已有研究表明 LLM 会以环形结构表示一周的日子——星期一挨着星期二,星期二挨着星期三,依此类推。研究团队将这个熟悉的序列随机打乱,构造一个新的环形结构 (如“星期一”与“星期五”“星期三”与“星期日”相连) ,并提供来自该打乱环的上下文示例。

模型能否覆盖其内置的星期结构?

可以——但只做到部分覆盖。

当上下文规则与预训练知识冲突时: (a) 一周的日子,粉色线为原始语义连接,蓝色线为新的上下文连接。(b) 前两个主成分仍显示预训练环。(c) 第三与第四主成分揭示上下文环。

图 3: 当语义先验与上下文结构冲突时。

在前两个主成分 (表示空间中的主导方向) 上,模型仍呈现原有的“语义环”。但在第三和第四主成分中,的环结构显现出来。这意味着模型会在保留旧表征的同时,为上下文信息开辟新的表示维度——这是一种令人印象深刻的认知灵活性。


量化转变: 狄利克雷能量与临界上下文

可视化很直观,但量化测量更能说明问题。为量化内部重组,作者借鉴了数学与物理学中的概念:** 狄利克雷能量 (Dirichlet energy)** 。

狄利克雷能量衡量函数在图上的“平滑度”。这里,它反映相邻节点在表示空间中的相似度。定义如下:

\[ E_{\mathcal{G}}(\boldsymbol{X}) = \sum_{i,j} \boldsymbol{A}_{i,j} \|\boldsymbol{x}_i - \boldsymbol{x}_j\|^2, \]

其中,当节点 ij 相连时 \( \boldsymbol{A}_{i,j}=1 \),否则为 0;而 \( \boldsymbol{x}_i \) 表示节点 i 的表征。较低的能量意味着连接节点的表示相似——说明模型已学习到图结构。

当研究人员绘制狄利克雷能量和任务准确率随上下文长度变化的曲线时,一个清晰的模式出现了。

网格图、环形图和六边形图的狄利克雷能量 (蓝/粉线) 与准确率 (绿线) 对上下文长度的变化。能量骤降后准确率急剧上升。

图 4: 随着上下文增长,表征重组——能量下降,准确率跃升。

随着上下文长度的增加,狄利克雷能量下降——表明相邻词的向量在表示空间中趋于一致。几乎同时,任务准确率急剧飙升。这个突变暗示: 一旦模型内化了图结构,它便能快速正确地执行新任务。

这一连串变化——先能量最小化,后性能提升——意味着模型在内部执行一种优化,用以高效地根据上下文组织意义。


超越记忆: 隐式优化的展现

这种行为能否仅被“记忆效应”解释?或许模型只是机械地记录了词语的邻近关系。研究人员测试了模拟记忆的基线策略,结果发现这些策略无法重现模型的准确率曲线。

模型准确率 (粉色) 与 1-shot 和 2-shot 记忆基线 (青/紫色) 的对比。两种基线均无法解释突变。

图 5: LLM 性能曲线与记忆基线的比较。

相反,数据呈现出一种两阶段上升模式: 先是缓慢学习期,后是准确率的急剧跃升——这是一种无法用机械记忆解释的涌现行为。作者提出 能量最小化假说: LLM 在给定上下文约束下,会隐式寻求其表示的最低能量配置。

为验证这一假说,研究人员将模型的内部几何结构与理论上的 谱嵌入 (spectral embeddings) 进行对比——谱嵌入在数学上能最小化图的狄利克雷能量。令人惊讶的是,模型的 PCA 可视化与理论嵌入几乎完全一致。

环形图 (左) 与网格图 (右) 的理论谱嵌入。

图 6–7: 谱嵌入——数学上最优的低能量表征——与模型学到的结构相呼应。

这种高度一致性表明,模型不是在机械记忆连接关系,而是在运行一种隐式优化算法来寻找最连贯的上下文世界表征。


上下文涌现: 学习中的相变

研究者进一步探索了这种突变式学习在不同图规模下的表现。结果显示,图越大,模型需要的上下文越多才能达到高准确率,但在所有情况下,性能跃升都在临界阈值后瞬间发生。

图追踪能力: (a) 不同大小网格的准确率显示突跃。(b) 临界上下文长度随节点数量呈幂律扩展。

图 8: 上下文涌现与临界上下文点的幂律关系。

值得注意的是,临界上下文长度随图规模呈幂律变化——这是物理学中 相变 的典型特征。作者将其与 逾渗理论 (percolation theory) 类比: 当网络连接密度超过阈值时,局部连通分量会突然形成庞大的整体。类似地,模型似乎达到一个临界点,零散的上下文线索在此瞬间凝聚成统一的内部地图。

这一发现暗示: 上下文学习并非连续渐进,而是离散涌现——知识在某个瞬间“咔哒”成形。


宏观视野: 这意味着什么

这项研究揭示了大语言模型惊人的适应性。它们远非静态的语言百科,而是能基于上下文输入灵活重塑内部语义。

关键结论:

  1. 动态表征: LLM 能根据新的上下文结构重组概念几何。
  2. 涌现行为: 重组在临界上下文量后突然发生,类似物理相变。
  3. 隐式优化: 模型倾向通过能量最小化原则,为任务构建最连贯的内部地图。

这些洞见挑战了我们对 AI“学习”的传统概念。仅通过扩展上下文长度,就可能释放新的能力——无需重新训练或微调。这表明提示本身可以充当一种临时微调,在一次交互中赋予模型全新的世界结构。

除技术意义外,这项工作还架起了 AI 与认知科学的桥梁。人类同样会从经验中构建抽象的“认知地图”,这些结构在诸如海马体的神经回路中呈现。模型与人脑在形成结构化表征的方式上,存在令人着迷的相似性——为理解通用智能 (无论人工还是生物) 打开了新的窗口。


通过揭示 LLM 如何即时重构其内部世界,这项研究为我们提供了全新的视角,去理解人工智能认知的灵活性与动态性——或许,AI 学习的真正前沿不在更大的模型,而在更丰富的上下文之中。