大型语言模型 (LLM) 非常强大,但控制它们——确保它们遵循指令、避免有害内容或坚持特定主题——仍然是 AI 安全领域最大的挑战之一。目前,业界主要依赖提示工程 (Prompting) (好言相劝模型) 和微调 (Finetuning) (用新数据重新训练模型) 。虽然这些方法有效,但它们也有明显的缺点: 提示可能会被“越狱 (jailbreaks) ”绕过,而微调则计算昂贵且过程不透明。

表征工程 (Representation Engineering) 应运而生。这个新兴领域希望打开神经网络的“黑盒”,识别负责某个概念的具体内部激活 (或“神经元”) ,并手动调整它们以引导模型的行为。该领域的“圣杯”最近一直是稀疏自编码器 (Sparse Autoencoders, SAEs) ——这是一种无监督工具,可以将模型激活分解为可解释的特征。

但这真的比旧方法更有效吗?

一篇题为 AXBENCH: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders 的新论文在可解释性研究社区投下了一枚重磅炸弹。研究人员引入了一个名为 AXBENCH 的大规模基准测试来严格测试这些方法。他们的发现是什么?被大肆宣传的无监督方法 (如 SAE) 目前正被简单的线性基线方法和他们提出的一种名为 ReFT-r1 的新方法所超越。

在这篇文章中,我们将拆解这篇论文,解释 AXBENCH 框架,剖析新方法 ReFT-r1背后的数学原理,并看看那些可能重塑我们对 AI 控制认知的惊人结果。

问题: 控制的错觉

要理解这篇论文的重要性,我们首先需要理解引导 (Steering) 的前提。

当一个 LLM 处理“巴黎”这个词时,其隐藏层内部会触发一种特定的数字模式。如果我们能在这个数学空间中找到代表“法国”的具体“方向”,理论上我们就可以在模型谈论“伦敦”时将这个向量添加到模型的大脑中,强迫它产生一个关于这个城市的法国版幻觉。

这就是模型引导 (Model Steering)

研究人员提出了各种寻找这些引导向量的方法:

  1. 有监督方法: 比如取“快乐”和“悲伤”句子的平均差值 (均值差分法,Difference-in-Means) 。
  2. 无监督方法 (SAEs) : 训练一个独立的、较小的网络来扫描 LLM 的大脑,并在没有人为标签的情况下编目数百万个“特征” (如“关于 1990 年代的提及”或“HTML 代码”) 。

问题在于,直到现在,我们还没有一种标准化的方法来衡量这些花哨的向量是否真的比直接提示模型更好。我们是在寻找真正的概念,还是仅仅在寻找噪声?

AXBENCH 登场

为了解决这个测量危机,作者引入了 AXBENCH 。 这是一个大规模基准测试,旨在从两个关键维度评估模型控制方法:

  1. 概念检测 (Concept Detection, C) : 该方法能否准确地在模型的内部激活中找到某个概念 (例如“金门大桥”) 存在的位置?
  2. 模型引导 (Model Steering, S) : 该方法能否利用这些信息强迫模型谈论该概念?

图 2: AXBENCH 概览。左侧——AXBENCH 任务: 我们通过定位特定概念的激活来评估概念检测,并通过干预生成过程来评估模型引导。中间——金门大桥概念的合成数据生成: 我们选取一个对比概念,按体裁过滤,采样指令,并获得依赖于概念的回复。右侧——训练流水线: SAE 使用 LLM 派生的概念标签标记预训练特征,而 SDL 提示 LLM 合成训练数据并直接从中学习特征。

如上图 2 所示,该基准测试依赖于合成数据 。 研究人员使用 GPT-4 为 500 个特定概念 (源自 GemmaScope) 生成了数千个示例。

对于像“金门大桥”这样的概念,他们生成了:

  • 正样本: 关于这座桥的句子。
  • 负样本: 关于完全不同事物的句子。
  • 难负样本 (Hard Negatives) : 关于“海湾大桥 (Bay Bridge) ”的句子 (以确保该方法不仅仅是检测一般的“桥梁”) 。

这创造了一个基本事实 (ground truth) 。如果一种方法声称找到了“金门大桥”神经元,AXBENCH 会检查该神经元是否真的在正样本上激活,而在负样本上保持静默。

参赛选手: 从简单到复杂

这篇论文将几种方法进行了对比。理解这里的层级关系至关重要:

  • 基线方法 (Baselines) :
  • 提示 (Prompting) : 只是告诉模型“谈论金门大桥”。
  • SFT / LoRA: 在数据上微调模型权重。
  • 简单引导方法:
  • 均值差分 (DiffMean) : 取正样本的平均表征减去负样本的平均表征。
  • 探针 (Probe) : 训练一个简单的线性分类器 (逻辑回归) 来区分正负样本。
  • 复杂/无监督方法:
  • SAE (稀疏自编码器) : 使用大规模预训练的特征字典来寻找概念,无需查看标签。
  • 新挑战者:
  • ReFT-r1 (秩-1 表征微调) : 本文介绍的一种新颖方法。

深度解析: 什么是 ReFT-r1?

作者提出 ReFT-r1 作为一种“有监督字典学习” (SDL) 方法。它的设计旨在弥合有监督方法的准确性与表征工程的可解释性之间的差距。

ReFT-r1 的独特之处在于,它通过同时优化两件事来学习概念的特定方向 (一个秩-1 子空间) : 检测引导

首先,它定义了一个检测分数。对于隐藏状态 \(h_i\),概念的存在通过一个学习到的向量 \(\mathbf{w}_{\text{ReFT-r1}}\) 来计算:

使用 ReLU 激活函数的 ReFT-r1 检测分数公式。

ReLU 确保负匹配导致的激活为零——我们只关心概念是否存在,而不关心它是否“反向存在”。

接下来,它定义了如何引导。如果检测到了概念,ReFT-r1 会通过将向量加回流中来修改隐藏状态。这种添加的幅度取决于检测的强度 (具体来说,是 top-k 激活的 L1 范数) :

ReFT-r1 引导干预公式。

最后,我们如何训练它?目标函数试图最小化标准语言建模损失 (使模型正确预测下一个 token) ,同时保持干预处于激活状态。它还包括一个稀疏惩罚,以确保概念向量是干净的,并且不会在不相关的事情上激活。

ReFT-r1 最小化目标公式。

这种优雅的公式使得 ReFT-r1 仅使用少量的标记数据,就能学习到一个既擅长识别概念擅长影响模型输出的向量。

维度 1: 概念检测结果

第一个测试是概念检测 。 给定一段文本流,该方法能否识别出哪些 token 与目标概念相关?

结果如下表所示,令人惊讶。“笨”方法 DiffMean (均值差分) 表现得非常好,实现了 0.942 的 AUROC (接收者操作特征曲线下面积) 。新方法 ReFT-r1 达到了同样的性能水平。

表 1: 每种方法在概念检测上的平均 AUROC。DiffMean、Probe 和 ReFT-r1 处于领先地位。

然而,请看 SAE 的得分: 0.695。

这是一个巨大的差距。这表明无监督自编码器尽管计算成本高且复杂,但在分离特定概念方面很难像有监督线性方法那样清晰。即使研究人员试图“作弊”,利用标签挑选绝对最好的 SAE 特征( SAE-A ),它的表现仍然不如简单的线性探针和 ReFT-r1。

我们可以使用接收者操作特征 (ROC) 曲线来可视化这种性能差距。完美的方法应该紧贴左上角。

图 5: 所有概念的平均 ROC 曲线。注意 ReFT-r1 和 DiffMean 的曲线非常陡峭,而 SAE 的表现较低。

ROC 曲线证实,与 SAE (紫色/蓝色线) 相比,有监督方法 (绿色/红色线) 在真阳性和假阳性之间提供了更好的权衡。

维度 2: 模型引导结果

检测是一回事,但引导才是最终目标。我们能控制模型吗?

为了评估这一点,作者使用了一个 LLM 法官根据三个标准对引导后的输出进行评分:

  1. 流畅性 (Fluency) : 文本连贯吗?
  2. 指令得分 (Instruct Score) : 它回答用户的问题了吗?
  3. 概念得分 (Concept Score) : 它成功融入目标概念了吗?

整体结果总结在下面的散点图中:

图 1: 概念检测与模型引导的散点图。提示 (Prompt) 位于右上角 (最佳) 。ReFT-r1 是最好的引导向量方法。

来自引导结果的关键要点:

  1. 提示为王 (Prompting is King) : 简单的提示操作 (右上角标记为“Prompt”的点) 胜过了几乎所有的表征工程方法。它在获得高引导分数的同时,没有牺牲模型遵循指令的能力。
  2. ReFT-r1 在干预派中领先: 在实际干预激活的方法中,ReFT-r1 (红点) 是明显的赢家,显著优于 SAE 和 DiffMean。
  3. SAE 的失败: SAE (蓝色/紫色点) 落在了左下角。这意味着它们经常无法注入概念,或者当它们注入时,会破坏模型的流畅性或遵循指令的能力。

下表详细列出了整体引导得分。请注意 Prompt 达到了 0.894,而 ReFT-r1 达到了 0.543, SAE 则滞后于 0.165。

表 2: 平均整体引导得分。提示方法占主导地位,其次是 LoReFT 和 SFT。ReFT-r1 是最好的内部引导方法。

权衡: 连贯性 vs. 控制

为什么引导方法会举步维艰?这里存在一个固有的权衡。当你为了让模型提及一个概念而更用力地推动它 (增加“引导因子”) 时,你就有可能破坏它的“大脑”。它开始重复单词、产生幻觉或忽略用户的实际问题。

下图可视化了这种权衡。X 轴是指令得分 (是否回答了问题?) ,Y 轴是概念得分 (是否提到了概念?) 。

图 4: 概念得分与指令得分。ReFT-r1 (红线) 显示了最佳的帕累托前沿。

理想情况下,我们希望处于右上角 。 你可以看到,随着大多数方法追求更高的概念得分 (向上移动) ,它们会向左漂移 (失去指令遵循能力) 。 ReFT-r1 (红线) 保持了最佳的平衡,描绘出一条“帕累托最优”路径,比竞争对手保持得更高且更靠右。

为什么 SAE 失败了?

稀疏自编码器在这个基准测试中的糟糕表现对可解释性领域来说是一个清醒剂。作者提出了几个原因:

  1. 标签不匹配 (Label Mismatch) : SAE 特征是无监督发现的。SAE 找到的“概念”可能是一种特定的 token 模式或语法特征,而不是人类关心的那种高层语义概念 (如“金门大桥”) 。
  2. 特征分裂 (Feature Splitting) : 单个人类概念可能被分裂到 10 个不同的 SAE 特征中。仅激活其中一个并不能触发完整的概念。
  3. 噪声 (Noise) : 无监督特征通常包含“多义性 (polysemantic) ”噪声——它们会针对我们想要的概念激活,但也会针对其他三件随机的事情激活,使得引导变得不可预测。

弱监督的力量

反过来说,为什么 ReFT-r1 成功了?答案在于有监督字典学习 (SDL)

通过使用即使是少量的标记数据 (可以通过 GPT-4 以极低的成本合成生成) ,我们可以强迫模型学习一个与我们要寻找的概念明确对齐的向量。

作者分析了 ReFT-r1 的缩放定律 (scaling laws) ,发现它极其高效。它不需要成千上万个例子。

图 10: ReFT-r1 的缩放定律。性能在仅有 50-100 个示例时就饱和了。

如图 10 所示,性能 (总体得分) 迅速提升并趋于平稳。仅需大约 50 到 100 个示例,ReFT-r1 就能达到接近最优的性能。这使得它成为训练大规模 SAE (需要处理数十亿个 token) 的一个非常实用的替代方案。

此外,ReFT-r1 学习到了一个语义丰富的空间。当作者使用 UMAP 可视化 ReFT-r1 学习到的子空间时,他们发现了清晰的体裁聚类。

图 11: ReFT-r1 子空间的 UMAP 图,显示了文本、代码和数学概念的明显聚类。

蓝点 (代码) 、绿点 (数学) 和红点 (文本) 形成了独特的岛屿。这表明 ReFT-r1 不仅仅是在死记硬背数据;它正在利用模型内部的知识组织结构。

结论

AXBENCH 论文是对 AI 控制和可解释性领域的一次现实检验。它表明,虽然无监督特征发现 (SAE) 的理念很优雅,但现实情况是,简单的有监督基线方法目前在实际控制中更为有效。

ReFT-r1 的引入提供了一条引人注目的前进道路。它结合了监督学习的精确性和表征引导的机制。虽然标准的提示工程在通用任务中仍然占据主导地位,但在我们无法信任模型会“听从”提示的安全案例中 (例如防止越狱或消除偏见) ,像 ReFT-r1 这样的基于表征的方法是必不可少的。

对于学生和研究人员来说,结论很明确: 评估就是一切。 如果没有像 AXBENCH 这样严格的基准测试,我们就有可能去追逐那些在纸面上看起来很厉害,但实际上连简单平均法都跑不过的复杂方法。

文中引用的所有图表均来自 Wu et al., 2025。