像 Llama 和 Mistral 这样的大型语言模型 (LLM) 是工程学的奇迹,它们具备流畅的推理能力和创造力。然而,它们也容易产生幻觉、偏见和有毒的输出。当我们想要纠正这些行为时,传统的工具箱 (如微调) 可能计算成本高昂,有时甚至会损害模型的通用能力。

最近,一种称为激活编辑 (Activation Editing,或称表征工程) 的技术作为一种外科手术般的替代方案应运而生。我们无需重新训练模型权重,而是在推理过程中进行干预,调整模型的内部“思维” (激活) ,引导其走向诚实或安全。

大多数现有方法将这些激活视为地图上的点,并尝试通过添加引导向量 (steering vector) 来“移动”它们。在这篇文章中,我们将深入探讨一篇新的研究论文,该论文认为这种方法在几何上是有缺陷的。作者提出了一种新方法, 豪斯霍尔德伪旋转 (Householder Pseudo-Rotation, HPR) , 它不将激活视为需要移动的点,而是视为需要旋转的向量。

我们将探讨为何保持这些向量的“模长” (magnitude) 对于模型稳定性至关重要,以及一个巧妙的线性代数技巧——豪斯霍尔德变换——如何让我们比以往更有效地编辑模型行为。

“引导”向量的问题

要理解 HPR 的创新之处,我们需要先了解标准的激活编辑是如何工作的。

当 LLM 处理提示词 (prompt) 时,它会将数据传递给层层神经元。特定层的输出就是一个激活向量 。 研究人员发现,在这个高维空间中的特定方向对应着诸如“真实性”或“毒性”等概念。

主流的方法,如推理时干预 (Inference-Time Intervention, ITI) , 会识别一个“引导向量” (代表所需行为的方向) ,并简单地将其到模型的激活上。

可以将其视为空间点视角 。 你把激活看作图表上的一个点,然后将其向左或向右推。

Comparison of points-in-space view vs direction-magnitude view.

如上图 Figure 1(a) 所示,传统方法通过添加向量,将点从“负面”区域 (红色) 移动到“正面”区域 (绿色) 。

然而,这篇论文的作者主张采用方向-模长视角 (Figure 1(b) )。他们假设语义信息 (含义) 包含在向量的方向中,而模长 (长度) 则代表强度。

模长一致性属性

为什么这种区别很重要?事实证明,LLM 保持着非常严格的内部几何结构。研究人员发现,在任何给定的层内,无论内容如何,激活向量往往具有大致相同的长度 (范数) 。他们称之为模长一致性 (Magnitude Consistency)

让我们来看数据。下图显示了三种流行模型在不同层上的激活范数分布。

Activation norms across layers showing consistency.

注意那些紧凑的箱线图。无论模型是在处理正面还是负面的概念,激活向量的“长度”在层内都非常稳定。

“引导向量”方法 (添加向量) 的问题在于它破坏了这种稳定性。通过添加引导向量,你不可避免地改变了激活的长度。

  • 如果你引导得太少,就无法改变行为。
  • 如果你引导得足以改变行为,通常会将向量拉伸到远超其自然长度。

这种破坏可能会让模型崩溃。如下方 Figure 4 所示,ITI 方法 (蓝线) 会导致激活范数出现不自然的尖峰 (见中间图表中 100 处的尖峰) ,这本质上是将模型推入了未定义的区域。

Norm distributions showing how ITI disrupts consistency while HPR preserves it.

当范数被破坏时 (Figure 4b) ,模型通常开始输出完全的胡言乱语。因此,目标是在不改变模长 (稳定性) 的情况下改变方向 (行为) 。我们需要的是旋转,而不是加法。

解决方案: 豪斯霍尔德伪旋转 (HPR)

在高维空间 (例如 4096 维) 中将向量旋转到特定目标在计算上是昂贵的。计算完整的旋转矩阵涉及 \(\mathcal{O}(d^3)\) 的复杂度,这对于实时推理来说太慢了。

作者提出了一种称为豪斯霍尔德伪旋转 (HPR) 的巧妙变通方法。其核心思想是通过两个步骤来近似旋转:

  1. 反射 (Reflection) : 将向量关于一个超平面 (就像镜子一样) 翻转到“正面”区域。
  2. 调整 (Adjustment) : 微调角度以准确落在我们想要的位置。

这种方法计算效率高,而且至关重要的是,它能完美地保持向量范数

第一步: 线性探针 (寻找镜子)

首先,我们需要知道“正面” (如真实) 和“负面” (如幻觉) 区域在哪里。研究人员在特定层的激活上训练了一个简单的线性探针 (分类器) 。

Probe accuracy across layers.

Figure 2 所示,线性探针可以高精度地区分正面和负面激活 (中间层约为 80%) 。这个分类器的决策边界充当了我们的分离超平面

探针给出了一个法向量 \(\theta_{probe}\)。我们可以利用它来构建一个豪斯霍尔德矩阵 \(H\)。在线性代数中,豪斯霍尔德矩阵执行关于平面的反射。

反射定义为:

Householder reflection equation.

这里,\(a\) 是原始 (负面) 激活,而 \(\dot{a}\) 是反射后的版本。因为这是反射,所以 \(|\dot{a}| = |a|\)。我们成功地将向量移动到了“正面”一侧,且没有改变其长度。

第二步: 角度预测 (微调旋转)

简单地反射向量可能太粗糙了——它可能会越过最佳方向。我们需要将原始向量 \(a\) 朝着反射向量 \(\dot{a}\) 旋转,但要停在恰当的角度。

为此,作者引入了一个角度预测模块 (一个小型的神经网络) ,用于预测最佳旋转角度 \(\gamma_1\)。

Angle prediction equation.

该模块接收激活作为输入,并学习预测需要旋转多少度才能与训练期间看到的真实正面激活对齐。

第三步: 几何计算

现在我们拥有:

  1. 原始向量 \(a\)。
  2. 反射向量 \(\dot{a}\) (作为方向指引) 。
  3. 所需的旋转角度 \(\gamma_1\)。

由于两个向量长度相同,我们可以在由 \(a\) 和 \(\dot{a}\) 构成的二维平面上执行旋转。作者利用正弦定理推导出了计算最终目标向量 \(\hat{a}\) 的公式。

让我们可视化这个几何关系:

Geometric illustration of the rotation adjustment.

Figure 5 中,红色向量是原始输入 (\(a\)) 。橙色向量是反射 (\(\dot{a}\)) 。绿色向量是我们想要的目标 (\(\hat{a}\)) 。

计算这个目标向量的最终公式是三角函数的一个优雅应用:

Final calculation of the target activation.

这里,\(\gamma_2\) 是原始向量与其反射之间的总夹角。这个公式允许模型高效地计算新的激活 \(\hat{a}\)。重要的是,这个数学运算保证了 \(\hat{a}\) 的长度与 \(a\) 的长度完全相同。

实验结果

研究人员在几个基准上测试了 HPR,主要是 TruthfulQA , 该基准衡量模型模仿人类谬误的倾向。他们将 HPR 与标准基础模型 (Llama2, Llama3, Mistral) 以及领先的引导方法 (ITI) 进行了比较。

TruthfulQA 上的准确率

结果显示了巨大的提升。

Table 1: Performance on TruthfulQA.

观察 Table 1 :

  • Base Llama2 在 MC1 (单选准确率) 上得分为 29.58%
  • ITI 将其提高到了 33.74%
  • HPR 跃升至 51.83%

这是一个巨大的幅度。这种模式在 Llama3 和 Mistral 上也同样存在。该方法不仅仅是稍好一点;它解锁了引导向量方法无法触及的能力。

安全与偏见

该方法的通用性不仅限于真实性。作者将 HPR 应用于涉及偏见 (BBQ) 、伦理 (SEQ) 和毒性 (Toxigen) 的数据集。

Table 2: Performance on Bias, Ethics, and Toxicity.

Table 2 所示,HPR 在这些安全基准测试中持续提高分数。例如,在 Mistral-7B 的 SEQ (简单伦理问题) 数据集上,准确率从 69.57% 提高到了 86.96%

生成质量 (避免乱码)

支持 HPR 最有力的论据之一是它的稳定性。因为标准的引导方法 (ITI) 改变了向量模长,如果推得太用力,就会破坏模型的流畅性。

下表测量了 WikiText-2 数据集上的困惑度 (Perplexity) (越低越好) 。困惑度是衡量文本听起来自然流畅程度的指标。

Table 5: Perplexity scores.

Table 5 中,查看 ITI50 (具有强引导力度的 ITI) 这一行。困惑度激增至 133.7 (Llama3 甚至达到 4303 ! ) ,这意味着模型输出的是无意义的内容。

相比之下, HPR 保持的困惑度几乎与基础模型相同 (Llama3 约为 11.95 )。这证实了通过保持激活范数 (模长一致性) ,HPR 允许进行强有力的干预,而不会破坏模型说英语的能力。

结论

从“引导”到“旋转”的转变代表了我们对大型语言模型内部几何思考的成熟。

豪斯霍尔德伪旋转 (HPR) 方法在理论和实践上都取得了令人信服的进步:

  1. 理论对齐: 它尊重 LLM 的“模长一致性”属性,承认信息编码在方向中,而非长度中。
  2. 计算效率: 通过使用反射 (豪斯霍尔德矩阵) 而非完整的旋转矩阵,它保持了足够快的推理速度。
  3. 卓越性能: 在保持生成质量的同时,它在真实性和安全性基准上显著优于加性引导方法。

随着我们继续依靠 LLM 执行关键任务,像 HPR 这样高效的对齐技术将至关重要。它们允许我们在运行时“修复”模型,而无需巨额的再训练成本,从而确保 AI 不仅智能,而且真实、安全。