为什么 Prompt 在 Mamba 上会失效：介绍 State-offset Tuning

如果你一直在关注序列建模的最新进展，你很可能听说过 Mamba 和 状态空间模型 (State Space Models, SSMs) 。这些架构作为 Transformer 的强力替代者已经崭露头角，承诺解决困扰标准注意力机制 (Attention mechanisms) 的可怕的二次计算成本问题。

然而，当我们从 Transformer 转向 SSM 时，我们发现了一个摩擦点: 我们现有的工具箱并不总是有效。具体来说，我们用于高效微调大型语言模型 (LLM) 的技术——即参数高效微调 (PEFT) ——在应用于 Mamba 时往往会失效。

在这篇文章中，我们将深入探讨一篇最近的研究论文，题为 “State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models” (State-offset Tuning: 面向状态空间模型的基于状态的参数高效微调) 。我们将探索为什么像 Prompt Tuning 这样的流行方法在 SSM 中会崩溃，并介绍一种新颖的、针对特定架构的解决方案，它超越了现有的技术: State-offset Tuning 。

问题所在: Transformer 的工具不适用于 SSM

要理解这篇论文的创新之处，我们首先需要理解问题所在。

在 Transformer 的世界里，全量微调 (更新模型的所有参数) 对于大型模型来说成本高得令人望而却步。这导致了 PEFT 方法的兴起。PEFT 主要有两大类:

基于参数的方法: 如 LoRA (低秩适应) ，它向模型中注入可训练的低秩矩阵。
基于 Prompt (提示) 的方法: 如 Prompt Tuning 和 Prefix-Tuning 。这些方法通过在输入序列前添加“虚拟 token” (可学习的向量) 来工作。

基于 Prompt 的方法对 Transformer 非常有效。因为注意力机制允许任何 token 关注任何其他 token，所以在序列开头的一个 Prompt 可以影响数千步之后的 token 生成。

但 SSM 截然不同。

SSM 在推理时本质上是循环神经网络 (RNN) 。它们按顺序处理数据，在每一步更新隐藏状态 \(h_t\)。它们没有全局的“注意力图”。这导致了一种研究人员称之为 遗忘 (forgetting) 的现象。如果你在 SSM 的序列开头放置一个软提示 (soft prompt) ，它的影响力会随着序列的推进呈指数级减弱。当模型到达长输入的末尾时，它实际上已经“忘记”了 Prompt 的指令。

这篇论文提出了视角的转变。作者没有试图将基于 Prompt 的方法强加于 SSM，而是引入了一类专为该架构设计的技术: 基于状态的 PEFT (State-based PEFT) 。

核心概念: State-offset Tuning

研究人员介绍了一种称为 State-offset Tuning 的方法。其直觉简单而深刻: 如果模型倾向于遗忘在开始时引入的信息，我们就应该在每一个时间步重新注入该适应信号。

Mamba 的架构与修复方案

让我们看看标准的 Mamba (SSM) 块是如何工作的，以及 State-offset Tuning 如何对其进行修改。

在标准的 SSM 中，隐藏状态 \(h_t\) 是根据前一个状态 \(h_{t-1}\) 和当前输入 \(x_t\) 更新的。然后，输出 \(y_t\) 从这个状态投影出来。

图 1: 我们在 Mamba 块上提出的 State-offset Tuning 示意图。State-offset Tuning 在 SSM 模块的每个时间步注入一个可训练的状态偏移 h’，同时保持其他参数冻结。

如 图 1 所示，State-offset Tuning 保持预训练模型巨大的“冻结”权重 (蓝色部分) 不动。相反，它引入了一个小的、可训练的参数向量，表示为 \(h'\) (红色部分) 。

关键在于，这个偏移量 \(h'\) 被添加到了 每个时间步 的计算中。

标准操作: 模型基于标准 SSM 动力学计算隐藏状态 \(h_t\)。
干预: 该方法将可学习的偏移量 \(h'\) 添加到状态中。
结果: 修改后的状态被用于计算输出。

通过在每一步注入 \(h'\)，该方法保证了适应信号保持恒定，无论序列有多长都不会消失。

数学基础

为了理解为什么这行得通，让我们简要看看支配 SSM 的方程。一个离散化的 SSM 通常遵循这种形式:

显示隐藏状态 h_t 和输出 y_t 更新规则的方程。

这里，\(\overline{A}\) 控制状态如何演变 (动力学) ，\(\overline{B}\) 控制输入如何影响状态。

之前适应 SSM 的尝试使用了 Initial State Tuning (初始状态微调) 。这种方法优化了初始状态 \(h_0\)。虽然比标准的 Prefix-Tuning 好，但它仍然受到衰减的影响。初始状态的影响在每一步都乘以 \(\overline{A}\)。由于 \(\overline{A}\) 通常用于稳定系统 (具有小于 1 的特征值) ，\(h_0\) 的效果会随着时间消失。

State-offset Tuning 有效地将方程变为:

\[\widehat{y}_t = C_t(h_t + h')\]

或者在一个称为 State-offset Tuning (y) 的变体中:

\[\widehat{y}_t = y_t + y'\]

下表总结了 Initial State Tuning (会衰减) 和 State-offset Tuning (恒定) 之间的区别。

表 1: S6 的基于状态的方法。强调 State-offset Tuning 消除了时间相关的系数，确保了均匀的效果。

注意表的第一行。Initial State Tuning 包含项 \(\prod \overline{A}_i\)，这代表了状态转移矩阵的累积乘积。这就是“遗忘”问题背后的数学罪魁祸首。State-offset Tuning 完全消除了这种依赖性。

对比 PEFT 家族

研究人员将针对 SSM 的 PEFT 方法分为三类:

基于参数的: 修改权重 (例如 LoRA) 。
基于 Prompt 的: 修改输入 (例如 Prefix-Tuning) 。
基于状态的: 修改内部状态 (作者的提议) 。

下图直观地比较了这些方法如何与 S6 块 (Mamba 的核心组件) 交互。

图 2: S6 块中基于 Prompt 的方法和基于状态的方法的视觉比较。

在 图 2 的底部，你可以看到 Prefix-Tuning 。它在序列开始之前预置信息。这依赖于模型通过循环瓶颈将该信息向前传递。

在顶部，你可以看到 State-offset Tuning 。它在循环内部运作。它不要求模型“记住” Prompt；它在时钟的每一次滴答中，手动将 Prompt 的意图插入到模型的“大脑”中。

“迭代后缀”的联系

作者提供了一个有趣的理论见解。他们证明了 State-offset Tuning 在数学上等价于一个他们称之为 Iterative Suffix-Tuning (迭代后缀微调) 的概念。

想象一下，你不是在开头放一个 Prompt (前缀) ，而是在序列的末尾放一个 Prompt token (后缀) 。在循环模型中，最后一个 token 具有最大的影响力。现在，想象你在序列的每一个步骤都重新插入那个后缀 token。这将迫使模型不断地关注它。

这篇论文证明，学习一个状态偏移 \(h'\) 实际上等同于学习一个在每个时间步都重新引入的虚拟后缀 token \(x_{suffix}\)。这个理论联系巩固了为什么 State-offset Tuning 是在循环系统中进行类 Prompt 适应的“正确”方式。

实验与结果

这个理论在实践中站得住脚吗？作者在 Mamba (1.3亿到28亿参数) 和 Mamba-2 上，跨多个数据集测试了 State-offset Tuning，包括:

Spider: 一个复杂的文本转 SQL 任务 (需要逻辑和语法) 。
SAMSum: 对话摘要。
GLUE: 一个通用的语言理解基准。

他们将自己的方法与全量微调、LoRA、BitFit、Prompt Tuning 和 Prefix-Tuning 进行了比较。

性能分析

结果总结在下面的表 3 中。

表 3: 微调 Mamba 模型 SSM 模块 (S6) 的实验结果。State-offset Tuning 优于几乎所有其他方法。

数据的关键结论:

Prompt 方法失效: 看“Prompt Tuning”和“Prefix-Tuning”这几行。在像 Spider 这样的困难任务上，它们的表现非常糟糕 (例如，Prompt Tuning 得分为 43.6，而全量微调为 66.2) 。这证实了“遗忘”假设。
State-offset Tuning (h) 获胜: 提出的方法 (倒数第二行) 在 Spider 上达到了 57.4 , 显著击败了 LoRA (56.3) 并碾压了基于 Prompt 的方法。它始终是仅次于全量微调的最佳或第二佳方法。
效率: “State-offset Tuning (y)”方法 (最后一行) 尤其令人印象深刻。它仅调整输出投影的偏置。它只使用了 0.01% 的参数 (相比之下 LoRA 为 0.46%) ，但仍取得了非常有竞争力的结果，在像 SAMSum 这样较简单的数据集上甚至经常击败 LoRA。

计算开销

LoRA 的主要卖点之一是效率。然而，LoRA 引入了额外的矩阵乘法。如果你不将 LoRA 权重合并回主模型 (在为使用不同适配器的多个用户提供服务时这很常见) ，推理就会变慢。

State-offset Tuning 仅仅是向量的逐元素加法。它在计算上极其廉价。

表 8: 各种模型大小的 FLOP 开销。State-offset Tuning 增加了不到 0.03% 的开销。

如 表 8 所示，State-offset Tuning 的 FLOP (浮点运算次数) 开销可以忽略不计——不到 0.03% 。相比之下，如果不合并权重，LoRA 在推理期间引入的计算开销是其 30 倍 以上。

结论与启示

这篇论文强调了深度学习中的一个关键教训: 架构至关重要 。当我们超越 Transformer 的垄断，探索像 Mamba 和其他状态空间模型这样的高效架构时，我们不能简单地照搬过去的技术。

Prompt Tuning 是 Transformer 时代的产物，它依赖于注意力机制特定的“全对全 (all-to-all) ”连接性。当应用于 SSM 的循环性质时，由于状态衰减，它失效了。

State-offset Tuning 通过尊重 SSM 的机制提供了一个稳健的解决方案。通过在每个时间步直接将适应参数注入状态转移中，它确保了:

一致性: 适应信号不会消退。
效率: 它比 LoRA 需要更少的参数和计算量。
性能: 它在复杂的推理任务上取得了与全量微调相当的结果。

对于使用 Mamba 的学生和开发者来说，这表明操纵内部状态——而不是输入序列——是高效适应的未来。

问题所在: Transformer 的工具不适用于 SSM#

核心概念: State-offset Tuning#

Mamba 的架构与修复方案#

数学基础#

对比 PEFT 家族#

“迭代后缀”的联系#

实验与结果#

性能分析#

计算开销#

结论与启示#