如果你一直在关注序列建模的最新进展,你很可能听说过 Mamba 和 状态空间模型 (State Space Models, SSMs) 。 这些架构作为 Transformer 的强力替代者已经崭露头角,承诺解决困扰标准注意力机制 (Attention mechanisms) 的可怕的二次计算成本问题。
然而,当我们从 Transformer 转向 SSM 时,我们发现了一个摩擦点: 我们现有的工具箱并不总是有效。具体来说,我们用于高效微调大型语言模型 (LLM) 的技术——即参数高效微调 (PEFT) ——在应用于 Mamba 时往往会失效。
在这篇文章中,我们将深入探讨一篇最近的研究论文,题为 “State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models” (State-offset Tuning: 面向状态空间模型的基于状态的参数高效微调) 。 我们将探索为什么像 Prompt Tuning 这样的流行方法在 SSM 中会崩溃,并介绍一种新颖的、针对特定架构的解决方案,它超越了现有的技术: State-offset Tuning 。
问题所在: Transformer 的工具不适用于 SSM
要理解这篇论文的创新之处,我们首先需要理解问题所在。
在 Transformer 的世界里,全量微调 (更新模型的所有参数) 对于大型模型来说成本高得令人望而却步。这导致了 PEFT 方法的兴起。PEFT 主要有两大类:
- 基于参数的方法: 如 LoRA (低秩适应) ,它向模型中注入可训练的低秩矩阵。
- 基于 Prompt (提示) 的方法: 如 Prompt Tuning 和 Prefix-Tuning 。 这些方法通过在输入序列前添加“虚拟 token” (可学习的向量) 来工作。
基于 Prompt 的方法对 Transformer 非常有效。因为注意力机制允许任何 token 关注任何其他 token,所以在序列开头的一个 Prompt 可以影响数千步之后的 token 生成。
但 SSM 截然不同。
SSM 在推理时本质上是循环神经网络 (RNN) 。它们按顺序处理数据,在每一步更新隐藏状态 \(h_t\)。它们没有全局的“注意力图”。这导致了一种研究人员称之为 遗忘 (forgetting) 的现象。如果你在 SSM 的序列开头放置一个软提示 (soft prompt) ,它的影响力会随着序列的推进呈指数级减弱。当模型到达长输入的末尾时,它实际上已经“忘记”了 Prompt 的指令。
这篇论文提出了视角的转变。作者没有试图将基于 Prompt 的方法强加于 SSM,而是引入了一类专为该架构设计的技术: 基于状态的 PEFT (State-based PEFT) 。
核心概念: State-offset Tuning
研究人员介绍了一种称为 State-offset Tuning 的方法。其直觉简单而深刻: 如果模型倾向于遗忘在开始时引入的信息,我们就应该在每一个时间步重新注入该适应信号。
Mamba 的架构与修复方案
让我们看看标准的 Mamba (SSM) 块是如何工作的,以及 State-offset Tuning 如何对其进行修改。
在标准的 SSM 中,隐藏状态 \(h_t\) 是根据前一个状态 \(h_{t-1}\) 和当前输入 \(x_t\) 更新的。然后,输出 \(y_t\) 从这个状态投影出来。

如 图 1 所示,State-offset Tuning 保持预训练模型巨大的“冻结”权重 (蓝色部分) 不动。相反,它引入了一个小的、可训练的参数向量,表示为 \(h'\) (红色部分) 。
关键在于,这个偏移量 \(h'\) 被添加到了 每个时间步 的计算中。
- 标准操作: 模型基于标准 SSM 动力学计算隐藏状态 \(h_t\)。
- 干预: 该方法将可学习的偏移量 \(h'\) 添加到状态中。
- 结果: 修改后的状态被用于计算输出。
通过在每一步注入 \(h'\),该方法保证了适应信号保持恒定,无论序列有多长都不会消失。
数学基础
为了理解为什么这行得通,让我们简要看看支配 SSM 的方程。一个离散化的 SSM 通常遵循这种形式:

这里,\(\overline{A}\) 控制状态如何演变 (动力学) ,\(\overline{B}\) 控制输入如何影响状态。
之前适应 SSM 的尝试使用了 Initial State Tuning (初始状态微调) 。 这种方法优化了初始状态 \(h_0\)。虽然比标准的 Prefix-Tuning 好,但它仍然受到衰减的影响。初始状态的影响在每一步都乘以 \(\overline{A}\)。由于 \(\overline{A}\) 通常用于稳定系统 (具有小于 1 的特征值) ,\(h_0\) 的效果会随着时间消失。
State-offset Tuning 有效地将方程变为:
\[\widehat{y}_t = C_t(h_t + h')\]或者在一个称为 State-offset Tuning (y) 的变体中:
\[\widehat{y}_t = y_t + y'\]下表总结了 Initial State Tuning (会衰减) 和 State-offset Tuning (恒定) 之间的区别。

注意表的第一行。Initial State Tuning 包含项 \(\prod \overline{A}_i\),这代表了状态转移矩阵的累积乘积。这就是“遗忘”问题背后的数学罪魁祸首。State-offset Tuning 完全消除了这种依赖性。
对比 PEFT 家族
研究人员将针对 SSM 的 PEFT 方法分为三类:
- 基于参数的: 修改权重 (例如 LoRA) 。
- 基于 Prompt 的: 修改输入 (例如 Prefix-Tuning) 。
- 基于状态的: 修改内部状态 (作者的提议) 。
下图直观地比较了这些方法如何与 S6 块 (Mamba 的核心组件) 交互。

在 图 2 的底部,你可以看到 Prefix-Tuning 。 它在序列开始 之前 预置信息。这依赖于模型通过循环瓶颈将该信息向前传递。
在顶部,你可以看到 State-offset Tuning 。 它在循环 内部 运作。它不要求模型“记住” Prompt;它在时钟的每一次滴答中,手动将 Prompt 的意图插入到模型的“大脑”中。
“迭代后缀”的联系
作者提供了一个有趣的理论见解。他们证明了 State-offset Tuning 在数学上等价于一个他们称之为 Iterative Suffix-Tuning (迭代后缀微调) 的概念。
想象一下,你不是在开头放一个 Prompt (前缀) ,而是在序列的 末尾 放一个 Prompt token (后缀) 。在循环模型中,最后一个 token 具有最大的影响力。现在,想象你在序列的每一个步骤都重新插入那个后缀 token。这将迫使模型不断地关注它。
这篇论文证明,学习一个状态偏移 \(h'\) 实际上等同于学习一个在每个时间步都重新引入的虚拟后缀 token \(x_{suffix}\)。这个理论联系巩固了为什么 State-offset Tuning 是在循环系统中进行类 Prompt 适应的“正确”方式。
实验与结果
这个理论在实践中站得住脚吗?作者在 Mamba (1.3亿到28亿参数) 和 Mamba-2 上,跨多个数据集测试了 State-offset Tuning,包括:
- Spider: 一个复杂的文本转 SQL 任务 (需要逻辑和语法) 。
- SAMSum: 对话摘要。
- GLUE: 一个通用的语言理解基准。
他们将自己的方法与全量微调、LoRA、BitFit、Prompt Tuning 和 Prefix-Tuning 进行了比较。
性能分析
结果总结在下面的表 3 中。

数据的关键结论:
- Prompt 方法失效: 看“Prompt Tuning”和“Prefix-Tuning”这几行。在像 Spider 这样的困难任务上,它们的表现非常糟糕 (例如,Prompt Tuning 得分为 43.6,而全量微调为 66.2) 。这证实了“遗忘”假设。
- State-offset Tuning (h) 获胜: 提出的方法 (倒数第二行) 在 Spider 上达到了 57.4 , 显著击败了 LoRA (56.3) 并碾压了基于 Prompt 的方法。它始终是仅次于全量微调的最佳或第二佳方法。
- 效率: “State-offset Tuning (y)”方法 (最后一行) 尤其令人印象深刻。它仅调整输出投影的偏置。它只使用了 0.01% 的参数 (相比之下 LoRA 为 0.46%) ,但仍取得了非常有竞争力的结果,在像 SAMSum 这样较简单的数据集上甚至经常击败 LoRA。
计算开销
LoRA 的主要卖点之一是效率。然而,LoRA 引入了额外的矩阵乘法。如果你不将 LoRA 权重合并回主模型 (在为使用不同适配器的多个用户提供服务时这很常见) ,推理就会变慢。
State-offset Tuning 仅仅是向量的逐元素加法。它在计算上极其廉价。

如 表 8 所示,State-offset Tuning 的 FLOP (浮点运算次数) 开销可以忽略不计——不到 0.03% 。 相比之下,如果不合并权重,LoRA 在推理期间引入的计算开销是其 30 倍 以上。
结论与启示
这篇论文强调了深度学习中的一个关键教训: 架构至关重要 。 当我们超越 Transformer 的垄断,探索像 Mamba 和其他状态空间模型这样的高效架构时,我们不能简单地照搬过去的技术。
Prompt Tuning 是 Transformer 时代的产物,它依赖于注意力机制特定的“全对全 (all-to-all) ”连接性。当应用于 SSM 的循环性质时,由于状态衰减,它失效了。
State-offset Tuning 通过尊重 SSM 的机制提供了一个稳健的解决方案。通过在每个时间步直接将适应参数注入状态转移中,它确保了:
- 一致性: 适应信号不会消退。
- 效率: 它比 LoRA 需要更少的参数和计算量。
- 性能: 它在复杂的推理任务上取得了与全量微调相当的结果。
对于使用 Mamba 的学生和开发者来说,这表明操纵内部状态——而不是输入序列——是高效适应的未来。
](https://deep-paper.org/en/paper/2503.03499/images/cover.png)