想象一下你的厨房里有个机器人。你让它“拿起那个苹果”。它动作正确。现在,你让它“小心地拿起那个苹果”。机器人是真的理解“小心”这个概念,还是仅仅将像素统计映射到了电机扭矩上?
在快速发展的具身智能 (Embodied AI) 领域,我们正见证着 视觉-语言-动作 (Vision-Language-Action, VLA) 模型的崛起。这些是建立在大型语言模型 (LLM) 之上的巨型神经网络,它们能看、能读,还能控制机器人的身体。像 OpenVLA 和 \(\pi_0\) 这样的模型有望成为“开箱即用”即能适应新任务的通用智能体。
但也存在一个陷阱。这些模型是不透明的黑盒。与拥有明确的运动学和动力学数学模型的经典机器人技术不同,VLA 是由浮点数组成的巨大矩阵。如果 VLA 表现出不安全的行为,我们往往不知道原因,也不知道如何在不进行昂贵重训的情况下修复它。
在这篇文章中,我们将深入探讨一篇引人入胜的论文,题为 《面向视觉-语言-动作模型引导的机械可解释性》 (Mechanistic Interpretability for Steering Vision-Language-Action Models) 。 研究人员提出了一种开创性的方法来窥探机器人的“大脑”内部,找到负责诸如速度或方向等概念的特定神经元,并通过手动刺激它们来实时改变机器人的行为。

问题: 机器中的幽灵
这篇论文要解决的核心问题是: VLA 模型是否保留了它们在语言预训练期间学到的语义知识?
VLA 通常是通过获取一个预训练的视觉-语言模型 (VLM) ——它通过英语知晓“苹果”、“快”和“向上”等概念——并在机器人轨迹数据上对其进行微调而创建的。该模型学习输出“动作 token (action tokens) ”,即对应于机器人运动的专用标记。
人们可能会合理地假设,在这个微调过程中,模型可能会覆盖其“语义”神经元,将其重新用于“运动控制”神经元。如果是这样的话,模型大脑中的“快”这个词就不再意味着速度;它只是对移动执行器有用的一组数字。
然而,如果语义含义被保留了下来,理论上我们可以直接与模型的内部层进行对话。我们不需要重新训练模型让它变得“小心”;我们只需要找到代表“小心”的神经元并调高它的音量。
背景: 机械可解释性
要理解研究人员是如何做到这一点的,我们需要快速了解一下 机械可解释性 (Mechanistic Interpretability) 。 该领域旨在对神经网络进行逆向工程,以理解驱动其行为的因果机制。
这里的核心概念是 线性表示假设 (Linear Representation Hypothesis) 。 该假设认为神经网络将概念 (如“爱”、“法国”或“蓝色”) 表示为其高维向量空间中的方向。
前馈网络 (FFN) 的作用
Transformer 模型 (GPT、Gemini 和这些 VLA 背后的架构) 由交替的注意力机制层和前馈网络 (FFN) 层组成。
虽然注意力机制允许模型在 token 之间路由信息,但 FFN 层 通常被视为“键-值记忆 (key-value memories) ”。它们保存着模型的事实和概念知识。
在数学上,FFN 层如下所示:

这里,\(x\) 是来自上一层的输入,\(W_\theta\) 是一个大的参数矩阵。我们可以重写这个方程,将 FFN 视为特定向量的加权和:

在这个视角下,\(w_\theta^{(i)}\) 是固定的 值向量 (value vectors) ——可以把这些看作存储在模型记忆中的“概念”。标量 \([f_\theta(x)]_i\) 是 激活值 (activation) ——即当前输入在多大程度上“触发”了该特定概念。
如果我们能确定特定值向量 \(w_\theta^{(i)}\) 代表什么概念,并且我们要控制其激活值 \([f_\theta(x)]_i\),我们就可以有效地引导模型的“思维过程”。
分析: 机器人会梦见语义概念吗?
研究人员首先必须证明 VLA 模型实际上使用了这些语义向量。他们分析了两个模型: OpenVLA (70 亿参数) 和 \(\pi_0\) (30 亿参数) 。
他们利用了一种称为“Logit 投影”的技术。由于 FFN 值向量存在于与输出词汇表相同的数学空间中,你可以将向量投影到词汇表上,看看它“促进”了哪些词。
寻找概念
结果令人惊讶。尽管 VLA 模型经过微调以输出机器人动作 token,但内部 FFN 层仍然充满了语义语言概念。
如下表所示,VLM (PaliGemma) 中的特定向量清楚地编码了诸如“鼠标和键盘”或“图片素材网站”之类的概念。

至关重要的是,这种语义结构 在 VLA 训练中幸存了下来 。 机器人并没有忘记“快”或“向上”是什么意思。事实上,研究人员发现动作 token (移动机器人的代码) 与这些语义 token 混合在整个模型的各个层中。
微调的影响
研究人员将基础 VLA 模型 (\(\pi_0\)-FAST) 与在特定数据集 (DROID) 上微调后的版本进行了比较。他们想看看微调是如何改变内部大脑的。

如图 3 所示,微调主要重新连接了 动作 token (控制输出) ,调整它们的概率分布以匹配特定的机器人硬件。语义骨干在很大程度上保持完好。这表明了一个强有力的结论: VLA 通过混合来自预训练的语义概念和动作 token 来推理控制动作。
当机器人决定快速移动时,它实际上是在“思考”速度的概念。
核心方法: 激活引导
如果“速度”的概念存在于模型内部,我们能劫持它吗?作者介绍了一种称为 可解释激活级引导 (Interpretable Activation-Level Steering) 的方法。
该过程分三步进行 (回顾文章顶部的图 1) :
- 提取与投影: 提取 FFN 向量并将其投影到词汇空间以找出它们的含义。
- 聚类: 将与特定控制概念相关的向量分组 (例如,将所有与“快”、“迅速”、“急速”相关的向量聚类) 。
- 注入: 在机器人运行期间,手动覆盖这些特定神经元的激活。
引导的数学原理
通常,模型根据它看到的内容计算自己的激活值。研究人员通过将特定激活强制设为固定值 \(\alpha\) 来进行干预。
我们定义一组目标神经元 \(S\) (我们的“快”聚类) 。然后我们修改激活函数:

这个简单的方程是说: “如果神经元在我们的目标聚类 \(S\) 中,将其值强制设为 \(\alpha\)。否则,让模型做它原本该做的事。”
该层的新输出变为:

通过改变内部激活,我们引入了“残差偏移”,它会传播到网络的其余部分,使动作 token 的最终概率分布偏向我们想要的行为。
实验: 它有效吗?
研究人员在两个环境中测试了这种方法: 模拟基准测试 (LIBERO) 和物理机械臂 (UR5) 。
1. 模拟结果 (LIBERO)
在 LIBERO 模拟中,机器人必须执行长程任务,如捡起物体、打开抽屉和放置物品。

研究人员确定了与“快 (Fast) ”和“慢 (Slow) ”相关的神经元聚类。然后,他们在人为刺激这些聚类的同时让机器人执行任务。
结果: 刺激奏效了。激活“快”聚类始终增加了机器人末端执行器 (手) 每步的位移,而“慢”聚类则减少了它。
他们还研究了 时间定位 (temporal localization) ——我们应该在模型的 何处 (早期层与晚期层) 进行干预?

上面的图表展示了“向上 (Up) ”概念的干预。
- 早期层: 在此干预几乎没有效果 (平线) 。
- 晚期层: 在此干预有显著效果。
- 全模型: 随处干预效果最强。
这表明 VLA 在网络深处,即更接近最终输出的地方,将运动计划细化为特定的语义方向 (如“向上”) 。
2. 物理机器人实验 (UR5)
模拟是一回事,但硬件才是现实的试金石。研究人员安装了一个带有两个摄像头 (场景和腕部) 的 UR5 机械臂。

他们设计了两个特定的测试,看看是否可以使用 二元对立 概念来引导机器人:
- 低/高运输 (Low vs. High Transport) : 我们能让机器人在移动企鹅玩具时把它举得更高或更低吗?
- 慢/快运输 (Slow vs. Fast Transport) : 我们能让机器人移动海豹玩具的速度更快或更慢吗?
至关重要的是,他们将“引导”方法与“提示词”基线进行了比较。通常,如果你想让 VLA 快速移动,你只需在文本提示中输入“快速移动”。
“低/高”实验
他们识别了与“低”和“高”相关的向量,并应用了引导干预。

图 12 中的轨迹截然不同。
- 图 (a): 使用“低”干预,机器人的路径 (彩色线) 保持在较低的位置,贴近桌面。
- 图 (b): 使用“高”干预,机器人在放置物体之前将其举得明显更高 (峰值接近 50 厘米) 。
这是一个巨大的成果,因为机器人并没有经过明确的“高模式”或“低模式”训练。这种行为完全是通过激活神经网络内部的“高度”概念诱发的。
“慢/快”实验
接下来,他们尝试使用“慢”和“快”向量来调节速度。

(注: 上图展示了实验设置,其中绿线代表预期的慢速路径,蓝线代表快速路径) 。
通过测量机械臂在每个时间步的位移来量化结果。

在 图 (b) (累积位移) 中,观察蓝线 (快干预) 和绿色虚线 (慢干预) 之间的差异。蓝线爬升得更陡峭,意味着机器人覆盖距离的速度要快得多。
主要发现: 引导干预通常比简单地改变文本提示词 更有效 。 在文本提示中告诉机器人“快速移动”往往比直接刺激“快”神经元的效果要弱。
意义与结论
这篇论文代表了我们控制和调试通用机器人方式的范式转变。
- 零样本控制: 我们可以改变机器人的行为 (速度、高度、谨慎程度) ,而无需收集新数据或重新训练模型。我们只需要在它的“大脑”里找到正确的按钮按下去。
- 安全性与透明度: 通过绘制这些语义回路,我们远离了“黑盒”的危险。如果机器人表现出攻击性,我们或许能检测到“攻击性”聚类处于活跃状态并自动抑制它。
- 语义的持久性: 从科学角度来看,这证明了即使模型被训练为输出原始的运动动作,它们仍保留了语言基础所提供的对世界的高级概念理解。
作者承认存在局限性——识别正确的聚类很棘手,而且含义可能会发生变化。然而,这项工作为机器人技术建立了一个新的工具包。我们不再将机器人的思维视为一个谜团,而是可以开始阅读它、绘制它并引导它。
这篇博客文章解释了来自加州大学伯克利分校的 Bear Häon, Kaylene Stocking, Ian Chuang 和 Claire Tomlin 的研究论文《Mechanistic Interpretability for Steering Vision-Language-Action Models》。
](https://deep-paper.org/en/paper/2509.00328/images/cover.png)