打开黑盒：如何利用内部概念引导机器人思维

想象一下你的厨房里有个机器人。你让它“拿起那个苹果”。它动作正确。现在，你让它“小心地拿起那个苹果”。机器人是真的理解“小心”这个概念，还是仅仅将像素统计映射到了电机扭矩上？

在快速发展的具身智能 (Embodied AI) 领域，我们正见证着 视觉-语言-动作 (Vision-Language-Action, VLA) 模型的崛起。这些是建立在大型语言模型 (LLM) 之上的巨型神经网络，它们能看、能读，还能控制机器人的身体。像 OpenVLA 和 $\pi_0$ 这样的模型有望成为“开箱即用”即能适应新任务的通用智能体。

但也存在一个陷阱。这些模型是不透明的黑盒。与拥有明确的运动学和动力学数学模型的经典机器人技术不同，VLA 是由浮点数组成的巨大矩阵。如果 VLA 表现出不安全的行为，我们往往不知道原因，也不知道如何在不进行昂贵重训的情况下修复它。

在这篇文章中，我们将深入探讨一篇引人入胜的论文，题为 《面向视觉-语言-动作模型引导的机械可解释性》 (Mechanistic Interpretability for Steering Vision-Language-Action Models) 。研究人员提出了一种开创性的方法来窥探机器人的“大脑”内部，找到负责诸如速度或方向等概念的特定神经元，并通过手动刺激它们来实时改变机器人的行为。

$图 1: 我们提出了一个引导视觉-语言-动作 (VLA) 模型的框架。我们提取 FFN 向量，将其投影到 VLA token 空间，根据语义对齐进行聚类，并在推理时注入激活以调节行为。我们的实验展示了在模拟环境 (LIBERO 中的 OPENVLA) 和物理机器人 (UR5 上的 \$\\pi_0\$) 中的可解释零样本控制。$

问题: 机器中的幽灵

这篇论文要解决的核心问题是: VLA 模型是否保留了它们在语言预训练期间学到的语义知识?

VLA 通常是通过获取一个预训练的视觉-语言模型 (VLM) ——它通过英语知晓“苹果”、“快”和“向上”等概念——并在机器人轨迹数据上对其进行微调而创建的。该模型学习输出“动作 token (action tokens) ”，即对应于机器人运动的专用标记。

人们可能会合理地假设，在这个微调过程中，模型可能会覆盖其“语义”神经元，将其重新用于“运动控制”神经元。如果是这样的话，模型大脑中的“快”这个词就不再意味着速度；它只是对移动执行器有用的一组数字。

然而，如果语义含义被保留了下来，理论上我们可以直接与模型的内部层进行对话。我们不需要重新训练模型让它变得“小心”；我们只需要找到代表“小心”的神经元并调高它的音量。

背景: 机械可解释性

要理解研究人员是如何做到这一点的，我们需要快速了解一下 机械可解释性 (Mechanistic Interpretability) 。该领域旨在对神经网络进行逆向工程，以理解驱动其行为的因果机制。

这里的核心概念是 线性表示假设 (Linear Representation Hypothesis) 。该假设认为神经网络将概念 (如“爱”、“法国”或“蓝色”) 表示为其高维向量空间中的方向。

前馈网络 (FFN) 的作用

Transformer 模型 (GPT、Gemini 和这些 VLA 背后的架构) 由交替的注意力机制层和前馈网络 (FFN) 层组成。

虽然注意力机制允许模型在 token 之间路由信息，但 FFN 层 通常被视为“键-值记忆 (key-value memories) ”。它们保存着模型的事实和概念知识。

在数学上，FFN 层如下所示:

FFN 层计算公式

这里，$x$ 是来自上一层的输入，$W_\theta$ 是一个大的参数矩阵。我们可以重写这个方程，将 FFN 视为特定向量的加权和:

FFN 作为加权值向量之和的公式

在这个视角下，$w_\theta^{(i)}$ 是固定的 值向量 (value vectors) ——可以把这些看作存储在模型记忆中的“概念”。标量 $[f_\theta(x)]_i$ 是 激活值 (activation) ——即当前输入在多大程度上“触发”了该特定概念。

如果我们能确定特定值向量 $w_\theta^{(i)}$ 代表什么概念，并且我们要控制其激活值 $[f_\theta(x)]_i$，我们就可以有效地引导模型的“思维过程”。

分析: 机器人会梦见语义概念吗？

研究人员首先必须证明 VLA 模型实际上使用了这些语义向量。他们分析了两个模型: OpenVLA (70 亿参数) 和 $\pi_0$ (30 亿参数) 。

他们利用了一种称为“Logit 投影”的技术。由于 FFN 值向量存在于与输出词汇表相同的数学空间中，你可以将向量投影到词汇表上，看看它“促进”了哪些词。

寻找概念

结果令人惊讶。尽管 VLA 模型经过微调以输出机器人动作 token，但内部 FFN 层仍然充满了语义语言概念。

如下表所示，VLM (PaliGemma) 中的特定向量清楚地编码了诸如“鼠标和键盘”或“图片素材网站”之类的概念。

表格展示了来自 PaliGemma VLM 的示例值向量及其顶部 token。

至关重要的是，这种语义结构 在 VLA 训练中幸存了下来 。机器人并没有忘记“快”或“向上”是什么意思。事实上，研究人员发现动作 token (移动机器人的代码) 与这些语义 token 混合在整个模型的各个层中。

微调的影响

研究人员将基础 VLA 模型 ($\pi_0$-FAST) 与在特定数据集 (DROID) 上微调后的版本进行了比较。他们想看看微调是如何改变内部大脑的。

图 3: 任务微调主要影响 FFN 值向量中的动作 token。

如图 3 所示，微调主要重新连接了 动作 token (控制输出) ，调整它们的概率分布以匹配特定的机器人硬件。语义骨干在很大程度上保持完好。这表明了一个强有力的结论: VLA 通过混合来自预训练的语义概念和动作 token 来推理控制动作。

当机器人决定快速移动时，它实际上是在“思考”速度的概念。

核心方法: 激活引导

如果“速度”的概念存在于模型内部，我们能劫持它吗？作者介绍了一种称为 可解释激活级引导 (Interpretable Activation-Level Steering) 的方法。

该过程分三步进行 (回顾文章顶部的图 1) :

提取与投影: 提取 FFN 向量并将其投影到词汇空间以找出它们的含义。
聚类: 将与特定控制概念相关的向量分组 (例如，将所有与“快”、“迅速”、“急速”相关的向量聚类) 。
注入: 在机器人运行期间，手动覆盖这些特定神经元的激活。

引导的数学原理

通常，模型根据它看到的内容计算自己的激活值。研究人员通过将特定激活强制设为固定值 $\alpha$ 来进行干预。

我们定义一组目标神经元 $S$ (我们的“快”聚类) 。然后我们修改激活函数:

显示用于引导激活的分段函数的公式

这个简单的方程是说: “如果神经元在我们的目标聚类 $S$ 中，将其值强制设为 $\alpha$。否则，让模型做它原本该做的事。”

该层的新输出变为:

显示被引导后的 FFN 输出求和公式

通过改变内部激活，我们引入了“残差偏移”，它会传播到网络的其余部分，使动作 token 的最终概率分布偏向我们想要的行为。

实验: 它有效吗？

研究人员在两个环境中测试了这种方法: 模拟基准测试 (LIBERO) 和物理机械臂 (UR5) 。

1. 模拟结果 (LIBERO)

在 LIBERO 模拟中，机器人必须执行长程任务，如捡起物体、打开抽屉和放置物品。

图 4: LIBERO-Long 中的示例任务。六个代表性的长程任务——涉及物体放置、容纳和电器交互等连续操作目标。

研究人员确定了与“快 (Fast) ”和“慢 (Slow) ”相关的神经元聚类。然后，他们在人为刺激这些聚类的同时让机器人执行任务。

结果: 刺激奏效了。激活“快”聚类始终增加了机器人末端执行器 (手) 每步的位移，而“慢”聚类则减少了它。

他们还研究了 时间定位 (temporal localization) ——我们应该在模型的何处 (早期层与晚期层) 进行干预？

图表展示时间定位干预。全层聚类产生最大的平均运动效果。

上面的图表展示了“向上 (Up) ”概念的干预。

早期层: 在此干预几乎没有效果 (平线) 。
晚期层: 在此干预有显著效果。
全模型: 随处干预效果最强。

这表明 VLA 在网络深处，即更接近最终输出的地方，将运动计划细化为特定的语义方向 (如“向上”) 。

2. 物理机器人实验 (UR5)

模拟是一回事，但硬件才是现实的试金石。研究人员安装了一个带有两个摄像头 (场景和腕部) 的 UR5 机械臂。

图 10: 机器人设置: 我们的硬件实验使用 UR5 机械臂。

他们设计了两个特定的测试，看看是否可以使用 二元对立 概念来引导机器人:

低/高运输 (Low vs. High Transport) : 我们能让机器人在移动企鹅玩具时把它举得更高或更低吗？
慢/快运输 (Slow vs. Fast Transport) : 我们能让机器人移动海豹玩具的速度更快或更慢吗？

至关重要的是，他们将“引导”方法与“提示词”基线进行了比较。通常，如果你想让 VLA 快速移动，你只需在文本提示中输入“快速移动”。

“低/高”实验

他们识别了与“低”和“高”相关的向量，并应用了引导干预。

图 12: 低/高运输: 来自 10 次轨迹的末端执行器高度，低干预 (a) 与高干预 (b) 的对比。

图 12 中的轨迹截然不同。

图 (a): 使用“低”干预，机器人的路径 (彩色线) 保持在较低的位置，贴近桌面。
图 (b): 使用“高”干预，机器人在放置物体之前将其举得明显更高 (峰值接近 50 厘米) 。

这是一个巨大的成果，因为机器人并没有经过明确的“高模式”或“低模式”训练。这种行为完全是通过激活神经网络内部的“高度”概念诱发的。

“慢/快”实验

接下来，他们尝试使用“慢”和“快”向量来调节速度。

图 14: 物理机器人实验: 在 UR5 上引导 pi0。

(注: 上图展示了实验设置，其中绿线代表预期的慢速路径，蓝线代表快速路径) 。

通过测量机械臂在每个时间步的位移来量化结果。

图 13: 慢/快运输: 末端执行器位移 (a) 和累积末端执行器位移 (b) 。

在 图 (b) (累积位移) 中，观察蓝线 (快干预) 和绿色虚线 (慢干预) 之间的差异。蓝线爬升得更陡峭，意味着机器人覆盖距离的速度要快得多。

主要发现: 引导干预通常比简单地改变文本提示词 更有效 。在文本提示中告诉机器人“快速移动”往往比直接刺激“快”神经元的效果要弱。

意义与结论

这篇论文代表了我们控制和调试通用机器人方式的范式转变。

零样本控制: 我们可以改变机器人的行为 (速度、高度、谨慎程度) ，而无需收集新数据或重新训练模型。我们只需要在它的“大脑”里找到正确的按钮按下去。
安全性与透明度: 通过绘制这些语义回路，我们远离了“黑盒”的危险。如果机器人表现出攻击性，我们或许能检测到“攻击性”聚类处于活跃状态并自动抑制它。
语义的持久性: 从科学角度来看，这证明了即使模型被训练为输出原始的运动动作，它们仍保留了语言基础所提供的对世界的高级概念理解。

作者承认存在局限性——识别正确的聚类很棘手，而且含义可能会发生变化。然而，这项工作为机器人技术建立了一个新的工具包。我们不再将机器人的思维视为一个谜团，而是可以开始阅读它、绘制它并引导它。

这篇博客文章解释了来自加州大学伯克利分校的 Bear Häon, Kaylene Stocking, Ian Chuang 和 Claire Tomlin 的研究论文《Mechanistic Interpretability for Steering Vision-Language-Action Models》。

问题: 机器中的幽灵#

背景: 机械可解释性#

前馈网络 (FFN) 的作用#

分析: 机器人会梦见语义概念吗？#

寻找概念#

微调的影响#

核心方法: 激活引导#

引导的数学原理#

实验: 它有效吗？#

1. 模拟结果 (LIBERO)#

2. 物理机器人实验 (UR5)#

“低/高”实验#

“慢/快”实验#

意义与结论#