想象一下在漆黑的房间里试图把 USB 充电器插进墙上的插座。你看不见插座，但你可以四处摸索，感知碰到塑料面板时的阻力，以及插头滑入时令人满足的“咔哒”声。现在，想象一个机器人试图仅靠摄像头做同样的事情。如果它的手挡住了视线，或者光线不好，这个机器人实际上就是既瞎又麻木的。它会推挤、失败，而且不知道原因。

这凸显了现代机器人技术中的一个关键空白。虽然视觉-语言-动作 (VLA) 模型在“看”和“读”——解释图像和指令以规划运动——方面已经变得极其出色，但它们通常很不擅长“感觉”。

在最近的一篇论文 TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models 中，研究人员通过赋予 VLA 模型基于关节扭矩 (joint torque) 的触觉来解决这个问题。通过分析机器人电机施加了多少力，系统可以检测接触、碰撞和成功的插入，而无需昂贵的外部触觉传感器。

在这篇文章中，我们将解构这篇论文，了解扭矩信号是如何集成到大规模机器人模型中的。我们将探索扭矩感知的“地点、时间和方式”，并看看它是如何使机器人能够执行精确的、富接触 (contact-rich) 任务的。

VLA 模型的盲点

最先进的 VLA 模型，如 Octo 或 RT-2，主要基于视觉输入 (RGB 摄像头) 和语言指令运行。它们将像素和文本映射到关节位置。这对于“非接触”任务 (如将苹果从桌子移动到碗里) 很有效。

然而，富接触任务——如插入充电器、转动僵硬的门把手或擦拭表面——需要视觉无法提供的反馈。

遮挡 (Occlusion) : 当机械臂接近目标时，手臂本身通常会挡住摄像头的视线。
细微差别 (Subtlety) : 偏差 1 毫米的插头和完美对齐的插头之间的区别在视觉上通常难以察觉，但由于阻力的存在，在物理上却显而易见。

这就是扭矩发挥作用的地方。如下图所示，扭矩信号提供了任务期间物理层面发生情况的丰富叙述。

图 1: 充电器插入任务期间的扭矩响应。注意成功插入时与失败尝试相比明显的峰值。

在图 1(a) 中，你可以看到操作任务的“心跳”。灰色区域显示没有接触的运动。橙色区域显示失败的插入——扭矩有轻微波动但从未达到峰值。绿色区域显示成功: 特定的、尖锐的扭矩峰值表明插座夹扣啮合产生的机械阻力。仅靠视觉的模型会错过整个过程。

“感觉”背后的物理学

在深入神经网络架构之前，我们需要理解物理直觉。机器人如何在没有皮肤的情况下“感觉”？

机器人拥有本体感觉 (proprioception) ——它知道自己关节的角度 (\(q\)) 以及它们移动的速度 (\(\dot{q}\)) 。它还知道它向电机发送了多少电流。由于电机电流与扭矩成正比，机器人可以测量每个关节的扭矩 (\(\tau_{measured}\)) 。

机器人的运动与作用在它身上的外力之间的关系由刚体动力学控制:

机械臂的动力学方程。

这里，\(M(q)\ddot{q} + C(q,\dot{q})\dot{q} + G(q)\) 表示仅仅移动机器人自身的重量和惯性所需的扭矩。\(\tau_{cmd}\) 是指令扭矩，而 \(\tau_{ext}\) 是由环境反推 (外部接触) 引起的扭矩。

如果我们知道机器人的模型 (它的质量、重力等) ，我们可以预测在自由空气中移动所需的扭矩 (\(\tau_{model}\)) 。测量扭矩与该模型扭矩之间的任何差异很可能是由于外部接触造成的:

扭矩测量方程，显示了测量力、建模力和外力之间的关系。

这个残差扭矩 (residual torque) 就是我们要输入给 AI 的信号。它告诉模型: “我用的力比应该用的要大；有什么东西挡住了我。”

设计空间: 将扭矩集成到 VLA 中

这篇论文的核心贡献是对设计空间的系统研究。作者并没有只是把扭矩输入强加给模型；他们提出了以下问题:

在哪里嵌入这个信号？ (编码器 vs. 解码器)
如何表示时间？ (单帧 vs. 历史记录)
目标应该是什么？ (观察 vs. 预测)

让我们逐一分解他们的发现。

1. 嵌入到哪里？ (编码器 vs. 解码器)

典型的 VLA 模型有两个主要部分:

条件编码器 (Conditioning Encoder) : 处理“上下文”——图像和文本指令 (例如，“插入充电器”) 。它建立对场景的高层理解。
去噪解码器 (Denoising Decoder) : “动作专家”。它利用上下文和机器人当前的物理状态 (本体感觉) 来生成下一个动作。

研究人员测试了三种架构，看看扭矩最适合放在哪里:

图 2: 嵌入扭矩信号的架构。(a) 嵌入编码器。(b) 在解码器中预拼接。(c) 在解码器中后拼接。

编码器嵌入 (Enc) : 将扭矩像图像或文本一样处理。它进入高层上下文处理器。
解码器嵌入 (DePre & DePost) : 将扭矩像物理状态 (类似于关节角度) 一样处理。它直接进入动作生成模块。

结论: 解码器胜出。 具体来说是“DePost”方法 (图 2c) ，即扭矩由适配器处理并添加到解码器的输入中。

为什么? 作者进行了统计分析 (HSIC) ，看看哪些数据类型是相关的。他们发现扭矩与关节角度 (动作和角度) 高度相关，但与文本或图像的相关性非常低。

图 3: 归一化 HSIC 热力图显示相关性。注意扭矩、角度和动作 (红色) 之间的高相关性，以及与文本 (蓝色) 的低相关性。

正如上面的热力图所示，扭矩、角度和动作是“同类事物”。它们都是高频的本体感觉信号。编码器旨在处理静态的语义数据 (图像/文本) ，而解码器对物理状态的细微变化非常敏感。因此，将扭矩输入解码器可以使信号与最适合使用它的大脑部分对齐。

2. 感知过去: 扭矩历史

知道此时此刻的扭矩很有用，但知道过去一秒内扭矩是如何变化的至关重要。“咔哒”声是一个时间性事件——先上升后下降。

研究人员探索了两种将历史记录输入模型的方法:

逐帧 (多 Token) : 输入代表过去 10 个时间步的 10 个独立 Token。
聚合 (单 Token) : 将过去 10 个时间步总结为一个密集向量。

图 4: 嵌入扭矩历史的架构。(c) 将历史总结为解码器的单个 token 被证明是最有效的。

结论: 解码器中的单 Token 历史记录 (图 4c) 最佳。

为什么? 你可能认为 Token 越多 = 信息越多 = 性能越好。然而，VLA 解码器是在特定的输入模式上进行预训练的。用 10 个额外的 Token 淹没解码器会破坏其习得的模式，本质上起到了噪声的作用。将历史压缩为单个 Token 既保留了信息 (接触事件的“感觉”) ，又不会破坏架构的预期结构。

3. 预测未来: 动作-扭矩扩散

通常，模型仅将扭矩用作输入 (观察) 。但人类不仅仅感知正在发生的事情；我们还会预测它。当你推一扇沉重的门时，你预期会有阻力。如果你感觉不到阻力，你会踉跄。

研究人员提出了一种“联合动作-扭矩扩散” (Joint Action-Torque Diffusion) 方法。他们训练模型同时预测下一个动作 (移动) 和预期的未来扭矩。

图 5: 动作-扭矩扩散的架构。模型同时预测未来的动作和未来的扭矩。

这创建了一个辅助损失函数。模型不仅会因为移动错误而受到惩罚；如果它不理解其移动的物理后果 (扭矩) ，它也会受到惩罚。

结论: 这显著提高了性能。通过强迫模型预测力，它构建了一个内部“物理引擎”，将其潜在空间建立在现实基础之上。

图 6: 未来扭矩信号预测。红线 (预测) 紧密跟踪蓝线 (基准真值) ，表明模型已经学会了物理动力学。

融会贯通: 实验环节

团队将这些发现整合到一个名为 \(\pi_0\) (Pi-Zero) 的模型中，并将其与 ACT 和 RDT 等标准基线进行了比较。他们在双臂 Aloha 机器人上进行了测试，执行需要“感觉”的任务，如按按钮、插充电器和开门。

量化成功率

结果非常鲜明。在富接触任务中，标准的基于视觉的模型通常完全失败 (0% 成功率) ，因为它们无法检测到何时发生了接触或插头是否未对准。

扭矩感知模型 (特别是 \(\pi_0\) + obs + obj，结合了扭矩观察和扭矩预测目标) 实现了高成功率。

插入充电器:
标准 \(\pi_0\): 0/20 成功 (视觉无法看到精细的对齐) 。
扭矩感知 \(\pi_0\): 17/20 成功 。
按按钮:
标准 \(\pi_0\): 5/20 成功 。
扭矩感知 \(\pi_0\): 18/20 成功 。

即使在扭矩看起来不那么关键的“常规”任务 (如堆叠立方体) 上，扭矩感知模型的表现也略好或持平，证明增加这种感知能力不会损害通用能力。

“触觉”的可视化

最有力的证据是观察机器人的行为。在下图中，请看按按钮和门把手的序列。

图 7: 任务可视化。在 (a) 和 (b) 中，机器人通过扭矩检测到第一次尝试失败，重新调整并成功重试。

在序列 (a) 中，机器人试图按下一个按钮但错过或滑脱了 (未对准) 。标准模型会盲目地继续其预先规划的轨迹，很可能会撞到桌子上。扭矩感知模型在力反馈中检测到了异常。它后退，重新对齐，并再次成功按下。这种闭环修正是鲁棒操作的圣杯。

跨具身泛化

这能在一种机器人上学习然后在另一种机器人上工作吗？研究人员在一个完全不同的工业机械臂 (ROKAE) 上进行了测试。

图 12: 跨具身执行。模型利用扭矩反馈适应不同的充电端口 (快充与慢充) 。

该模型成功实现了泛化，通过感知每个端口特定的阻力曲线，插入了不同类型的连接器 (快充与慢充充电器) 。

结论: 未来是多感官的

TA-VLA 论文为下一代机器人大脑提供了清晰的蓝图。它让我们从“仅靠眼睛”的范式转向“全身”智能。

关键要点:

解码器为王: 像扭矩这样的本体感觉信号属于动作解码器，而不是语义编码器。
压缩历史: 不要让模型不堪重负；将力的历史总结为一个紧凑的 Token。
预测力: 训练机器人预测阻力比仅仅训练它移动更能帮助它理解世界。

通过阐明这一设计空间，作者为能够在混乱、富接触的现实世界中操作的机器人打开了大门——插电缆、组装家具，并像人手一样灵敏地处理易碎物体。

本文探讨了 Zhang 等人发表的研究 “TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models” 。

VLA 模型的盲点#

“感觉”背后的物理学#

设计空间: 将扭矩集成到 VLA 中#

1. 嵌入到哪里？ (编码器 vs. 解码器)#

2. 感知过去: 扭矩历史#

3. 预测未来: 动作-扭矩扩散#

融会贯通: 实验环节#

量化成功率#

“触觉”的可视化#

跨具身泛化#

结论: 未来是多感官的#