想象一下你是一名服务员,正端着一托盘饮料穿过一家拥挤的餐厅。在你行走时,你不仅仅是看着地板以防被绊倒;你还能感受到手中的托盘重心的变化。如果杯子开始滑动,你的皮肤会感知到摩擦力的变化,你会本能地调整步态——也许放慢脚步或绷紧手臂——以防止泼洒。
对于人类来说,这种运动 (行走) 与触觉反馈 (感知) 的结合是第二天性。但对于机器人来说,这是一项巨大的挑战。
虽然现代四足机器人 (如宇树科技的 Go1 或波士顿动力的 Spot) 在穿越崎岖地形方面表现出色,但它们通常是“麻木”的。它们严重依赖视觉和本体感觉 (内部关节感知) 。这对于徒步越野很有效,但当机器人需要与世界互动时,比如在背上背负一个松动的物体,这就失效了。
在这篇文章中,我们将深入探讨 LocoTouch , 这是一篇引人入胜的研究论文,它赋予了四足机器人“触觉”。我们将探索研究人员如何结合定制的低成本硬件、巧妙的模拟技巧以及新颖的强化学习流程,创造出一个无需任何盒子或紧固件,就能在行走时平衡滚动圆柱体、光滑瓶子和日常物体的机器人。

问题所在: “盒子”的局限性
要理解 LocoTouch 的重要性,我们首先需要看看机器人目前是如何搬运东西的。通常,如果你想让机器狗携带负载,你会在它的背上栓一个盒子。
这种方法有三个主要缺点:
- 几何限制: 物体必须能装进盒子里。
- 体积臃肿: 即使没装东西,它也会增加机器人的占用空间。
- 动力学: 机器人将负载视为静态质量。如果物体在盒子内滚动,机器人“感觉”不到它,也就无法对动量变化做出反应,从而可能导致不稳定。
LocoTouch 的目标是 无固定运输 。 研究人员希望机器人能够平衡动态物体——特别是像圆柱体这样容易滚动的困难物体——这完全依靠机器人通过感知背上物体的移动来调整其身体姿态和步态。
第一部分: 构建机器人“皮肤”
第一个挑战是硬件。如果机器人没有传感器,你就无法训练它去感知。商用触觉传感器通常太小、太贵,或者难以在像机器人背部这样的大表面积上布线。
团队构建了一个定制的、高密度的分布式触觉传感器。
传感器架构
该传感器采用 压阻式 方案。压阻材料在受到压缩时会改变其电阻。通过将压阻薄膜 (Velostat) 夹在两层排列成行和列的导电织物条之间,研究人员创建了一个网格。

如 图 3(a) 所示,传感器覆盖了机器人的整个背部 (\(250 \times 180\) mm) 。它由 221 个传感单元或“taxels” (触觉像素) 组成。
这种设计的精妙之处在于它的简单性和可扩展性。
- 高灵敏度: 与使用细线的设计不同,这种设计使用导电织物条。这最大化了接触面积,使机器人能够检测到非常轻的物体 (轻至 30 克) 。
- 易于制造: 组件经过激光切割并像三明治一样堆叠。这使得传感器制造成本低廉且易于更换。

第二部分: 模拟挑战
在现代机器人技术中,我们很少从零开始在现实世界中训练机器人。因为那样太慢了,而且机器人跌倒时会损坏。相反,我们在模拟中使用 强化学习 (RL) 。 我们创建一个物理精确的电子游戏,让 AI 玩数百万次,然后将那个“大脑”转移到真正的机器人上。
然而,模拟触觉传感器是出了名的困难。
“柔软”难题
真实的皮肤是柔软的。当你把手指按在泡沫垫上时,力会扩散开来。单点的接触可能会激活几个相邻的传感器。然而,在模拟中,接触通常被建模为一个刚性点。
如果你在清晰的单像素模拟数据上训练 AI,当它遇到现实世界中模糊、扩散的信号时,它就会失败。这就是所谓的 模拟到现实的差距 (Sim-to-Real Gap) 。
扩展碰撞模型
对于 RL 来说,每秒数千步地计算 221 个传感器的软体物理学,其计算成本过高。研究人员设计了一个聪明的捷径,称为 扩展碰撞模型 。
他们没有模拟软泡沫,只是简单地使模拟的感应区域比真实的 更大。

请看上面的 图 3(c) 。 在模拟中,每个触觉单元的碰撞几何形状与其邻居重叠。
- 如果一个物体击中触觉单元的中心,只有那个触觉单元被激活。
- 如果一个物体击中边缘,重叠会导致邻居也被激活。
这种简单的几何技巧模仿了软泡沫的力传播,而无需复杂的软体物理计算。

这种建模选择的结果是惊人的。在 图 6 中,比较“InterSect” (标准刚性模型) 与“Ours” (扩展模型) 。标准模型产生细细的、不切实际的线条。扩展模型产生粗大的、分布式的接触斑块,与右侧的“Real Signals” (真实信号) 非常匹配。
第三部分: 学习流程
硬件已构建完成,模拟环境也准备就绪,团队需要训练“大脑”。他们采用了 教师-学生 (Teacher-Student) 学习架构。
这是一个旨在处理部分可观测性的两阶段过程。
- 教师 (拥有特权信息) : 在模拟中,教师策略知道一切。它知道物体的确切摩擦力、确切质量和确切位置 (真值) 。它利用这种“上帝模式”的信息来学习如何完美地平衡物体。
- 学生 (现实世界) : 真正的机器人没有“上帝模式”。它无法神奇地知道摩擦系数或确切质量。它只有它的关节传感器 (本体感觉) 和触觉皮肤。学生学习 仅 使用现实世界中可用的数据来模仿教师的动作。

学生使用 Conv-GRU (卷积门控循环单元) 。卷积部分处理触觉图像 (空间数据) ,而循环部分 (GRU) 记住触摸的历史 (时间数据) 。这种记忆允许机器人推断诸如物体随时间变化的速度和质量等信息。
第四部分: 自适应步态奖励 (秘诀)
仅仅将数据输入神经网络是不够的。在强化学习中,你必须定义一个“奖励函数”——一个告诉机器人什么时候做得好的分数。
标准的四足行走奖励通常强制执行特定的节奏 (例如,“每 0.5 秒迈一步”) 。这迫使机器人进行僵硬的行军。
但想象一下端着一碗汤。 如果汤开始晃动,你会打破你的节奏。你可能会停顿一下或快速拖步以恢复平衡。如果强迫一个机器人遵循严格的节拍器节奏,它会把汤洒出来 (或者把圆柱体掉下来) 。
研究人员引入了一种依赖于 对称性函数 的新颖 自适应步态奖励 。
定义没有时间限制的对称性
奖励不再告诉机器人 何时 迈步,而是鼓励机器人保持 对称。如果左前腿摆动 0.4 秒,右后腿也应该摆动大约 0.4 秒。
奖励方程如下所示:

这里,\(\gamma_{sym}\) 是对称系数。它会根据机器人的表现动态调整。

变量 \(f_{sym}\) (对称性得分) 是关键创新。它比较当前一对腿与 上一 对腿的滞空时间 (摆动时间) 。

如 图 4 所示,该函数是灵活的。
- 如果机器人是稳定的,它鼓励更长的摆动时间 (更高效的行走) 。
- 如果机器人检测到不稳定性 (通过触觉传感器) ,该函数允许机器人缩短步幅以恢复平衡,而不会因“打破节拍”而受到严厉惩罚。
这为什么重要?
如果没有这种自适应对称性,机器人在平衡负载时很难走直线。

图 8 说明了这种差异。
- 左图 (基线) : 机器人使用标准奖励进行训练。它会向侧面漂移,并且很难保持直线,因为它的步态在负载下变得不均匀。
- 右图 (使用对称性函数) : 机器人保持对称的小跑,抵消了背上重心移动引起的干扰。
第五部分: 现实世界实验
它真的有效吗?团队将“学生”策略部署到 Unitree Go1 机器人上,并用各种物体进行了测试。
物体大杂烩
他们测试了具有非常不同属性的物体,从轻的胶棒 (0.03 kg) 到重的金属圆柱体 (1.45 kg) ,甚至还有一个光滑的塑料瓶。

结果
该系统在其标准化测试 (行走 6 米) 中达到了 100% 的成功率 。
最令人印象深刻的演示之一是机器人处理 速度变化 的能力。当机器人加速时,由于惯性,物体自然想向后滚动。机器人通过触觉皮肤感知到这种向后的滚动,并自动调整其俯仰角 (向前倾斜) 和步态频率以“接住”物体。

在 图 5 (中图) 中,你可以看到这种相关性。当物体滑动 (蓝线) 时,机器人的俯仰角 (绿线) 会进行调整以补偿。
鲁棒性
机器人并没有被温柔对待。研究人员在以下方面进行了测试:
- 斜坡和碎石: 即使它是在平地上训练的,触觉反馈使它能够适应不平坦的地形。
- 长距离: 它携带一个光滑的饮料瓶行走了 60 米,不断进行微调以使其保持居中。
- 日常物体: 它成功携带了非圆柱形物品,如杯子和扳手。


结论
LocoTouch 代表了 移动操作 (Loco-Manipulation)——即利用机器人的整个身体而不是仅仅使用夹爪来操纵物体——向前迈出的重要一步。
通过将低成本的全背触觉传感器与理解步态对称性的复杂学习流程相结合,研究人员创造了一个像生物一样感知和反应的机器人。它不仅仅是执行预先计划的路径;它还在与其携带物体的物理特性进行博弈。
这项技术的影响远不止机器人服务员。这对于携带物资的搜救机器人、移动不规则包裹的物流机器人,或任何需要与动态、不可预测的物理世界互动的自主系统来说都至关重要。机器人的未来不仅仅在于更好的摄像头——还在于赋予机器人感知的能力。
](https://deep-paper.org/en/paper/2505.23175/images/cover.png)