无师自通：机器人如何仅通过闪烁灯光学习姿态估计

引言

在机器人领域，回答“相对于你，我在哪里？”这个问题出人意料地困难。这就是所谓的视觉相对姿态估计 (visual relative pose estimation) ，它是多机器人系统的基础。无论是无人机群协调灯光秀，还是仓储机器人避免碰撞，机器人如果不了解同伴的位置和朝向 (即姿态) ，就无法协同工作。

传统上，教机器人通过相机图像估计姿态需要大量的监督。通常你有两个昂贵的选择:

动作捕捉系统: 搭建一个配备昂贵红外摄像机 (如 Vicon 系统) 的房间，跟踪机器人的确切位置，并使用该数据训练神经网络。这种方法成本高昂且仅限于实验室内。
CAD 模型: 使用机器人的 3D 数字模型生成合成训练图像。虽然比较便宜，但这面临“仿真到现实 (sim-to-real) ”的差距——由于光照、磨损或杂乱的线缆，现实中的机器人很少长得和完美的数字孪生体一模一样。

但是，如果一个机器人可以在没有任何外部摄像机、人工标注或 3D 模型的情况下学会识别同伴呢？如果两个机器人只需在房间里四处行驶，互相闪烁灯光，就能从零开始自学姿态估计呢？

这正是论文 《Self-supervised Learning Of Visual Pose Estimation Without Pose Labels By Classifying LED States》 (通过分类 LED 状态进行无姿态标签的视觉姿态估计自监督学习) 的前提。研究人员提出了一种巧妙的自监督方法，神经网络不是通过被告知机器人在哪里，而是通过尝试猜测机器人上哪些 LED 灯当前是亮着的，来学习机器人的复杂几何结构。

在这篇深度解析中，我们将探讨一个简单的“代理任务 (pretext task) ”——预测灯光状态——如何迫使模型在没有任何姿态真值标签的情况下，学习距离、朝向和位置等高级概念。

背景: 自监督的挑战

在理解该方法之前，我们需要澄清学习范式。大多数标准的计算机视觉任务使用监督学习 。你给计算机看一张机器人的图片，并告诉它: “这个机器人在坐标 \((x, y)\)，旋转了 30 度。” 这样做几千次，计算机就学会了。

自监督学习 (SSL) 改变了游戏规则。在 SSL 中，数据本身提供了监督信号。一种常见的技术是代理任务 (Pretext Task) 。你要求模型解决一个虚构的问题 (代理) ，这迫使它学习对实际问题 (下游任务) 有用的特征。

在这篇论文中, 下游任务是姿态估计 (找到机器人) 。 代理任务是 LED 状态分类 (前灯是开还是关？) 。

其背后的直觉简单而精彩:

要知道前 LED 灯是否可见，模型必须理解机器人的朝向。
要知道是否有 LED 灯亮着，模型必须在图像中找到机器人的位置。
要将 LED 灯与背景噪声区分开来，模型必须理解机器人的尺度 (距离) 。

核心概念: 从闪烁的灯光中学习

研究人员的设置涉及两个机器人。一个是观察者 (配备相机) ，另一个是目标 (配备 LED 灯) 。

机器人在房间里随机移动。目标机器人随机切换其 LED 灯 (前、后、左、右) 的开关状态。关键在于，目标机器人通过无线电向观察者广播其 LED 状态。

这创建了一个完美同步的数据集。观察者拥有一张图像，并且拥有标签 (例如，“前 LED 开，后 LED 关”) 。它不知道机器人在哪里。它只知道灯的状态。

图 1: 通过解决多 LED 状态分类任务，我们的模型从零开始学习估计机器人在图像中的位置、相对距离和相对于相机的相对方位角。

如图 1 所示，模型将图像作为输入。通过尝试分类 LED 的状态 (蓝色表示关，红色表示开) ，模型隐式地学习了解决该问题所需的变量: 位置 \((u, v)\)、距离 \((d)\) 和方位/朝向 \((\psi)\)。

为什么这行得通？

如果你问神经网络，“后灯亮了吗？”，而机器人正对着相机，网络将很难看到后灯，因为机器人的身体挡住了它。最小化误差的唯一方法是理解: 当机器人面朝前方时，后灯是被遮挡的。 因此，网络学习了朝向的概念来预测灯光的可见性。

同样，如果机器人很远，LED 只是微小的像素簇。如果它很近，它们就是大光斑。为了正确识别它们，网络必须理解尺度和距离。

方法: 架构与损失函数

研究人员设计了一个全卷积网络 (FCN) ，它输出几个“图 (maps) ”而不是单个数值。让我们逐步分解其架构和逻辑。

1. 定位: 机器人在哪里？

模型输出一个名为 \(\hat{P}\) 的空间图。这是一个覆盖图像的网格，其中每个单元格代表机器人位于那里的概率。

然而，我们没有关于机器人在哪里的标签。我们只有 LED 标签。研究人员使用了一种空间注意力机制 。模型认识到，要正确猜测 LED 状态，它应该“看”向机器人实际所在的像素位置。

如果模型看墙壁，它无法预测 LED 是否亮着。损失 (误差) 会很高。
如果模型看机器人，它能看到 LED。损失会很低。

在数学上，模型学习提高 \(\hat{P}\) 图中机器人位置处的值，以最小化其分类误差。

2. 朝向: 它面向哪个方向？

模型还输出一个朝向图 \(\hat{\Psi}\)。每个单元格包含一个预测的角度。

这里有个巧妙之处: 研究人员使用了可见性函数 。他们假设知道每个 LED 相对于机器人朝向的大致方向。

图 3: 位于四个基本方位的 LED 的可见性函数。

看图 3 。该图表显示了不同 LED 基于机器人偏航角 (航向) 的可见性。

如果机器人在 \(0^{\circ}\) (背对) , 后 (Back) LED (实黑线) 最可见。
如果机器人旋转到 \(90^{\circ}\), 右 (Right) LED (虚线) 变得可见。

模型使用其预测的朝向 \(\hat{\psi}\) 来查找这些可见性权重。这实际上是在说: “我认为机器人面向 90 度，所以我应该相信右侧 LED 的状态，并忽略左侧 LED 的状态，因为它可能被挡住了。”

3. 距离: 多尺度方法

从单个相机 (单目视觉) 估计距离通常很难，因为“近处的小物体”和“远处的大物体”之间存在模糊性。然而，由于机器人的物理尺寸是恒定的，它在图像中的表观尺寸直接与距离相关。

研究人员使用了多尺度策略 。他们以三种不同的大小 (尺度) 将图像输入网络。

图 2: 方法概览。我们在输入的多个缩放版本上应用此机制，以推断机器人到相机的距离。

如图 2 直观展示的:

网络有一个固定的“感受野” (RF) ——可以把它想象成网络用来观察图像的放大镜尺寸。
如果机器人很远，在全尺寸图像中它正好适合感受野。
如果机器人很近 (在画面中巨大) ，它可能只有在图像缩小 (下采样) 后才适合感受野。

通过检查哪个图像尺度产生了最置信的检测，模型可以估计距离。如果机器人在微小的图像中被检测得最好，它一定很近 (很大) 。如果在在图像中被检测得最好，它一定很远 (很小) 。

4. 整合: 损失函数

训练过程优化了一个复合损失函数。目标是最小化预测的 LED 状态与广播的 (真实) LED 状态之间的误差。

方程 1: 多尺度损失函数

这个方程看起来可能有点吓人，但它总结了上述逻辑:

它对所有 LED (\(K\))、所有尺度 (\(S\)) 和所有像素 (\(H', W'\)) 进行求和。
\(\mathcal{L}_{\mathrm{ms}}^{k,s}\) 计算预测与现实之间的误差，并根据模型认为机器人所在的位置 (\(\hat{P}\)) 以及基于朝向该 LED 应该有多可见来进行加权。

实验设置

为了证明这一点行之有效，作者让两个机器人 (大疆机甲大师 S1) 在实验室、健身房、教室和休息室中自由活动。

数据收集: 机器人随机行驶。77% 的时间里，它们甚至看不到对方！这很现实——机器人不会总是在画面中。
验证: 仅用于测试目的，他们使用动作捕捉系统获取“真值 (ground truth) ”来验证模型的准确性。模型在训练期间从未见过这些数据。

图 5: 来自数据集的随机训练样本。

图 5 展示了机器人看到的景象。注意其中一些镜头的难度——杂乱的背景、不同的光照，机器人出现在各种距离。右侧的标签 (例如 F: blue 蓝色关, B: red 红色开) 是模型获得的唯一信息。

结果: 效果如何？

结果令人震惊。自监督模型的表现几乎与需要昂贵跟踪系统的全监督方法一样好。

1. 与基线对比

让我们看看数据。

表 1: 在实验室测试集上计算的性能指标。

在表 1 中，比较 “Ours” (我们的) 与 “Upperbound” (上界，即监督学习) 和 “CNOS”:

\(E_{uv}\) (位置误差) : 我们的方法误差约为 17 像素。上界 (监督) 误差为 18。 我们的自监督方法在这里实际上略好一些。
\(E_{\psi}\) (朝向误差) : 我们的误差是 \(17^{\circ}\)，而上界是 \(14^{\circ}\)。非常接近。
\(E_d\) (距离误差) : 这里差距较大 (24% 对 11%) 。这是由于多尺度距离估计的“阶跃函数”性质造成的，我们接下来会讨论。

关键是，将 “Ours” 与 “Mean Predictor” (猜测平均值) 进行比较，提升是巨大的。在朝向和距离准确性方面，它也优于 “CNOS” (一种使用 CAD 模型的最新方法) 。

2. 距离限制

虽然位置和朝向非常准确，但距离估计显示出一个特定的怪癖。

图 6: 我们的自监督模型预测与真值的对比。注意距离上的粗糙阶梯函数。

图 6 (右下角图表) 揭示了距离 (\(d\)) 预测中的“阶梯”模式。这是因为模型基于离散的图像尺度 (尺度 1、尺度 2、尺度 4) 来估计距离。它将机器人分类为“近”、“中”或“远”。它难以预测这些阶梯之间的连续值。作者指出，这可以通过在推理时使用更多尺度来解决。

3. 泛化与多机器人场景

这种方法最有力的论据之一是它不会过拟合特定的房间。因为它学习的是机器人的视觉特征 (轮子、底盘、灯光) 而不是死记硬背背景，所以它在新的环境中也能工作。

此外，尽管它是在只有一个机器人的图像上训练的，但在推理时它可以处理包含多个机器人的图像。

图 8: 不同场景下的预测机器人姿态。

图 8 展示了定性结果:

1-4: 标准实验室环境。
5-8: 域外环境 (健身房、教室) 。模型仍然能找到机器人的盒状轮廓。
9-10: 多机器人场景。概率图 \(\hat{P}\) 简单地形成了两个峰值而不是一个，从而允许系统同时跟踪多个同伴。

推理: 神奇的一招

你可能会问: “为了让这套系统工作，机器人必须永远闪烁它的 LED 灯吗？”

不。这是最重要的结论。

LED 分类只是训练任务。一旦网络训练完成，它就已经学会了解读机器人身体的外观来推断其姿态。在推理时 (部署阶段) , LED 可以是关的、开的或者是坏的——这都无关紧要。模型观察图像，生成概率图，并提取姿态。

作者通过在所有 LED 都关闭的数据集上进行测试验证了这一点，性能下降微乎其微。模型已经成功学会了机器人的“概念”。

结论

这篇论文为自主机器人技术迈出了引人注目的一步。通过利用自监督学习 , 研究人员消除了对昂贵的动作捕捉系统或脆弱的 CAD 模型匹配的需求。

以下是关键要点:

如果你用心找，标签无处不在: 我们并不总是需要人类来标注数据。机器人的内部状态 (如灯光) 可以作为强大的训练信号。
几何学从分类中涌现: 通过强迫神经网络预测可见性，网络隐式地学习了 3D 几何 (遮挡、透视和尺度) 。
可扩展性: 这种方法允许机器人“在野外学习”。你可以部署一群火星漫游车，让它们四处行驶并互相闪烁灯光，它们无需任何先前的训练数据就能学会互相识别。

这种方法将“没有真值”的限制转化为一种特性，为机器人仅通过与世界互动来学习观察世界铺平了道路。

引言#

背景: 自监督的挑战#

核心概念: 从闪烁的灯光中学习#

为什么这行得通？#

方法: 架构与损失函数#

1. 定位: 机器人在哪里？#

2. 朝向: 它面向哪个方向？#

3. 距离: 多尺度方法#

4. 整合: 损失函数#

实验设置#

结果: 效果如何？#

1. 与基线对比#

2. 距离限制#

3. 泛化与多机器人场景#

推理: 神奇的一招#

结论#

引言