引言
在机器人领域,回答“相对于你,我在哪里?”这个问题出人意料地困难。这就是所谓的视觉相对姿态估计 (visual relative pose estimation) ,它是多机器人系统的基础。无论是无人机群协调灯光秀,还是仓储机器人避免碰撞,机器人如果不了解同伴的位置和朝向 (即姿态) ,就无法协同工作。
传统上,教机器人通过相机图像估计姿态需要大量的监督。通常你有两个昂贵的选择:
- 动作捕捉系统: 搭建一个配备昂贵红外摄像机 (如 Vicon 系统) 的房间,跟踪机器人的确切位置,并使用该数据训练神经网络。这种方法成本高昂且仅限于实验室内。
- CAD 模型: 使用机器人的 3D 数字模型生成合成训练图像。虽然比较便宜,但这面临“仿真到现实 (sim-to-real) ”的差距——由于光照、磨损或杂乱的线缆,现实中的机器人很少长得和完美的数字孪生体一模一样。
但是,如果一个机器人可以在没有任何外部摄像机、人工标注或 3D 模型的情况下学会识别同伴呢?如果两个机器人只需在房间里四处行驶,互相闪烁灯光,就能从零开始自学姿态估计呢?
这正是论文 《Self-supervised Learning Of Visual Pose Estimation Without Pose Labels By Classifying LED States》 (通过分类 LED 状态进行无姿态标签的视觉姿态估计自监督学习) 的前提。研究人员提出了一种巧妙的自监督方法,神经网络不是通过被告知机器人在哪里,而是通过尝试猜测机器人上哪些 LED 灯当前是亮着的,来学习机器人的复杂几何结构。
在这篇深度解析中,我们将探讨一个简单的“代理任务 (pretext task) ”——预测灯光状态——如何迫使模型在没有任何姿态真值标签的情况下,学习距离、朝向和位置等高级概念。
背景: 自监督的挑战
在理解该方法之前,我们需要澄清学习范式。大多数标准的计算机视觉任务使用监督学习 。 你给计算机看一张机器人的图片,并告诉它: “这个机器人在坐标 \((x, y)\),旋转了 30 度。” 这样做几千次,计算机就学会了。
自监督学习 (SSL) 改变了游戏规则。在 SSL 中,数据本身提供了监督信号。一种常见的技术是代理任务 (Pretext Task) 。你要求模型解决一个虚构的问题 (代理) ,这迫使它学习对实际问题 (下游任务) 有用的特征。
在这篇论文中, 下游任务是姿态估计 (找到机器人) 。 代理任务是 LED 状态分类 (前灯是开还是关?) 。
其背后的直觉简单而精彩:
- 要知道前 LED 灯是否可见,模型必须理解机器人的朝向 。
- 要知道是否有 LED 灯亮着,模型必须在图像中找到机器人的位置 。
- 要将 LED 灯与背景噪声区分开来,模型必须理解机器人的尺度 (距离) 。
核心概念: 从闪烁的灯光中学习
研究人员的设置涉及两个机器人。一个是观察者 (配备相机) ,另一个是目标 (配备 LED 灯) 。
机器人在房间里随机移动。目标机器人随机切换其 LED 灯 (前、后、左、右) 的开关状态。关键在于,目标机器人通过无线电向观察者广播其 LED 状态。
这创建了一个完美同步的数据集。观察者拥有一张图像,并且拥有标签 (例如,“前 LED 开,后 LED 关”) 。它不知道机器人在哪里。它只知道灯的状态。

如图 1 所示,模型将图像作为输入。通过尝试分类 LED 的状态 (蓝色表示关,红色表示开) ,模型隐式地学习了解决该问题所需的变量: 位置 \((u, v)\)、距离 \((d)\) 和方位/朝向 \((\psi)\)。
为什么这行得通?
如果你问神经网络,“后灯亮了吗?”,而机器人正对着相机,网络将很难看到后灯,因为机器人的身体挡住了它。最小化误差的唯一方法是理解: 当机器人面朝前方时,后灯是被遮挡的。 因此,网络学习了朝向的概念来预测灯光的可见性。
同样,如果机器人很远,LED 只是微小的像素簇。如果它很近,它们就是大光斑。为了正确识别它们,网络必须理解尺度和距离。
方法: 架构与损失函数
研究人员设计了一个全卷积网络 (FCN) ,它输出几个“图 (maps) ”而不是单个数值。让我们逐步分解其架构和逻辑。
1. 定位: 机器人在哪里?
模型输出一个名为 \(\hat{P}\) 的空间图。这是一个覆盖图像的网格,其中每个单元格代表机器人位于那里的概率。
然而,我们没有关于机器人在哪里的标签。我们只有 LED 标签。研究人员使用了一种空间注意力机制 。 模型认识到,要正确猜测 LED 状态,它应该“看”向机器人实际所在的像素位置。
- 如果模型看墙壁,它无法预测 LED 是否亮着。损失 (误差) 会很高。
- 如果模型看机器人,它能看到 LED。损失会很低。
在数学上,模型学习提高 \(\hat{P}\) 图中机器人位置处的值,以最小化其分类误差。
2. 朝向: 它面向哪个方向?
模型还输出一个朝向图 \(\hat{\Psi}\)。每个单元格包含一个预测的角度。
这里有个巧妙之处: 研究人员使用了可见性函数 。 他们假设知道每个 LED 相对于机器人朝向的大致方向。

看图 3 。 该图表显示了不同 LED 基于机器人偏航角 (航向) 的可见性。
- 如果机器人在 \(0^{\circ}\) (背对) , 后 (Back) LED (实黑线) 最可见。
- 如果机器人旋转到 \(90^{\circ}\), 右 (Right) LED (虚线) 变得可见。
模型使用其预测的朝向 \(\hat{\psi}\) 来查找这些可见性权重。这实际上是在说: “我认为机器人面向 90 度,所以我应该相信右侧 LED 的状态,并忽略左侧 LED 的状态,因为它可能被挡住了。”
3. 距离: 多尺度方法
从单个相机 (单目视觉) 估计距离通常很难,因为“近处的小物体”和“远处的大物体”之间存在模糊性。然而,由于机器人的物理尺寸是恒定的,它在图像中的表观尺寸直接与距离相关。
研究人员使用了多尺度策略 。 他们以三种不同的大小 (尺度) 将图像输入网络。

如图 2 直观展示的:
- 网络有一个固定的“感受野” (RF) ——可以把它想象成网络用来观察图像的放大镜尺寸。
- 如果机器人很远,在全尺寸图像中它正好适合感受野。
- 如果机器人很近 (在画面中巨大) ,它可能只有在图像缩小 (下采样) 后才适合感受野。
通过检查哪个图像尺度产生了最置信的检测,模型可以估计距离。如果机器人在微小的图像中被检测得最好,它一定很近 (很大) 。如果在在图像中被检测得最好,它一定很远 (很小) 。
4. 整合: 损失函数
训练过程优化了一个复合损失函数。目标是最小化预测的 LED 状态与广播的 (真实) LED 状态之间的误差。

这个方程看起来可能有点吓人,但它总结了上述逻辑:
- 它对所有 LED (\(K\))、所有尺度 (\(S\)) 和所有像素 (\(H', W'\)) 进行求和。
- \(\mathcal{L}_{\mathrm{ms}}^{k,s}\) 计算预测与现实之间的误差,并根据模型认为机器人所在的位置 (\(\hat{P}\)) 以及基于朝向该 LED 应该有多可见来进行加权 。
实验设置
为了证明这一点行之有效,作者让两个机器人 (大疆机甲大师 S1) 在实验室、健身房、教室和休息室中自由活动。
- 数据收集: 机器人随机行驶。77% 的时间里,它们甚至看不到对方!这很现实——机器人不会总是在画面中。
- 验证: 仅用于测试目的,他们使用动作捕捉系统获取“真值 (ground truth) ”来验证模型的准确性。模型在训练期间从未见过这些数据。

图 5 展示了机器人看到的景象。注意其中一些镜头的难度——杂乱的背景、不同的光照,机器人出现在各种距离。右侧的标签 (例如 F: blue 蓝色关, B: red 红色开) 是模型获得的唯一信息。
结果: 效果如何?
结果令人震惊。自监督模型的表现几乎与需要昂贵跟踪系统的全监督方法一样好。
1. 与基线对比
让我们看看数据。

在表 1 中,比较 “Ours” (我们的) 与 “Upperbound” (上界,即监督学习) 和 “CNOS”:
- \(E_{uv}\) (位置误差) : 我们的方法误差约为 17 像素。上界 (监督) 误差为 18。 我们的自监督方法在这里实际上略好一些。
- \(E_{\psi}\) (朝向误差) : 我们的误差是 \(17^{\circ}\),而上界是 \(14^{\circ}\)。非常接近。
- \(E_d\) (距离误差) : 这里差距较大 (24% 对 11%) 。这是由于多尺度距离估计的“阶跃函数”性质造成的,我们接下来会讨论。
关键是,将 “Ours” 与 “Mean Predictor” (猜测平均值) 进行比较,提升是巨大的。在朝向和距离准确性方面,它也优于 “CNOS” (一种使用 CAD 模型的最新方法) 。
2. 距离限制
虽然位置和朝向非常准确,但距离估计显示出一个特定的怪癖。

图 6 (右下角图表) 揭示了距离 (\(d\)) 预测中的“阶梯”模式。这是因为模型基于离散的图像尺度 (尺度 1、尺度 2、尺度 4) 来估计距离。它将机器人分类为“近”、“中”或“远”。它难以预测这些阶梯之间的连续值。作者指出,这可以通过在推理时使用更多尺度来解决。
3. 泛化与多机器人场景
这种方法最有力的论据之一是它不会过拟合特定的房间。因为它学习的是机器人的视觉特征 (轮子、底盘、灯光) 而不是死记硬背背景,所以它在新的环境中也能工作。
此外,尽管它是在只有一个机器人的图像上训练的,但在推理时它可以处理包含多个机器人的图像。

图 8 展示了定性结果:
- 1-4: 标准实验室环境。
- 5-8: 域外环境 (健身房、教室) 。模型仍然能找到机器人的盒状轮廓。
- 9-10: 多机器人场景。概率图 \(\hat{P}\) 简单地形成了两个峰值而不是一个,从而允许系统同时跟踪多个同伴。
推理: 神奇的一招
你可能会问: “为了让这套系统工作,机器人必须永远闪烁它的 LED 灯吗?”
不。 这是最重要的结论。
LED 分类只是训练任务。一旦网络训练完成,它就已经学会了解读机器人身体的外观来推断其姿态。在推理时 (部署阶段) , LED 可以是关的、开的或者是坏的——这都无关紧要。模型观察图像,生成概率图,并提取姿态。
作者通过在所有 LED 都关闭的数据集上进行测试验证了这一点,性能下降微乎其微。模型已经成功学会了机器人的“概念”。
结论
这篇论文为自主机器人技术迈出了引人注目的一步。通过利用自监督学习 , 研究人员消除了对昂贵的动作捕捉系统或脆弱的 CAD 模型匹配的需求。
以下是关键要点:
- 如果你用心找,标签无处不在: 我们并不总是需要人类来标注数据。机器人的内部状态 (如灯光) 可以作为强大的训练信号。
- 几何学从分类中涌现: 通过强迫神经网络预测可见性,网络隐式地学习了 3D 几何 (遮挡、透视和尺度) 。
- 可扩展性: 这种方法允许机器人“在野外学习”。你可以部署一群火星漫游车,让它们四处行驶并互相闪烁灯光,它们无需任何先前的训练数据就能学会互相识别。
这种方法将“没有真值”的限制转化为一种特性,为机器人仅通过与世界互动来学习观察世界铺平了道路。
](https://deep-paper.org/en/paper/2509.10405/images/cover.png)