MAD 技能：如何教会机器人用一只眼或多只眼看世界

视觉强化学习 (RL) 不仅突破了机器人的能力边界，从在 Atari 游戏中获胜，还实现了复杂的灵巧操作。然而，在受控仿真环境中有良好表现的机器人与足以应对现实世界的机器人之间，仍存在显著差距。这一挑战的主要部分在于视觉。

在现实世界中，深度感知至关重要。人类通过双眼视觉自然地实现这一点——利用双眼对 3D 结构进行三角测量。同样，机器人也能从多个摄像机视角中获益匪浅。融合这些视角可以创建更丰富的世界表征，克服遮挡问题并提高学习速度 (样本效率) 。

但也存在一个问题。如果你训练一个机器人依赖三个特定的摄像机，而在部署过程中其中一个发生故障或被遮挡，机器人通常会失效。策略变得对这种特定的多视角设置“过拟合”了。

我们如何设计一个系统，既能在训练期间利用多个摄像机的丰富数据，又能在测试时摄像机缺失的情况下保持稳健？

这正是 Almuzairee 等人在其论文 “Merging and Disentangling Views in Visual Reinforcement Learning for Robotic Manipulation” 中解决的问题。他们引入了一种名为 MAD (融合与解耦，Merge And Disentangle) 的新算法。

图 1 说明了融合视角以获得更好表征，并将其解耦以实现稳健部署的概念。

如图 1 所示，目标是双重的: 融合 (Merge) 视角以学习更好的表征，以及 解耦 (Disentangle) 它们，以便策略在部署期间能够使用任何单一视角运行。

两个相互竞争的目标

要理解这项研究的重要性，我们首先需要了解机器人学习中两个相互竞争的目标之间的张力:

为效率而融合: 为了快速学习任务 (样本效率) ，机器人需要尽可能好的数据。将第一人称视角 (来自机器人手腕) 与第三人称视角 (来自房间) 相结合，可以提供状态空间的完整画面。
为稳健性而解耦: 为了可部署，机器人不能是脆弱的。如果传感器发生故障，机器人应该优雅地降级，而不是崩溃。这就要求神经网络理解“视角 A”包含独立于“视角 B”的有用信息。

先前的工作通常只选择其中一条路线。一些方法专注于融合视角以获得最大性能，导致策略脆弱。另一些专注于稳健性 (解耦) ，但往往牺牲了通过组合视角获得的学习速度。MAD 试图通过一种涉及特征级数据增强的巧妙架构技巧来统一这两者。

实验设置: 定义环境

研究人员在两个流行的机器人操作基准测试中验证了他们的假设: Meta-World 和 ManiSkill3 。

图 2 展示了环境设置，包括第一人称、第三人称 A 和第三人称 B 视角。

如图 2 所示，设置通常涉及三个摄像机:

第一人称: 安装在机械臂上 (精度高，但上下文环境差) 。
第三人称 A 和 B: 固定在环境中 (上下文环境好，但容易被遮挡) 。

挑战在于训练一个单一智能体，使其能够在所有三个输入都可用时加以利用，但在只提供一个输入时仍能成功。

核心方法: MAD

MAD 框架建立在 DrQ (数据正则化 Q 学习) 算法之上，这是一种视觉 RL 的标准方法。创新之处在于图像数据如何在网络中流动以及损失函数是如何计算的。

1. 融合模块 (架构)

第一步是处理输入。在典型的多视角设置中，人们可能会堆叠图像或串联其特征。MAD 采取了一种略微不同的方法来确保灵活性。

它使用单个共享 CNN 编码器 (\(f_\xi\)) 。无论输入是摄像机 1、摄像机 2 还是摄像机 3，它都通过相同的神经网络权重传递。这为每个视角产生一个特征向量，表示为 \(\mathcal{V}_t^i\)。

为了创建“融合”表征 (\(\mathcal{M}_t\)) ，系统简单地对特征向量求和:

\[ \mathcal{M}_t = \sum_i^n \mathcal{V}_t^i \]

为什么是求和? 求和在这里至关重要。与串联不同 (串联会根据摄像机数量改变向量的大小) ，求和保持特征向量大小不变。这使得下游策略 (机器人的大脑) 能够接受来自一个、三个或五个摄像机的输入，而无需改变其架构。它自然地保留了信号的幅度，给网络一个关于存在多少信息的提示。

2. 通过增强进行解耦

这是论文贡献的核心。如果你仅仅在融合向量 \(\mathcal{M}_t\) 上训练机器人，它永远学不会使用单一视角 \(\mathcal{V}_t^i\)。

然而，如果你天真地同时在融合视角和单一视角上进行训练，网络会感到困惑。它将它们视为完全不同的状态，这会破坏学习的稳定性并使机器人学得更慢。

研究人员的解决方案是将单一视角特征视为融合特征的数据增强 。

在视觉 RL 中，数据增强 (如随机裁剪图像) 用于使网络具有稳健性。MAD 在特征级应用这一逻辑。它告诉网络: “这个单一摄像机视角只是完整多视角现实的一个有噪声/增强的版本。学会从这个部分视角预测动作/价值，就像你从完整视角预测一样。”

图 3 展示了共享编码器、Actor 更新和 Critic 更新逻辑的图表。

图 3 详细说明了这个流程。

左侧: 共享编码器单独处理各个视角。
中间/右侧: 融合特征 (\(\mathcal{M}_t\)) 是“干净”的数据流。单一视角 (\(\mathcal{V}_t^i\)) 是“增强”的数据流。

3. 损失函数 (数学原理)

为了稳定这种训练，作者采用了一种称为 SADA (在数据增强下稳定 Actor-Critic) 的技术。核心思想是利用干净、未增强的数据 (融合视角) 来锚定学习目标，同时强制网络从增强数据 (单一视角) 中产生一致的结果。

让我们看看 Actor 损失 (策略更新) 。

公式 1: Actor 损失公式，显示了未增强和增强部分。

以下是上述公式的分解:

\(\mathcal{L}^{UnAug}\) : 这是使用融合特征计算的标准损失。这确保了机器人利用所有可用信息高效地学习。
\(\mathcal{L}^{Aug}\) : 这是使用单一视角特征 (\(\mathcal{V}_t^i\)) 计算的损失。请注意，它试图匹配源自融合状态的 Q 值 (预期奖励) 。
\(\alpha\) (Alpha) : 这是一个平衡两者的超参数。它权衡了网络应该多大程度上优先考虑“完美”的多视角数据与“稳健”的单一视角数据。作者发现 \(\alpha=0.8\) 是最佳的。

Critic 损失 (Q 函数更新) 遵循类似的逻辑:

公式 2: Critic 损失公式。

Critic 学习动作的价值。通过使用稳定的、融合的下一步状态 (\(\mathcal{M}_{t+1}\)) 计算目标值，即使输入是部分的单一视角状态，训练也能保持稳定。

实验结果

理论听起来很扎实，但它有效吗？研究人员将 MAD 与几个强基线进行了比较:

MVD: 一种专注于使用对比学习进行解耦的方法。
VIB: 一种使用信息瓶颈来融合视角的方法。
Single Camera: 仅在一个视角上训练的标准智能体。

1. 稳健性和样本效率

主要结果令人震惊。下面的图表展示了成功率 (Y 轴) 随训练步数 (X 轴) 的变化。

图 4 展示了 Meta-World 和 ManiSkill3 上的性能图表。

图 4 的主要结论:

样本效率 (蓝线 vs 其他) : 在“所有摄像机 (All Cameras) ”图 (最左侧) 中，MAD (蓝色) 的学习速度比基线快得多，且达到了更高的成功率。这证实了融合策略是有效的。
稳健性 (单一视角图) : 看看“第三人称 A”或“第三人称 B”的图。即使 MAD 是在所有摄像机可用的情况下训练的，当在仅有一个摄像机的情况下测试时，它的表现也非常出色。
与单摄像机基线的比较: 在许多情况下，在单一视角上评估的 MAD 优于专门在该单一视角上训练的模型 (橙线) 。这意味着在训练期间从多个角度观察任务有助于机器人比仅看到该单一视角更好地理解该单一视角。

2. 为什么它有效？ (消融研究)

为了证明他们引擎的每个部分都是必要的，作者进行了消融研究。

图 5 展示了组件和 alpha 值的消融研究。

在图 5 (右) 中，我们看到了组件分解:

Naive Both (棕色) : 在没有特定 MAD/SADA 损失公式的情况下，简单地在融合和单一视角上训练无法有效地发挥作用。这本质上混淆了智能体。
Merged Only (灰色) : 仅在融合视角上训练在拥有所有摄像机时效果很好，但如果丢失一个摄像机就会失效 (这虽然没有在这个特定的截图中显示，但在论文中进行了讨论) 。
Singular Only (绿色) : 仅在单一视角上训练太慢了。

MAD (蓝色) 是唯一达到高性能的曲线，证实了特征求和与选择性增强的特定组合是关键。

3. 融合方法重要吗？

研究人员还提出: “我们对特征求和是否重要？如果使用注意力机制或简单的串联会怎样？”

图 6 比较了不同的融合策略，如串联、求和、注意力和 ViT。

令人惊讶的是，图 6 显示求和 (Summation，蓝色) 与注意力 (Attention，棕色) 或视觉 Transformer (ViT，绿色) 等更复杂的方法相比极具竞争力。鉴于求和在计算上更便宜，并且能自然地处理可变数量的输入，它是实用的赢家。

适应性: 遮挡和模态

MAD 最令人印象深刻的演示之一是其处理“坏”视角的能力。

在 ManiSkill3 的一个特定实验中，研究人员设置了环境，使得三个摄像机中有两个被遮挡或不提供信息。只有“第三人称 A”能看到任务。

图 7 展示了遮挡条件下的性能。

如图 7 所示，MAD (蓝色) 与其在良好视角上训练的单摄像机智能体的性能相当。

MVD (棕色) 失败是因为它试图在好视角和坏视角之间寻找共享信息，这稀释了有用信号。
VIB (灰色) 失败是因为它严重依赖第一人称视角，而在该测试中第一人称视角被遮挡了。

MAD 忽略了来自坏摄像机的噪声，并成功利用了一个工作的摄像机。

从 RGB 到 RGB-D

最后，作者表明 MAD 不仅适用于位于不同位置的摄像机；它还可以融合不同类型的数据，例如 RGB 颜色和深度 (Depth) 。

图 8 展示了 MAD 适应 RGB 和深度模态。

通过将 RGB 和深度视为两个独立的“视角”并融合它们，MAD (蓝色) 优于仅在 RGB 或仅在深度上训练的智能体。它本质上学习了一种对光照变化 (通过依赖深度) 和无纹理物体 (通过依赖 RGB) 具有稳健性的策略。

结论

“融合与解耦视角” (MAD) 论文为机器人技术中的一个常见问题提供了一个实用且优雅的解决方案。它摒弃了复杂的辅助损失或对比学习方案，而是依赖于强大的架构选择 (特征求和) 与严格的训练策略 (特征级增强) 相结合。

对于视觉 RL 的学生和从业者来说，结论很清楚:

不要仅仅在融合视角上训练。 你会制造一种在现实世界中会崩溃的依赖性。
将输入视为增强。 如果你想让你的机器人处理部分数据，就训练它从该部分数据预测完整状态。
简单即美。 在这种情况下，简单的特征求和优于复杂的注意力机制，证明了有时最简单的工具就是最合适的工具。

通过使机器人能够有效地从它们能看到的一切中学习，同时为它们看不见的那一刻做好准备，MAD 让我们离真正可部署的自主系统又近了一步。

两个相互竞争的目标#

实验设置: 定义环境#

核心方法: MAD#

1. 融合模块 (架构)#

2. 通过增强进行解耦#

3. 损失函数 (数学原理)#

实验结果#

1. 稳健性和样本效率#

2. 为什么它有效？ (消融研究)#

3. 融合方法重要吗？#

适应性: 遮挡和模态#

从 RGB 到 RGB-D#

结论#