引言

近年来,人工智能领域的成功秘诀似乎非常简单: 扩大规模 (Scale up) 。在计算机视觉和自然语言处理 (NLP) 领域,向大规模 Transformer 模型投喂互联网级的数据,产生了震惊世界的涌现能力。自然地,机器人学家们也开始思考: 我们能否在物理机器人上复制这一成功?

答案似乎是肯定的。通过将世界各地实验室的机器人数据汇聚成如 Open X-Embodiment (OXE) 这样的大规模数据集,研究人员训练出了通用机器人策略 (Generalist Robot Policies, GRPs) ,如 \(\pi_0\)OctoRT-X 。 这些模型可以执行广泛的任务,从打开抽屉到拾取特定物体。

但这其中存在一个陷阱。虽然这些机器人在处理与其训练数据相似的任务时表现出色,但当面对微小的变化——不同的摄像机角度、新的桌子纹理或稍作改动的背景时,它们往往会遭遇惨败。它们难以实现泛化

为什么一个看过数百万条轨迹的机器人,仅仅因为光线变化就捡不起一把勺子?

一篇题为 “Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation” (通用机器人策略中的捷径学习: 数据集多样性与碎片化的作用) 的新论文深入探讨了这一悖论。研究人员将根本原因归结为一种被称为 捷径学习 (Shortcut Learning) 的现象。本质上,机器人是在“作弊”——它们记住了虚假的相关性 (比如桌子的颜色) ,而不是学习实际的任务 (比如勺子的形状) 。

在这篇深度文章中,我们将探讨这种现象发生的原因、背后的数学理论,以及我们要如何迫使机器人停止走捷径并开始真正地学习。


诊断: 什么是捷径学习?

想象一下,你正在教一个学生识别“毒蘑菇”。你向他们展示抽认卡。巧合的是,你牌堆里每一张毒蘑菇的照片都有红色的边框,而每一张安全蘑菇的照片都有绿色的边框。

学生在考试中得了满分。但是当他们走进森林时,他们吃下了一个毒蘑菇,因为它周围并没有悬浮着红色的边框。学生并没有学会“有毒的特征”;他们走了一条捷径 , 学会了“红框 = 坏”。

这正是通用机器人策略中正在发生的事情。

在机器人的语境下,我们要区分:

  • 任务相关因素 (Task-Relevant Factors, \(u\)) : 真正重要的东西 (例如: 目标物体、语言指令“捡起勺子”) 。
  • 任务无关因素 (Task-Irrelevant Factors, \(v\)) : 不应该重要的东西 (例如: 视角、背景、光照) 。

当模型依赖 \(v\) 来预测动作而忽略 \(u\) 时, 捷径学习就发生了。

“作弊”的视觉证据

研究人员使用最先进的模型演示了这种行为。在下面的例子中,三个不同的顶级模型 (RT-1-X, Octo, OpenVLA) 被指令“把勺子放在毛巾上 (put the spoon on the towel) ”。这个任务存在于 “Bridge” 子数据集中。

然而,环境中还包含一个可乐罐。在训练数据中 (特别是 RT-1 子数据集) ,可乐罐的出现与“拿起可乐 (pick up the coke) ”这一任务高度相关。

捷径学习的演示。左图: 模型忽略了“把勺子放在毛巾上”的指令,而去捡起可乐罐,因为它是 RT-1 数据集中一个强烈的视觉捷径。右图: 机器人忽略了捡起物体的指令,因为它将摄像机视角与另一个不同的任务关联了起来。

图 1 (左) 所示,尽管有明确的移动勺子的语言指令,所有三个模型都忽略了语言命令并捡起了可乐罐。它们走了一条捷径: “我看到了一个可乐罐 (无关特征) ,所以我必须把它捡起来”,完全绕过了语言指令。

在图 1 的右侧,我们要看到一个更微妙的失败案例。一个机器人是在两个子集上训练的:

  1. 视角 A \(\rightarrow\) 指令 C
  2. 视角 B \(\rightarrow\) 指令 D

当机器人被置于视角 A 但收到指令 D 时,它执行了指令 C。它学会了将 摄像机角度动作 关联起来,而忽略了人类实际告诉它要做什么。


根本原因: 多样性与碎片化

为什么模型会学习这些捷径?作者认为这源于像 OXE 这样的大规模机器人数据集的结构性缺陷。与非结构化且多样化的互联网图像数据集 (如 LAION 或 ImageNet) 不同,机器人数据集是碎片化的。

OXE 数据集是由不同大学在不同实验室收集的许多较小的数据集组成的“魔法汤 (Magic Soup) ”。这导致了两个关键问题:

1. 子数据集内部的多样性有限

收集机器人数据非常昂贵。通常,研究人员会在一个实验室,在一张桌子上,用固定的光照设置机器人,并收集数千个片段。

视觉和文本多样性的比较。图表显示,与标准计算机视觉数据集 (棕色) 相比,OXE 子数据集 (深蓝色) 在对数尺度上的多样性显著更低。

图 2 所示,机器人子数据集的视觉多样性 (左) 和文本多样性 (右) 比 ImageNet 等视觉数据集低了几个数量级。在一个单一的子数据集中,背景几乎从不改变。这种缺乏变化使得模型很容易过拟合背景。

2. 数据集碎片化 (高差异性)

因为每个子数据集都来自不同的实验室,它们看起来彼此完全不同。一个数据集可能使用的是木桌上的 Franka 机器人;另一个使用的是蓝色桌布上的 UR5 机器人。

比较数据集结构的 t-SNE 可视化。左图: 视觉数据集相互交织。右图: OXE 机器人数据集形成孤立、碎片化的聚类。

图 3 完美地展示了这一点。在左侧,标准的视觉数据集 (如 ImageNet) 是相互交织的——COCO 中的狗看起来和 OpenImages 中的狗差不多。在右侧,机器人数据集 (OXE) 是成簇的孤岛。它们之间几乎没有视觉重叠。

这种碎片化让模型可以玩一个“猜数据集”的游戏。如果模型看到蓝色桌布,它就知道自己在“Berkeley”数据集中,并将可能的动作限制在该数据集中存在的动作上。它利用背景作为捷径来缩小任务范围,而不是观察物体或指令。


理论框架

作者提供了一个形式化的数学证明,解释了为什么碎片化和低多样性必然导致捷径学习。

他们使用 归一化互信息 (Normalized Mutual Information) \(\bar{I}(u,v)\) 来定义相关因素 (\(u\)) 和无关因素 (\(v\)) 之间的关系。

  • 如果 \(\bar{I}(u,v)\) 很高,说明无关因素 (如背景) 泄露了有关相关因素 (如任务) 的信息。这就是 虚假相关性 (spurious correlation)
  • 我们希望 \(\bar{I}(u,v)\) 很低 (为零) ,这意味着背景不能告诉你任何关于任务的信息。

多样性命题

论文提出了一个关于不相交数据集 (即不重叠、高碎片化的数据集) 的命题。

显示互信息与多样性成反比的公式。

该公式表明,互信息 \(\bar{I}(u,v)\) 与总多样性 (\(C_{\text{diversity}}\)) 成反比。

  • 翻译: 如果你的多样性很低 (分母小) ,背景与任务之间的相关性就会 很高 。 模型 一定 会找到捷径。

交织命题

如果数据集重叠了会怎样?如果同一张“木桌”既出现在“摘苹果”数据集中,也出现在“倒水”数据集中呢?

显示互信息的上界随着数据集交织程度增加而降低的公式。

这里,\(C_{\text{interleave}}\) 代表数据集重叠的程度。

  • 翻译: 当你混合并交织你的数据集 (增加 \(C_{\text{interleave}}\)) 时,虚假相关性的上界会下降。如果相同的背景出现在许多不同的任务中,背景就不再是一个可靠的捷径,从而迫使模型去学习实际的任务。

实验验证: 证明理论

为了验证这一理论,研究人员从抽象的数学转向了 LIBERO 仿真基准测试。这使他们能够完美地控制数据的多样性和差异性。

设置

他们设计了一个包含两个子数据集的控制实验。

  • 任务相关: 目标物体的位置 (以及指令) 。
  • 任务无关: 摄像机视角。

LIBERO 实验设置图。模型在特定的视角-位置对上进行训练,并在分布外 (OOD) 配对上进行评估以测试捷径。

图 5 所示,他们训练模型时,特定的视角与特定的物体位置相关联。然后,他们在“分布外” (OOD) 场景中测试机器人——交换视角,看看机器人是否会感到困惑。

结果

结果令人震惊,并验证了理论命题。

显示 OOD 成功率和捷径程度的图表。增加多样性 (半径) 和减少差异性 (距离) 始终能减少捷径学习并提高成功率。

观察 图 6 , 我们可以看到不同模型架构 (Diffusion Policy, MiniVLA, \(\pi_0\)) 呈现出两个清晰的趋势:

  1. 多样性有帮助: 随着数据集 内部 视角范围的增加 (在“Viewpoint Diversity”图表中向右移动) ,“捷径学习程度 (Degree of Shortcut Learning) ”降至零,成功率飙升。
  2. 差异性有害: 随着两个子数据集之间距离的增加 (在“Viewpoint Disparity”图表中向右移动) ,模型开始失效。数据集之间的鸿沟变得足够明显,足以作为捷径。

一个重要的警告: 错误的多样性

作者发现了一个关键的细微差别: 随机的多样性是不够的。

如果你通过给 不同 的任务分配 不同 的视角来增加多样性,实际上会让情况变得更糟。这创造了更多的碎片。

条形图显示,为任务分配不同的视角 (高多样性但高相关性) 导致 OOD 成功率为零。

图 7 显示,简单地拥有“10 个视角” (蓝色条) ,如果这些视角与特定任务完全相关,会导致 0% 的成功率。这进一步碎片化了数据。多样性只有在 独立于 任务时才有帮助。


现实世界的解决方案: 如何修复

理论和仿真得出的见解为现实世界的机器人技术提供了实用的解决方案。作者提出了两个主要策略: 桥接 (Bridging)增强 (Augmentation)

1. 桥接策略

在一个使用 \(\pi_0\) 策略的现实世界实验中,机器人学会了视角捷径 (如图 1 所示) 。为了解决这个问题,研究人员并不仅仅是添加更多随机数据。他们添加了 “桥接数据 (Bridge Data) ”

他们引入了第三个物体,该物体的数据是从视角 A 和视角 B 两个 视角收集的。

桥接策略示意图。在两个视角中引入第三个物体 (绿色零食) ,以连接完全不同的子数据集。

通过引入这种重叠 (图 8) ,他们人为地增加了数学公式中的 \(C_{\text{interleave}}\) 项。模型不再能假设“视角 A = 任务 C”,因为新物体也出现在了视角 A 中。

结果: 捷径行为完全消失,OOD 成功率从 20% 跃升至 75% (表 1) 。

2. 离线数据集的数据增强

如果你无法收集新的机器人数据怎么办?作者展示了我们可以使用生成式 AI 来修复数据集本身。

视角增强: 他们使用 ZeroNVS (一种新颖的视图合成模型) 为现有的静态图像生成新的摄像机角度。

视角增强的示例。生成新视图打破了特定摄像机角度与任务之间的相关性。

通过人为创造新的视角( 图 9 ),他们模糊了碎片化子数据集之间的边界。

物体增强: 他们还利用分割和修复技术在场景之间交换物体。如果“香蕉”只在“黄色桌布”上出现过,他们就合成地将香蕉放在“木桌”上,反之亦然。

物体增强的示例。物体在场景之间交换,迫使模型学习独立于背景的物体身份。

图 10 展示了这一过程。上一行显示的是原始的、相关联的数据。下一行显示的是增强后的数据,物体出现在了新的上下文中。

论文中的 表 2 (此处未显示但在文中提到) 证实,这些增强措施显著减少了 \(\pi_0\) 模型中的捷径行为。


结论

构建通用机器人策略的竞赛在很大程度上是一场争夺 更多 数据的竞赛。然而,这项研究强调, 如果数据是碎片化的,更多的数据并不总是更好。

当我们聚合不同、孤立的数据集 (如 OXE) 时,我们不经意间构建了一个充满捷径的路线图,而强大的模型非常乐意遵循这些捷径。它们学会了识别实验室、桌子或摄像机角度,而不是任务本身。

对于机器人学习的未来,结论是明确的:

  1. 策划,而不仅仅是收集: 我们需要在数据收集过程中优先考虑 内部 的多样性。改变光照,移动摄像机,并交换背景。
  2. 搭建桥梁: 在组合数据集时,我们必须确保存在连接因素 (共享的物体、共享的任务) ,将数据孤岛连接起来。
  3. 合成复杂性: 当物理收集受限时,生成式增强 (视角合成、物体交换) 是打破虚假相关性的有力工具。

通过理解捷径学习的机制,我们可以停止制造在考试中作弊的机器人,开始构建真正理解世界的机器人。