引言

在人工智能领域,像 GPT-4 这样的语言模型之所以能获得惊人的能力,很大程度上是因为它们在整个互联网的文本数据上进行了训练。然而,机器人技术面临着一个独特的“数据饥渴”问题。虽然文本和图像资源丰富,但机器人数据——具体来说,即连接视觉感知与物理动作的数据——却极其稀缺。

在真实机器人上收集数据既缓慢、昂贵,又具有潜在危险。传统的替代方案是模拟 (Sim-to-Real,从模拟到现实) ,即我们需要构建现实世界的数字孪生。但创建这些数字孪生通常需要复杂的设置: 多视角摄像机阵列、3D 扫描仪以及人工资产创建。你不能仅仅拍一张你那乱糟糟的厨房的照片,就指望机器人学会如何打扫它……直到现在。

在论文 《Robot Learning from Any Images》 (从任意图像中学习机器人技术) 中,研究人员介绍了 RoLA , 这是一个旨在实现机器人数据生成大众化的框架。RoLA 可以利用单张标准图像——无论是手机拍摄的照片还是从互联网下载的随机图片——将其转化为一个完全可交互、具备物理属性的模拟环境。

图 1: RoLA 将单张自然场景图像转化为交互式、具备物理属性的机器人环境。给定单张输入图像 (左上) ,RoLA 恢复用于机器人学习的物理场景 (右上) ,实现大规模机器人数据生成 (右下) ,并支持将学到的策略部署到真实机器人上 (左下) 。

如图 1 所示,该流程接收一张静态图像,恢复其 3D 几何结构和物理属性,允许机器人在该虚拟空间中练习,并生成可用于真实世界的训练数据。这种能力释放了利用互联网上现存的数百万张图像作为智能机器人训练场的潜力。

背景: 打破硬件壁垒

要理解 RoLA 的重要性,我们需要看看通常的“现实到模拟” (Real-to-Sim) 是如何工作的。传统上,如果你想模拟一个特定的桌子及其上的物体,你需要从多个角度重建场景几何结构 (使用摄影测量或 NeRF 等技术) 。这使得数据收集局限于具有专门搭建的摄像机系统的受控实验室环境中。

研究人员提出了一个根本性的问题: 我们能否从单张图像中获得完整的机器人数据?

他们的洞察力来自于现代生成式 AI 的力量。我们不再需要五十张照片来理解一个苹果的 3D 形状;基础模型已经见过足够多的苹果,可以从单一视角推测其形状。通过利用这些先验知识,RoLA 消除对复杂硬件的需求,架起了被动视觉数据 (照片) 与具身机器人动作之间的桥梁。

RoLA 框架

RoLA 方法是一个分为三个逻辑步骤的流程: 恢复场景在模拟中生成数据以及模拟到现实的部署

图 2: RoLA 框架概览。步骤 1: 从单张图像恢复物理场景。步骤 2: 通过视觉混合生成大规模逼真的机器人演示。步骤 3: 使用收集的数据跨任务和实体训练及部署策略。

让我们来分解该系统是如何有效地从一张平面的 JPEG 图像中“构想”出一个物理引擎的。

步骤 1: 恢复物理场景

这里的目标是解决一个逆问题。我们从图像 \(I\) 开始,想要找到物理场景 \(S\) 和相机参数 \(C\),使得:

公式 1: 图像形成过程。

其中 \(\pi\) 是相机投影。这本质上是困难的,因为单张图像缺乏深度信息。RoLA 通过将图像分解为组成部分 (物体和背景) 来解决这个问题。

几何与外观

首先,系统使用分割模型 (Grounded SAM) 来识别图像中的物体。

  • 物体: 一旦物体被掩膜 (mask) 抠出,它就被传递给图像到 3D 的生成模型。这会创建物体的带纹理 3D 网格。
  • 背景: 当你从 2D 图像中提取一个物体时,会在背景中留下一个“空洞”。RoLA 使用图像修复模型 (inpainting model) 来填充这个空洞,创建一个干净的背景底图。

为了理解房间的 3D 结构,系统使用了度量深度预测模型。它预测每个像素的距离,允许研究人员构建“点云”——即代表场景的空间数据点集。

公式 2: 逆投影以构建场景点云。

这里,\(D(u,v)\) 是像素 \((u,v)\) 处的深度,\(\mathbf{K}\) 是相机内参矩阵。这个方程有效地将 2D 图像提升到了 3D 空间。

场景配置与对齐

仅有 3D 网格是不够的;它们需要被正确地放置在物理模拟器中。重力很关键。如果模拟中的地板相对于点云中的“地板”是倾斜的,物体会立刻滑走。

RoLA 假设存在一个垂直于重力的“支撑平面” (如桌子或地板) 。它估计地面的法向量 \(\mathbf{n}\) 并计算旋转矩阵 \(\mathbf{R}\),以将场景与模拟的 Z 轴 (重力方向) 对齐。

公式 3: 用于将场景与重力对齐的旋转矩阵计算。

物理属性

网格有形状,但没有质量或摩擦力。模拟器如何知道一个物体是沉重的砖块还是轻盈的海绵?RoLA 使用大型语言模型 (LLM) 。通过向 LLM 提示物体的类别名称和视觉上下文,系统推断出合理的物理参数 (密度、摩擦力) 来填充物理引擎。

步骤 2: 机器人数据生成

一旦场景构建完成,我们需要一个机器人与之交互。

如果原始图像是由机器人拍摄的,系统就知道机器人应该在哪里。但对于随机的互联网图像,机器人的位置是未知的。RoLA 采用基于采样的方法来寻找机器人基座的有效位置。它计算一个“可达工作空间”外壳,并采样机器人能够接触物体且不会穿模桌子的位置。

图 14: 生成可行物体放置位置的采样方法可视化。

随着机器人的就位,系统现在可以生成数千个演示。它可以使用运动规划器或预训练策略,在这个构想的世界中让机器人执行诸如“拿起香蕉”或“倒水”等任务。

步骤 3: 用于照片级真实感的视觉混合

这可能是实现有效的“模拟到现实”转移最关键的组件。

当你在模拟器中渲染机器人时,它看起来通常很“假”或与现实世界的背景格格不入,从而产生域差距 (domain gap) ,这会在 AI 尝试在现实世界操作时造成困扰。RoLA 使用一种称为视觉混合 (Visual Blending) 的技术解决了这个问题。

RoLA 不从头开始渲染整个场景,而是保留背景图像 \(I_B\) 的原始像素。它只渲染那些在物理上位于背景前方的机器人和被操作物体。这是通过 Z-buffer (深度比较) 来确定的。

图 16: 视觉混合示意图。

混合过程确保机器人看起来像是真的处于原始照片中。混合图像 \(I'_t\) 的数学公式为:

公式 4: 基于深度的二值掩膜视觉混合公式。

这里,\(M_t\) 是一个二值掩膜。如果渲染深度 \(D_t\) 比背景深度 \(D_B\) 更靠近相机,则为 1 (显示渲染内容) ,否则为 0 (显示原始照片) 。这个简单但有效的技巧保持了原始场景逼真的光照和纹理,同时插入了动态的机器人。

实验与结果

作者对 RoLA 进行了严格的测试,以回答几个关键问题。单视图重建能与多视图竞争吗?我们可以从互联网图像中学习吗?

单视图 vs. 多视图

研究人员将 RoLA 与传统的多视图重建流程 (需要视频扫描) 进行了比较。他们发现,在 RoLA 的单图像环境中训练的策略达到了 72.2% 的成功率 , 与多视图方法的 75.5% 相当。这表明,对于许多操作任务来说,从各个角度扫描场景所需的巨大工作量可能并非必要。

表 1: 多视图重建与我们的单视图 RoLA 流程之间的策略成功率比较。

与基准的比较

RoLA 还与其他单图像方法如 ACDC (基于检索) 和 RoboEngine (基于增强) 进行了比较。RoLA 的表现明显优于它们。

图 17: 机器人数据生成的基准比较。RoLA (红线) 始终优于基准。

如上图所示,RoLA (红线) 在诸如将西兰花放入碗中或将胡萝卜放在炉子上等任务中实现了高成功率,而其他方法则难以泛化。

真实世界部署

最终的测试是将代码部署在物理机器人上。作者在 Franka Emika Panda 机器人和 Unitree 人形机器人上测试了 RoLA。

图 9: RoLA 生成数据 vs. Sim2Real 部署。模拟场景与真实执行的对比。

视觉混合在模拟 (上排) 和现实世界 (下排) 之间建立了强烈的对应关系。尽管在设置过程中只看到了一张静态场景图像,机器人仍成功执行了杂乱场景中的操作和倒水等任务。

从互联网学习

最令人兴奋的应用之一是从“自然场景”的互联网图像中学习。作者使用 RoLA 基于网上找到的随机苹果照片生成了摘苹果的演示。

图 5: 从互联网苹果图像中学习基于视觉的苹果抓取先验。

图 13: 从互联网图像学习的预训练-微调范式。

通过在这个多样化的互联网数据上进行预训练,机器人学会了“抓取先验”——即无论光照、大小或背景如何,都能理解如何抓取苹果。当在真实机器人上仅用少量示例进行微调时,带有互联网先验的系统在 50 次演示下达到了 80% 的成功率 , 而没有先验的系统仅为 30%

扩大规模: 视觉-语言-动作 (VLA) 模型

最后,作者证明了 RoLA 可以大规模生成数据。他们生成了超过 60,000 个演示来训练视觉-语言-动作模型 (类似于 RT-2 或 OpenVLA) 。

图 11: VLA 的训练曲线。动作 Token 准确率稳步上升。

该模型完全在 RoLA 生成的数据上训练,在模拟中表现出强大的泛化能力,能够成功遵循诸如“把青椒放在柠檬旁边”之类的语言指令。

表 3: 在 RoLA 生成数据上训练的 VLA 模型的模拟评估。

结论与意义

RoLA 代表了解决机器人数据瓶颈的重要一步。通过将“任意图像”转化为“机器人环境”,它为具身智能解锁了互联网上巨大的视觉资源。

该框架的核心创新——鲁棒的单视图场景恢复、物理感知放置以及基于 Z-buffer 的视觉混合——允许在无需昂贵硬件的情况下创建逼真的训练数据。虽然仍存在局限性 (例如物理模拟的保真度或单张图像中的遮挡问题) ,但能够从被动照片中生成无限训练数据的能力,预示着未来机器人可以在涉足现实世界之前就学会如何与之交互。

随着我们迈向通用机器人,像 RoLA 这样的工具很可能成为关键引擎,为这些系统提供在复杂、非结构化的现实世界中运行所需的大量、多样化的经验。