引言
想象一下,你正在教机器人捡起一个咖啡杯。你握着机器人的手,抓起杯子,然后把它放在杯垫上。机器人记录下了这一动作以及相机拍摄的视频画面。你运行这个策略,它工作得很完美。但是,如果你把杯子向左移动三英寸,或者稍微旋转一下机器人的底座,机器人突然就开始乱动,抓空了杯子,甚至撞到了桌子上。
这就是视觉运动策略 (visuomotor policies) 的脆弱性——这种系统将视觉输入直接映射到电机动作。虽然它们非常强大,但却深受严重的“分布外” (Out-of-Distribution, OOD) 问题困扰。如果机器人遇到的视觉场景或起始位置是训练中未曾明确见过的,它往往会遭遇灾难性的失败。
为了解决这个问题,研究人员通常采用“暴力”方法: 收集数百甚至数千次人类演示,涵盖每一个可能的角度和位置。这既枯燥又昂贵,而且难以扩展。
但是,如果一次演示可以通过数学方法扩展成数千个有效的、多样化的训练样本呢?
这就是 1001 DEMOS 的核心前提,这篇新论文介绍了一种用于*动作-视图增强 (Action-View Augmentation) *的框架。通过结合新视图合成 (使用高斯泼溅技术,Gaussian Splatting) 与轨迹优化,研究人员开发了一种方法,可以将一次真实世界的演示生成数千种逼真的变体——甚至包括原始场景中不存在的障碍物场景。

在这篇文章中,我们将深入探讨该系统的工作原理、轨迹生成背后的数学原理,以及它是如何让机器人以极少的人力投入学习到鲁棒行为的。
背景: 机器人技术中的数据瓶颈
要理解这篇论文的重要性,我们首先需要看看目前是如何训练机器人的。主导的范式是模仿学习 (Imitation Learning) , 即机器人克隆专家 (人类) 的行为。
在计算机视觉领域 (例如,对猫和狗的图像进行分类) ,数据增强是一种标准做法。如果你没有足够的猫的照片,你可以旋转现有的照片、裁剪它们或改变颜色。旋转后的猫仍然是猫。
然而,在机器人技术中,这种方法行不通。如果你旋转机器人看到的图像,你必须同时在数学上调整动作 (机械臂的运动) 以匹配新的视角。如果你只是旋转图像但告诉机器人像原来那样移动,你实际上是在教它产生幻觉并撞毁自己。
动作-视图一致性的挑战
这就带来了双重挑战:
- 视觉一致性: 你需要生成从新摄像机角度看去逼真的新图像。
- 物理一致性: 你需要生成一条对新角度有意义的新轨迹 (路径) ,确保机器人不会与物体发生碰撞。
之前的工作试图解决这个问题。有些在状态中注入噪声,有些利用模拟器生成数据。然而,生成逼真的视觉数据 (图像) 并伴随物理上有效的动作数据 (轨迹) 仍然是一个巨大的障碍,特别是对于“眼在手上” (eye-in-hand) 的相机 (安装在机器人手腕上的相机) ,因为相机随机器人的移动而移动。
核心方法: 1001 DEMOS
研究人员提出了一套流程,该流程利用场景的单次扫描和单次演示视频,输出数千个增强后的片段。该框架由三个不同的阶段组成: 重建 (Reconstruction) 、动作生成 (Action Generation) 和视图渲染 (View Rendering) 。

如上图 2 所示,该过程始于一轮扫描以绘制环境地图,随后是实际的任务演示。让我们分解每个步骤中的技术创新。
1. 观察世界: 鱼眼 3D 高斯泼溅 (Fisheye 3D Gaussian Splatting)
第一步是创建环境的数字孪生。研究人员使用了一种称为 3D 高斯泼溅 (3DGS) 的技术。与传统的基于网格的 3D 模型 (使用三角形) 或 NeRFs (使用神经网络估计密度) 不同,3DGS 将场景表示为 3D 高斯 (椭球体) 云。每个高斯都有位置、旋转、缩放、不透明度和颜色。
3DGS 因其速度而受到青睐——它可以实时渲染新视图。然而,标准的 3DGS 假设了一个“针孔相机”模型——即完美的直线透镜。本研究中使用的机器人 (以及许多现实世界的机器人) 使用鱼眼镜头来获得宽视野。
鱼眼镜头会将直线扭曲成曲线。如果你尝试使用标准 3DGS 渲染鱼眼图像,几何结构就会崩溃。
鱼眼射线采样器 (The Fisheye Ray Sampler)
为了解决这个问题,作者引入了鱼眼射线采样器 。
在标准渲染器中,射线以直线网格的形式穿过像素。在这个修改版本中,每个像素 \((u, v)\) 的射线方向是基于鱼眼镜头的特定畸变模型计算的。

如图 3 所示,采样密度不是均匀的。系统将鱼眼射线投影回针孔坐标系,以便将它们与 3D 高斯关联起来。这使得系统能够利用标准 3DGS 高度优化的 CUDA 光栅化内核,同时正确处理广角镜头的严重畸变。
结果是产生了一个可以从任何角度观看的场景 3D 表示,并以机器人相机所期望的正确鱼眼畸变进行渲染。
2. 规划动作: 轨迹优化
既然我们有了 3D 场景,我们可以模拟“如果……会怎样”的场景。如果机器人向左偏离 10 厘米开始会怎样?如果相机向下倾斜 20 度会怎样?
我们不能简单地对旧轨迹进行插值。线性插值可能会让机械臂穿过桌子。我们需要生成一条新路径,它是:
- 平滑的: 没有抖动的动作。
- 无碰撞的: 必须尊重场景几何结构。
- 目标导向的: 必须最终到达正确的位置以抓取物体。
研究人员将其建模为一个轨迹优化 (Trajectory Optimization) 问题。他们求解一系列姿态 \(x\),以最小化特定的成本函数。

让我们剖析这个方程 (如上图所示) 以理解其逻辑:
- \(\mathcal{L}_{funnel}\) (漏斗损失): 这确保新轨迹收敛到原始的接触前姿态。它就像一个漏斗,强制机器人像专家在抓取物体之前那样与物体对齐。这保留了操作中微妙的接触动力学。
- \(\mathcal{L}_{collision}\) (碰撞损失): 这使用了场景的截断符号距离函数 (TSDF)。它惩罚机器人与环境 (桌子、架子等) 相交的任何姿态。
- \(\mathcal{L}_{render}\) (渲染损失): 这是一个巧妙的添加。它限制新轨迹保持在与原始数据“接近”的视点内。这防止相机移动到 3DGS 重建效果差 (有浮空伪影或模糊区域) 的角度,确保生成的图像看起来逼真。
- \(\mathcal{L}_{smooth}\) (平滑度): 这惩罚速度的急剧变化,确保运动流畅。
- 约束条件: 轨迹 \(X\) 与障碍物点云的交集必须为空 (\(\emptyset\))。
带有障碍物的增强
这个框架最强大的功能之一是能够插入虚拟障碍物 。
研究人员获取随机物体 (来自 Objaverse 数据集) 的 3D 扫描,并将其数字化插入到 3D 场景中。然后,他们运行轨迹优化,增加了一个约束条件: 机器人不得撞到这个新物体。

图 4 生动地展示了这一功能。
- 顶行: 原始的人类演示。
- 中间行: 如果没有优化会发生什么——机器人 (或增强的路径) 会简单地穿过障碍物。
- 底行: 生成的避障轨迹。优化器使路径弯曲以绕过虚拟物体。
至关重要的是,因为 3DGS 系统可以将这个虚拟物体渲染到视频流中,机器人接收到了一个完美配对的训练样本: 一张显示障碍物的图像,以及一条避开它的轨迹。
3. 渲染视图
最后一步是绑定动作和视图。
- 自由空间生成: 系统在自由空间中采样一个新的起始姿态,优化一条通往物体的路径,并使用静态场景的鱼眼 3DGS 渲染视频帧。
- 障碍物场景生成: 系统将场景的 3DGS 与新物体的 3DGS 合并。它规划一条绕过物体的路径并渲染复合场景。
为了确保机器人的手看起来正确,系统使用分割技术 (SAM2) 从原始素材中分离出夹爪,并将其覆盖在渲染的帧上,或者如果有可用模型,则直接渲染夹爪。
实验与结果
理论听起来很可靠,但在实践中效果如何?作者在 RoboMimic 模拟器和使用 UMI (通用操作接口) 夹爪的真实世界实验中验证了 1001 DEMOS。
模拟实验: 击败基线
在 RoboMimic 的“square”任务 (拿起一个方形螺母并将其放在杆上) 中,研究人员将他们的方法与几个基线进行了比较,包括“Aug Action Only” (仅扰动动作但不扰动图像) 和 SPARTN (一种先前的基于 NeRF 的方法) 。

图 5(b) (上图) 中的图表揭示了性能差距。
- 蓝线 (Ours): 1001 DEMOS 始终优于基线。即使只有 50 次演示,它的成功率也与使用更多数据的基线相当。
- 绿线 (GT Rendering): 这代表了“完美”的上限,即图像是由模拟器 (真值) 渲染的,而不是 3DGS。蓝线紧贴绿线的事实证明,鱼眼 3DGS 的渲染质量足以训练有效的策略。
真实世界实验: 端杯任务
真正的测试是在物理机器人上进行的。任务是拿起一个杯子并将其放在盘子上。机器人的训练演示全都是“直立”且“无障碍”的。
在测试期间,研究人员将机器人置于分布外 (OOD) 的起始位置,并引入了机器人在训练期间从未见过的物理障碍物 (瓶子、盒子) 。
图 6 (上图) 中的结果令人震惊:
- No Aug (原始策略): 在 OOD 视图上失败率很高,并且当存在障碍物时完全失败 (0-5% 成功率) 。
- FreeSpace Aug: 提高了新视点的性能,但仍然难以应对障碍物。
- Obstacle Aug (Ours): 在展示的障碍物测试用例中实现了 100% 的成功率 。
通过在幻觉障碍物上进行训练,机器人学到了通用的“避障”概念,并能迁移到真实的物理障碍物上。
压力测试: 具有挑战性的障碍物
研究人员并没有止步于简单的瓶子。他们针对一组“具有挑战性的障碍物”测试了该策略,包括大盒子、书架和复杂的几何形状。


如上表所示,差异是天壤之别。如果没有特定的障碍物增强,机器人在这些杂乱的环境中成功的几率为零。使用 1001 DEMOS,它保持了 100% 的完成率。
多少增强才算过头?
这项技术有限度吗?我们可以渲染任何位置的视图吗?
作者通过改变“旋转边界” (新起始相机姿态偏离原始演示的程度) 来研究这一点。

图 A1 展示了一个经典的权衡。
- 低旋转 (\(20^\circ\)): 渲染质量高 (易于重建) ,但数据多样性低。机器人学不到足够的空间不变性。
- 高旋转 (\(60^\circ\)): 多样性高,但渲染质量下降。相机从 3DGS 模型无法良好重建的角度观看,导致出现混淆策略的伪影。
- 最佳点: 实验发现 \(50^\circ\) 提供了最佳平衡,最大化了成功率。
结论与启示
“1001 DEMOS” 框架代表了数据高效机器人学习向前迈出的重要一步。通过有效地充当基于现实的生成式模拟器 , 它允许研究人员从每一分钟的数据收集工作中榨取指数级更多的效用。
主要收获如下:
- 几何至关重要: 如果不尊重 3D 几何和碰撞,就无法增强机器人数据。
- 鱼眼适配: 标准的计算机视觉工具 (如 3DGS) 通常需要修改才能与机器人技术中使用的特定硬件 (鱼眼镜头) 配合使用。
- 合成技能: 我们可以通过生成强制这些行为出现的合成场景,教给机器人从未明确展示过的技能 (如避障) 。
虽然该方法目前依赖于静态场景 (在机器人接触物体之前或之后进行增强) ,但它为未来的工作通过了道路,即动态交互也可以被模拟和增强。对于机器人技术的学生和研究人员来说,这凸显了将神经渲染 (3DGS/NeRF) 与最优控制 (轨迹优化) 相结合以解决现代 AI 数据饥渴问题的重要性。
](https://deep-paper.org/en/paper/130_one_demo_is_worth_a_thousa-2522/images/cover.png)