引言
在机器人领域,我们经常惊叹于机器人完成后空翻或跳舞的视频。但是,如果你要求机器人协调双手将一双鞋子整齐地放入鞋盒中,你可能会看到它陷入挣扎。
双臂协调是机器人操作的下一个前沿领域。虽然单臂任务 (如抓取和放置物体) 已经取得了巨大的成功,但双臂 (bimanual) 操作引入了指数级的复杂性。双臂必须避免相互碰撞,协调交接,并处理对于单个抓手来说过大或笨拙的物体。
解决这一问题的最大瓶颈不仅仅是更好的机械硬件,而是数据 。 训练机器人通常需要数千次专家演示。通过遥操作 (人类远程控制机器人) 在现实世界中收集这些数据既缓慢、昂贵又乏味。反之,传统的模拟往往无法捕捉到现实世界的多样性和“混乱”,导致出现“虚实迁移 (Sim-to-Real) ”差距,即机器人在代码中运行完美,但在现实中却失败了。
RoboTwin 应运而生。
在一篇新论文中,研究人员介绍了一个利用现代生成式 AI——特别是 3D 基础模型和大型语言模型 (LLMs) ——的力量来解决数据稀缺问题的框架。通过创建“生成式数字孪生 (Generative Digital Twin) ”,他们可以从单张 2D 图像合成多样化、逼真的训练数据。

如图 1 所示,RoboTwin 在现实和数字世界之间架起了一座桥梁,允许机器人从成千上万个与现实在数学上对齐的模拟场景中学习。在这篇文章中,我们将剖析 RoboTwin 的工作原理,它生成专家数据的巧妙方法,以及它在现实世界基准测试中取得的令人印象深刻的成果。
问题所在: 数据瓶颈
要理解为什么需要 RoboTwin,我们首先需要看看目前是如何训练机器人的。黄金标准一直是模仿学习 (Imitation Learning) , 即机器人观察人类完成一项任务并试图复制该策略。
然而,人工成本很高。收集足够的数据来覆盖瓶子的每种可能形状或锤子的每种可能起始位置是不切实际的。研究人员曾尝试在模拟中使用算法生成器,但这些通常是死板的。它们需要为每个新任务手动编写特定的规则,难以扩展。
RoboTwin 提出了一种不同的方法: 自动化的虚实迁移 (Automated Real-to-Sim Transfer) 。 既然 AI 可以做到,为什么还要手动设计 3D 资产和编写轨迹代码呢?
RoboTwin 框架
RoboTwin 管道是将不同的 AI 技术串联在一起的大师级杰作。它主要分三个阶段运行: 生成数字资产、对其进行空间标注,以及生成专家动作代码。

1. 生成多样化的数字资产
该过程始于一张来自现实世界的物体 RGB 图像 (见图 2) 。目标是创建一个在外观和行为上都像这个真实物体的 3D 模拟资产。
- 描述与变体: 系统使用 GPT-4V (一种视觉-语言模型) 来分析图像并生成文本描述。然后,它重写此描述以创建变体。例如,如果图像是可口可乐瓶,系统可能会生成雪碧瓶或水瓶的描述。
- 2D 转 3D: 这些描述被输入到 SDXL-Turbo (一种扩散模型) 中以生成多样化的 2D 图像。最后,一个 3D 生成基础模型 (具体为 Rodin) 将这些 2D 图像转换为具有纹理和表面法线的高保真 3D 网格。
- 物理属性: 系统甚至会估算物理材质属性 (如摩擦力和质量) ,以确保物体在物理引擎中进行真实的交互。
这意味着,仅凭一张锤子的照片,系统就可以生成数十个具有不同手柄形状、纹理和尺寸的 3D 锤子。
2. 空间标注框架
如果机器人不知道如何握持物体,那么 3D 模型对它来说就是没用的。它是抓手柄还是抓锤头?锤子应该朝哪个方向击打钉子?
RoboTwin 引入了一个空间标注框架 (Spatial Annotation Framework) 。 研究人员没有手动标记每一个生成的物体,而是使用了一种特征匹配技术。他们标注一个“锚点”物体,系统利用来自 Stable Diffusion 的特征提取器自动将这些标注迁移到所有生成的变体上。

如图 3 可视化所示,系统识别特定的向量和点:
- 功能作用点 (Point for Function) : 工具进行工作的部位 (例如,锤子的锤面) 。
- 接触点 (Point for Contact) : 机器人应该抓取的位置。
- 功能轴 (Function Axis) : 动作的方向 (例如,挥动方向) 。
- 接近轴 (Approach Axis) : 抓手应该从哪个方向接近以避免碰撞。
这种结构化数据将一个“哑”的 3D 网格变成了一个算法可以进行推理的、具有语义理解的工具。
3. LLM 驱动的专家数据生成
既然我们有了环境和物体,我们需要机器人实际执行任务来生成训练数据。传统上,人类会在模拟器中通过操纵杆控制机器人。RoboTwin 使用大型语言模型 (LLMs) 将这一过程自动化。
研究人员将移动机器人的任务视为一个编程问题。他们向 LLM (如 GPT-4) 提供任务描述 (例如,“拿起锤子击打方块”) 以及在上一步中得出的空间标注。
LLM 将任务分解为子任务 (抓取 -> 接近 -> 击打) ,并编写 Python 代码来执行它们。这不仅仅是简单的“移动到 X”的代码;它涉及复杂的优化。

生成的代码解决了如上所示的优化问题。它在满足以下条件的情况下最小化成本函数 \(J(\theta(t))\):
- 运动学 (Kinematics) : 机器人创建一个有效的关节运动链。
- 对齐 (Alignment) : 末端执行器与物体的标注轴对齐。
- 避障 (Collision Avoidance) : 轨迹 \(\theta(t)\) 必须保持在无碰撞空间 \(\mathcal{C}\) 内。
因为 LLM 通过标注步骤理解了“接近轴”和“侧向轴”,它可以编写出有效避免碰撞的代码——这对于双臂经常交叉路径的双臂设置来说是一个关键要求。

图 6 显示了这种代码生成的成功率。虽然并不完美,但足以生成大量成功的演示数据。如果代码失败,错误会反馈给 LLM,LLM 会进行“自我调试”并重试。
基准与平台
为了验证这一框架,作者使用 Cobot Magic 平台建立了一个标准基准。这是一个配备了双臂和多个 RGB-D 相机的移动机器人。

该基准测试包括 15 个旨在测试协调性的多样化任务。这些不仅仅是简单的拾取和放置工作;它们包括:
- 交接 (Handover) : 将物体从左手传递到右手。
- 放置双鞋 (Dual Shoes Place) : 将一双鞋子放入盒子中 (需要紧密包装) 。
- 挂杯子 (Mug Hanging) : 小心地将杯柄滑到架子上。

图 7 展示了其复杂性。注意像“扫方块 (Block Sweep) ”这样的任务,机器人必须使用工具来操纵其他物体,或者像“双瓶拾取 (Dual Bottles Pick) ”,这需要同时进行协调运动。
实验与结果
该论文的核心假设是,在 RoboTwin 合成数据上进行预训练并用少量现实世界数据进行微调的策略,将优于仅在现实世界数据上训练的策略。
研究人员比较了两种最先进的模仿学习算法:
- DP (Diffusion Policy,扩散策略): 以 2D 图像作为输入。
- DP3 (3D Diffusion Policy,3D 扩散策略): 以 3D 点云作为输入。
模拟结果

表 1 显示了模拟中的成功率。这里的一个关键结论是算法的可扩展性。虽然 DP3 在少样本学习 (仅从 20 个演示中学习) 方面表现出色,但当提供 RoboTwin 可以生成的大量数据时,标准 DP 算法的扩展性更好。
现实世界验证 (虚实迁移)
真正的考验在于现实世界。研究人员建立了一个“虚实 (Real-to-Sim) ”管道,他们:
- 在 300 个 RoboTwin 生成的模拟回合上预训练策略。
- 仅用 20 个现实世界的遥操作回合对其进行微调。
- 将其与仅在 20 个现实世界回合上训练的基准进行比较。

现实场景和模拟场景之间的视觉保真度非常惊人 (见图 8) 。这种紧密的对齐使得机器人能够有效地迁移其学到的技能。
发现
结果意义重大。如图像组中的图表所示 (图像组中的图 7,作为扩展比较引用) ,添加模拟数据显著提升了性能。

注意: 上图包含表 1 和扩展图表。
表 2 和表 3 详细列出了具体的现实世界成功率:
- 单臂任务: 成功率从 1.2% (仅使用 20 个真实样本) 跃升至 72% (使用 Sim + Real) 。这是一个巨大的提升,表明机器人在模拟器中学会了基本的机械原理。
- 双臂任务: 成功率从 20% 提高到 62% 。 虽然双臂协调仍然困难,但预训练提供了 40% 的可靠性提升。

数据清楚地表明,对于像“放置容器”或“捡瓶子”这样的复杂任务,合成数据充当了有效的“辅助轮”,让机器人在接触现实世界之前就对任务有了很强的先验理解。
结论
RoboTwin 代表了机器人学习向前迈出的重要一步。它通过合成自己的养分解决了现代 AI 的“数据饥渴”问题。
通过结合生成式 AI 的创造力 (以制作多样化的资产) 和 LLM 的推理能力 (以创建专家动作) ,RoboTwin 创造了一个既可扩展又逼真的训练场。结果表明,我们并不总是需要数千小时的人力来训练机器人;有时,我们只需要一个数字孪生和一点想象力。
尽管挑战依然存在——特别是在成功率仍低于 70% 的高度复杂的双臂协调方面——像 RoboTwin 这样的框架正在为通用机器人的发展铺平道路,使它们能够以最少的人类指令适应我们混乱、多样化的世界。
](https://deep-paper.org/en/paper/2504.13059/images/cover.png)