想象一下教机器人打开橱柜。你抓住机器人的手臂,引导它握住把手,然后沿着特定的弧线拉开门。机器人记录下了这个动作。很好。但如果你要求机器人去打开一个不同的橱柜呢?比如一个稍微大一点的,或者放置角度略有不同的橱柜?
对于人类来说,这是微不足道的小事。我们理解底层的力学原理: “我需要绕着铰链旋转门。”然而,对于机器人来说,这却是一个著名的难题。大多数机器人学习算法只是死记硬背了你演示的具体坐标。如果环境发生了变化,机器人会试图在绝对空间中执行完全相同的路径——这通常导致它抓了个空,或者直接撞上门。
为了解决这个问题,机器人需要理解任务的“隐藏结构”。它需要知道运动是相对于物体的某个特定部分 (如铰链或把手) 定义的,而不是相对于地板。
在耶鲁大学研究人员最近发表的一篇题为 “TReF-6: Inferring Task-Relevant Frames from a Single Demonstration for One-Shot Skill Generalization” (TReF-6: 从单次演示推断任务相关坐标系以实现单样本技能泛化) 的论文中,他们提出了一个新的框架,允许机器人仅通过一次演示就能提取出这种隐藏结构。通过结合运动几何分析与现代视觉语言模型,TReF-6 使机器人能够即时将技能泛化到新的物体和位置上。

挑战: 从有限数据中泛化
这里的核心问题是 单样本模仿学习 (One-Shot Imitation Learning) 。 我们希望机器人能从一个例子中学会一项任务,并将其应用于它从未见过的“分布外” (Out-of-Distribution, OOD) 场景。
传统方法,如 动态运动基元 (Dynamic Movement Primitives, DMPs) , 非常擅长编码稳定的轨迹。DMP 本质上就像一个弹簧阻尼系统,将机器人拉向目标。然而,标准的 DMP 在空间上是僵化的。如果你训练一个 DMP 在位置 \((x, y)\) 打开一扇门,它将总是试图在 \((x, y)\) 处开门,而不管门实际在哪里。
为了解决这个问题,我们通常使用 任务相关坐标系 (Task-Relevant Frames) 。 我们不再定义相对于世界原点的运动,而是定义相对于附着在物体上的局部坐标系 (例如,以门把手为中心的坐标系) 的运动。挑战在于: 我们如何自动找到这个坐标系?
以前的方法需要:
- 多次演示 , 以便通过统计推断场景中哪些部分是重要的。
- 预定义的物体模型 (CAD 文件) ,以便知道把手或铰链在哪里。
- 人工标签 , 明确告诉机器人“这就是铰链”。
TReF-6 (Task-Relevant Frame, 6-DoF) 消除了这些要求。它从 轨迹本身的几何形状 中推断出坐标系。
核心直觉: 运动揭示结构
研究人员的关键洞察是,人类演示的 形状 揭示了任务的约束条件。
想一想开门这个动作。你不是沿直线拉门,而是沿弧线拉。为什么?因为门受到铰链的约束。即使铰链不可见,你手部路径的 曲率 也指向它。同样,如果你在擦拭污渍,你的手会对表面施加力。
TReF-6 基于这样一个假设: 对于每个任务,空间中都存在一个潜在的 “影响点” (\(p\)) 支配着运动。如果我们能通过数学方法找到这个点,就可以将其用作新坐标系的原点。
第 1 步: 推断影响点
我们如何找到这个不可见的点?作者定义了一个 方向一致性评分 (Directional Consistency Score) 。
这个想法借鉴了物理学。如果一个物体绕着一点旋转 (像钟摆一样) ,它的加速度向量会指向那个旋转中心。因此,算法会在 3D 空间中寻找一个点 \(p\),使得沿轨迹的加速度向量 (\(\ddot{x}_t\)) 始终指向 (或关联于) \(p\)。
评分 \(\mathcal{S}(p)\) 定义为:

这个公式告诉我们:
- 我们遍历时间步 \(t=1\) 到 \(T\)。
- 我们观察从当前轨迹位置 \(x_t\) 指向候选点 \(p\) 的单位向量。
- 我们将此方向与实际加速度 \(\ddot{x}_t\) 进行比较。
- 我们要最小化差异 (最大化负差异) 。
得分越高,意味着点 \(p\) 能越好地解释轨迹的“牵引力”。研究人员发现,这种特定的公式具有鲁棒性,因为它关注的是 方向一致性 而不仅仅是大小,因为在人类演示中,力的大小可能会剧烈变化。
求解优化问题
找到最佳点 \(p^*\) 并不简单。这个分数的“景观”是非凸的,这意味着它有许多虚假的峰值 (局部最优解) 和平坦区域,算法很容易陷入其中。

为了解决这个问题,作者使用了一种巧妙的初始化策略。他们不是随机开始搜索,而是查看轨迹中加速度最大的时刻。为什么?因为高加速度通常发生在约束最强的时候 (例如,当你猛拉门的那一刻) 。他们在这些高能量点附近初始化搜索。

如上图所示,结构化初始化 (右图) 允许优化器找到真实的影响点 (黄色星号) ,而随机初始化 (左图) 通常会卡在平坦区域。
第 2 步: 语义锚定
数学优化给了我们一个 3D 空间中的点 (\(x, y, z\)) 。然而,仅有一个原始坐标是不够的。在一个新场景中,该坐标可能位于墙内或悬浮在空中。我们需要将这个数学点锚定到一个 物理物体 上。
这就是 视觉语言模型 (VLMs) 发挥作用的地方。TReF-6 使用了一个两阶段过程:
- 任务识别: 系统将轨迹覆盖在场景图像上,并询问 VLM (如 GPT-4o) : “这里正在发生什么任务?” (例如,“打开橱柜”) 。
- 特征定位: 然后,它将数学推断出的“影响点”投影到图像上,并询问: “这个位置有什么具体的视觉特征?” (例如,“橱柜把手”) 。
一旦通过文本确定了具体特征, Grounded-SAM (Segment Anything Model) 就会被用来创建该物体的分割掩码。
第 3 步: 提取 6-DoF 坐标系
现在机器人已经识别出了具体的物体部分 (把手) 。要构建一个完整的 6-DoF (六自由度) 坐标系,我们需要原点和方向 (x, y, z 轴) 。
- 原点: 物体表面上经过修正的影响点。
- Z 轴: 表面法线 (垂直于物体) 。
- 方向: 由交互方向 (机器人抓取物体的位置) 定义。

在上图中,你可以看到整个流程: 从原始轨迹,到估计点,再到语义标签 (“小金属门把手”) ,最后是构建的坐标轴 (\(x, y, z\)) 。
第 4 步: DMP 重参数化
最后,原始演示经过数学变换。机器人不再记住“将手移动到世界坐标 (10, 5, 2)”,而是记住“相对于影响坐标系移动手”。
轨迹位置 (\(x_t\)) 和方向 (\(q_t\)) 被转换为局部坐标系:

当机器人遇到一个 新 环境时,它会重复这个过程: 找到语义物体 (使用 VLM) ,建立新坐标系,并相对于该新坐标系执行学习到的 DMP。
实验验证
这真的有效吗?研究人员在仿真和现实世界中测试了 TReF-6。
仿真: 对噪声的鲁棒性
现实世界的演示是混乱的。人类会颤抖,传感器会有噪声。研究人员模拟了具有不同噪声水平的轨迹,看看 TReF-6 是否仍能找到正确的影响点。
他们将自己的 方向一致性评分 与其他方法进行了比较,例如逆动力学三角测量法 (一种基于物理的方法) 和余弦相似度。

结果 (图 3) 显示,即使噪声增加到 50% 或 80%,TReF-6 (蓝色柱) 仍保持极低的误差 (MEDE) 。其他方法,特别是余弦相似度 (橙色) ,一旦数据不完美,效果就会急剧下降。这证明了 TReF-6 的优化目标特别适合充满噪声的现实世界数据。
现实世界任务
团队在 Kinova Gen3 机器人上部署了该系统,完成了三项不同的任务:
- 孔中投钉 (Peg-in-hole Dropping) : 将钩子挂在杆上。
- 打开橱柜门: 与铰链机构交互。
- 表面擦拭: 沿平面施力。
对于每项任务,机器人只获得 一次 演示。然后在新的设置中进行测试,物体被移动、旋转,或换成不同的颜色/形状。

结果对比基线
研究人员将 TReF-6 与“特权基线 DMP”进行了比较。“特权”意味着基线获得了额外的帮助——它被明确告知了物体的位置 (真实值) 。而 TReF-6 必须仅凭其视觉系统自行解决。
即使在这种劣势下,TReF-6 在技能泛化方面也显著优于基线。

如图 4 所示,观察“Exec” (执行成功率) ,TReF-6 (橙色) 明显优于基线 (灰色) 。
- 开门: 基线经常失败,因为它试图执行固定的弧线。如果门被旋转了,弧线就无法与铰链匹配,夹爪就会滑脱或卡住。TReF-6 识别出了门的朝向,并相应地调整了弧线的参考坐标系。
- 擦拭: 当表面倾斜时,基线 DMP 与板失去接触。TReF-6 检测到了新的表面法线,并倾斜擦拭动作以进行匹配。
分析成功与失败
TReF-6 的有效性在很大程度上依赖于“为什么”。在孔中投钉任务中,TReF-6 正确推断出运动需要相对于杆的 顶部 进行。

在上图中,基线 DMP (b) 失败了,因为新的杆更短。它移动到了原始高度,错过了挂钩。TReF-6 则相对于检测到的杆调整了投放高度。
然而,该系统并不完美。它依赖于 VLM 和深度传感器。如果视觉系统误解了场景 (例如,由于反光或极端角度) ,推断出的坐标系就会出错。

在上面的失败案例 (右图) 中,深度传感器的噪声导致估计的表面法线 (Z 轴) 发生偏斜。结果,机器人试图以奇怪的角度拉开门,导致失败。这凸显了虽然 TReF-6 的 逻辑 是合理的,但它最终受限于机器人感知硬件的质量。
结论
TReF-6 代表了 单样本模仿学习 向前迈出的重要一步。它架起了低级运动数据与高级语义理解之间的桥梁。
通过观察演示的“物理特性” (加速度和曲率) ,它找到了 几何影响点 。 通过使用 VLM,它赋予了该点 语义含义 。 这种结合使机器人能够摆脱单次演示的僵化坐标,理解任务的 意图——无论是绕铰链旋转还是沿表面滑动。
随着视觉模型的不断改进,像 TReF-6 这样的框架将变得更加可靠,让我们离只需演示一次就能教机器人做新家务的未来更近一步。
](https://deep-paper.org/en/paper/2509.00310/images/cover.png)