引言
想象一下,你正在教机器人抓取一个透明的玻璃壶。在无菌的实验室环境或计算机模拟中,这相对容易。光线完美,背景是纯色,物体的位置也精确已知。
现在,把这个机器人移到真正的厨房里。阳光透过窗户照射进来,投下移动的阴影。桌上铺着有图案的桌布。玻璃壶旁边放着一个亮蓝色的咖啡杯。突然间,机器人失灵了。它被杯子搞糊涂了,它无法正确“看见”透明玻璃,因为它的深度传感器在透明物体上很难工作,或者新的光照极大地改变了像素值,以至于机器人的神经网络认为它看到的是完全不同的场景。
这就是感知差距 (perceptual gap) ——当今机器人技术面临的最大障碍之一。视觉运动策略 (Visuomotor policies,即把机器人看到的东西映射到它如何移动的算法) 以脆弱著称。它们很难从仿真迁移到现实 (“Sim2Real”) ,也很难在训练数据之外进行泛化。
在这篇深入的文章中,我们将探讨华盛顿大学研究人员提出的一个迷人的解决方案: ATK (自动任务驱动关键点选择,Automatic Task-driven Keypoint Selection) 。 他们的深刻见解是?机器人不需要处理图像的每一个像素,也不需要僵化且难以计算的姿态估计。相反,它们应该专注于特定的、与当前任务相关的 2D 点——关键点 (keypoints) 。
但是,在一张图像中成千上万个潜在点中,哪些才是重要的?ATK 提出了一种方法,让机器人自己找出答案。
像素与姿态的问题
要理解为什么 ATK 是必要的,我们首先需要看看为什么现有的方法存在不足。
1. 像素的脆弱性
现代深度学习中最常见的方法是将整个 RGB 图像输入到卷积神经网络 (CNN) 或 Transformer 中。虽然功能强大,但这些模型往往会学习到无关紧要的相关性。它们可能会学到“带有木纹纹理的桌子 = 手臂向前移动”。如果你把桌子换成白色的,策略就会失效。这种鲁棒性的缺乏使得在混乱的现实世界中部署变得困难。
2. 姿态估计的僵化
另一种方法是显式计算物体的 6D 姿态 (位置和方向) 。这对像盒子这样的刚性物体很有效,但在许多场景下会失效:
- 可变形物体: 你如何定义一条皱巴巴的毛巾或毯子的“姿态”?
- 透明/反光物体: 深度传感器 (如 LiDAR 或 RealSense) 通常会直接穿透玻璃或在反光表面上反弹,导致数据充满噪声或缺失。
- 缩放问题: 你需要为你想要操作的每一个新物体设计特定的姿态估计器。
关键点的优势
关键点提供了一个“理想”的解决方案。关键点只是图像中的一个 2D 坐标 \((x, y)\),对应于场景中具有语义的部分 (例如,杯子的把手,布的一角) 。
关键点具有惊人的鲁棒性。得益于在大规模网络数据集上训练的计算机视觉的最新进展,即使物体移动、旋转或被部分遮挡,我们现在也能跟踪物体上的特定点。因为关键点不依赖于物体必须是刚性实体,所以它们非常适合像布料这样的可变形物体。
然而,使用关键点引入了一个新问题: 选择 。

如图 1 所示,不同的任务需要关注不同的事物。
- 挂毯子: 机器人需要跟踪织物的边缘。
- 平底锅注水: 机器人关心的是锅柄和炉灶燃烧器。
- 烤箱放葡萄: 焦点转移到了小葡萄和烤箱门上。
如果你简单地使用所有可能的关键点,你会用噪声淹没机器人。如果你随机选择它们,你可能会错过它需要抓取的把手。“最小集合”的关键点必须是任务驱动的 。
核心方法: 自动任务驱动关键点选择 (ATK)
研究人员提出了 ATK , 这是一个自动化选择过程的管道。目标是识别出一组对于特定任务的最佳行为具有预测性的最小关键点集。
这产生了一个“先有鸡还是先有蛋”的问题: 你需要正确的关键点来学习策略,但你需要最优策略来知道哪些关键点是重要的。ATK 通过蒸馏 (distillation) 同时学习这两者来解决这个问题。
架构
ATK 流程假设我们可以访问一个“专家”。这可以是一个模拟中的特权代理 (它知道关于世界的一切) ,或者是提供真实动作的人类演示者。

让我们分解图 2 中显示的流程:
- 候选生成: 系统从一张“典型图像 (Canonical Image) ”开始——即代表任务设置的单帧画面。它在这张图像上采样大量的候选关键点 (例如,均匀网格) 。
- 跟踪: 使用对应函数 (视觉跟踪器) ,这些候选点在所有专家演示视频中被跟踪。这创建了每个候选点随时间移动的历史记录。
- 掩码网络 (\(\mathbb{M}_{\phi}\)) : 这是选择器的大脑。它将跟踪到的候选点作为输入,并输出一个概率掩码。本质上,它给每个点打分: “保留”或“丢弃”。
- 策略网络 (\(\pi_{\theta}\)) : 被选中 (保留) 的关键点被传递给策略网络,该网络试图预测专家的动作 (例如,“将手臂移动到坐标 X, Y, Z”) 。
优化博弈
该系统使用特定的损失函数进行端到端训练,以平衡两个相互竞争的目标: 准确性和简洁性。

目标函数有两部分:
- 动作预测 (对数似然) : 第一项 (\(\log \pi...\)) 试图最大化采取专家动作的概率。这迫使模型保留包含关键信息的关键点。
- 稀疏惩罚 (\(\alpha ||...||_1\)) : 第二项惩罚模型使用过多的关键点。这迫使模型变得高效并丢弃不相关的背景点。
技术挑战: 对选择进行微分 选择一个关键点是一个二元决定 (是/否) 。标准的反向传播 (神经网络的学习方式) 无法处理离散的二元选择,因为它们不可微。为了解决这个问题,作者使用了 Gumbel-Softmax 松弛 。 这是一种数学技巧,允许网络在训练期间做出“软”决策 (允许梯度流动) ,同时逐渐收敛到硬性的二元选择。
推理: 现实世界的迁移
一旦模型训练完成,我们就拥有了一个学习到的“掩码”,它确切地告诉我们典型图像上的哪些点是重要的。

在测试时 (部署阶段) ,该过程非常高效 (见图 3 ):
- 迁移: 系统观察新场景,并使用视觉跟踪器找到训练期间确定的特定关键点。
- 跟踪: 随着机器人的移动,跟踪器更新这些特定关键点的位置。
- 动作: 策略仅接收这些 2D 坐标并输出电机指令。
因为策略只看到相关物品 (如把手或物体) 的坐标,它对光照、桌子纹理或不相关杂物的变化变得“视而不见”。
实验与结果
研究人员在两个困难的设置中评估了 ATK: 仿真到现实迁移 (Sim-to-Real Transfer) (在物理模拟器中训练并在真实机器人上测试) 和鲁棒模仿学习 (从人类演示中学习) 。
他们测试了各种任务,包括刚体、关节物体 (如时钟) 和可变形物体 (毛巾) ,如图 4 所示。

鲁棒性“严苛测试”
为了证明该方法的有效性,研究人员不仅仅是在干净的实验室里运行机器人。他们引入了显著的视觉干扰:
- RP: 随机物体姿态 (Random Object Poses) 。
- RB: 随机背景 (Randomized Backgrounds,交换纹理) 。
- RO: 随机干扰物体 (Random Distractor Objects,在桌子上扔玩具和垃圾) 。
- Light: 极端光照变化 (彩色迪斯科灯光、阴影) 。
结果 1: 仿真到现实迁移
在 Sim-to-Real 场景中,视觉差异通常是策略的致命伤。仿真图像看起来“完美”,而现实则是混乱的。

如图 5 所示,ATK (红色柱状图) 的成功率明显高于基于 RGB 图像、深度图或点云的策略。
- 寿司任务: ATK 达到了近 90% 的成功率 , 而 RGB 和深度基线在干扰下徘徊在 45% 以下或完全失败。
- 玻璃壶: 这是一个显著的胜利。深度传感器在透明玻璃上失效,但 ATK 的视觉关键点完美地跟踪了玻璃边缘,保持了高成功率。
结果 2: 鲁棒模仿学习
在模仿学习设置中,机器人从真实世界的演示中学习。这里的挑战是泛化。如果光线改变或者有人在桌子上放了一根香蕉,机器人还能折叠毛巾吗?

图 6 显示 ATK 再次优于基线。关键是,它将 ATK 与其他关键点策略进行了比较:
- FullSet (全集) : 使用所有关键点。这失败了,因为它包含太多噪声 (干扰物) 。
- RandomSelect (随机选择) : 随机选取点。这失败了,因为它经常错过关键的交互点。
- GPTSelect (GPT选择) : 他们甚至让 GPT-4 来挑选关键点!ATK 优于 GPT-4,因为大语言模型经常产生幻觉点,或者选择语义相关但视觉不稳定的特征 (见图组中的图 15 )。
定性分析: 它学到了什么?
最有说服力的证据来自观察模型决定跟踪什么。

在图 7 中,我们可以看到算法的逻辑:
- 对于玻璃壶 , 它忽略了背景,专注于壶口边缘和盖子把手。
- 对于时钟 , 它跟踪特定的按钮和时钟指针的尖端。
- 关键是,即使现实世界的场景中充斥着随机物体 (下排) ,跟踪器也能锁定正确的特征,忽略噪声。
高精度能力
研究人员还通过系鞋带任务挑战了极限——这是一个需要毫米级精度的问题。

如图 10 所示,将鞋带插入鞋带孔的容差非常小 (大约 1.7mm) 。ATK 成功识别了鞋带孔和鞋带头 (aglets) ,使策略即使在背景变化或存在干扰物的情况下也能执行这种精细的运动技能。这证明了关键点不仅适用于“粗大”的运动技能;它们也能处理高保真的操作。
结论与启示
ATK 论文提出了一个令人信服的观点: 少即是多。 通过剥离世界的视觉复杂性,仅关注解决任务所需的特定几何点,我们可以构建极其鲁棒的机器人策略。
主要收获:
- 任务驱动选择: 不存在“通用”的关键点集。挂毯子的机器人需要看的东西与煎蛋的机器人不同。任务必须主导视觉。
- 通过稀疏性实现鲁棒性: 通过强制模型选择最小的点集,ATK 自然地过滤掉了视觉干扰、光照变化和背景噪声。
- 跨越鸿沟: 关键点充当了仿真和现实之间的通用语言。“桌角”就是桌角,无论它是在 Unity 中渲染的,还是通过相机镜头看到的。
这项工作为机器人变得不再对环境那么“挑剔”铺平了道路。像 ATK 这样的方法可以使机器人在我们混乱、不断变化、无序的家中工作,而不是需要一个照明完美、井井有条的工厂车间——忽略杂乱,专注于真正重要的事情。
本博客文章总结了华盛顿大学 Yunchu Zhang 等人的研究论文 “ATK: Automatic Task-driven Keypoint Selection for Robust Policy Learning”。
](https://deep-paper.org/en/paper/2506.13867/images/cover.png)