简介
想象一下,你正在教一个机器人擦桌子。你花了几个小时向它演示如何拿起一支钢笔并将其放入杯子中。你一直训练它,直到它能完美地执行这个动作。然后,你递给机器人一支铅笔。对你来说,这项任务是完全一样的: 铅笔也是长条形、细长且坚硬的,就像钢笔一样。你直觉地理解铅笔在“功能上类似”于钢笔。
然而,对机器人来说,这是一场噩梦。铅笔是黄色的,不是蓝色的。它的纹理不同。像素值也不同。在模仿学习的世界里,这就是一个分布外 (Out-of-Distribution, OOD) 场景。尽管任务在概念上是相同的,但机器人的策略往往会灾难性地失败,因为视觉输入与它的训练数据不匹配。
这是机器人学习中最顽固的障碍之一。虽然我们在大规模计算机视觉和语言模型方面看到了巨大的成功,但机器人数据集的规模仍然相对较小且收集成本高昂。我们无法现实地演示机器人在现实世界中可能遇到的每一个物体。
在这篇文章中,我们将深入探讨一篇题为 “Adapting by Analogy: OOD Generalization of Visuomotor Policies via Functional Correspondence” (通过类比适应: 基于功能对应的视觉运动策略 OOD 泛化) 的论文。研究人员提出了一种新颖的方法,允许机器人在无需重新训练的情况下处理新物体和环境。机器人不再需要收集新数据,而是在人类提示的引导下,学会“想象”这个新的 OOD 物体实际上是一个熟悉的分布内 (ID) 物体。

如图 1 所示,核心思想简单而强大: 如果机器人知道如何处理钢笔,并且我们告诉它铅笔对应于钢笔,它就应该能够将该行为直接迁移到新物体上。
挑战: 为什么泛化很难
标准的端到端视觉运动策略 (如扩散策略) 直接将像素映射到动作。它们非常擅长模仿之前见过的行为。然而,当环境发生变化时,它们的可靠性就会下降。
通常,处理 OOD 场景有两种方法:
- 扩大数据规模: 收集涵盖所有可能物体的数百万次演示。 (太昂贵) 。
- 交互式模仿学习: 当机器人失败时,人类介入,提供新的演示,然后重新训练机器人。 (耗时且计算量大) 。
这篇论文背后的研究人员认为,我们并不总是需要新的演示。通常,机器人已经知道成功所需的物理动作。它只是没有意识到当前的情况需要那个特定的已知动作。失败不在于动作空间;而在于对任务功能本质的识别。
解决方案: 类比适应 (ABA)
提出的方法, 类比适应 (Adapting by Analogy, ABA) , 是一种测试时干预策略。它不改变神经网络的权重。相反,它改变网络看到的输入。
当机器人遇到奇怪的东西 (OOD) 时,它会向人类专家询问一个高层次的“类比” (例如,“铅笔的功能像钢笔”) 。然后系统会在其记忆 (训练数据集) 中搜索与当前所见在功能上相似的图像。接着,它将那些熟悉的训练图像的嵌入 (embeddings) 输入到策略中,而不是输入令人困惑的 OOD 图像。
实际上,机器人欺骗自己,让它以为自己看到的是钢笔,从而允许它对铅笔执行完美的拾取动作。
ABA 流程
该方法在部署期间通过一个四阶段循环运行:
- 检测 (Detect): 检查当前的观察结果是否为 OOD。
- 检索 (Retrieve): 如果是 OOD,使用人类反馈从训练集中检索功能对应的图像。
- 优化 (Refine): 检查检索到的图像是否暗示了一致的行为。如果机器人感到困惑 (高熵) ,则向人类寻求澄清。
- 干预 (Intervene): 用检索到的 ID 观察结果替换 OOD 观察结果并执行动作。

让我们分解这些步骤的技术细节。
1. 检测异常
在适应之前,机器人需要知道自己遇到了麻烦。该系统使用基于余弦相似度的快速 OOD 检测器。
机器人使用其策略编码器将当前的观察结果 \(\hat{o}\) 编码为潜在嵌入 \(\hat{z}\)。它将此嵌入与训练集中所有观察结果 (分布内,或 ID) 的嵌入进行比较。如果相似度得分低于某个阈值 \(\lambda\),系统会将该观察结果标记为 OOD 并暂停以触发适应过程。
2. 建立功能对应关系
一旦检测到 OOD 场景,系统就需要弥合“陌生”新世界与其熟悉训练数据之间的差距。这就是人类专家介入的地方。
专家提供一段自然语言描述 \(l\),例如“将铅笔尖与钢笔尖匹配”。系统随后计算功能对应图 (Functional Correspondence Map) 。 该图识别当前图像中的特定片段,并根据专家的描述将它们与训练图像中的片段配对。
这不仅仅是全局图像匹配;这是语义分割。系统可能使用像 Grounded Segment Anything 这样的工具 (如论文细节中所述) 来掩盖特定物体。
在数学上,功能对应图 \(\Phi\) 被定义为一组配对的图像片段 \((\omega, \hat{\omega})\):

这里,\(\omega_j\) 代表训练图像中的一个片段,\(\hat{\omega}_j\) 代表当前 OOD 图像中的一个片段。\(K\) 是对应片段的数量。
为了确定哪个训练图像是最佳匹配,系统根据这些对齐片段的交并比 (IoU) 计算得分。这个得分 \(f\) 量化了在应用对应映射后,OOD 物体的几何形状与 ID 物体的对齐程度。

3. 通过本体感觉进行过滤
视觉匹配是不够的。机械臂的动作在很大程度上取决于其当前位置 (本体感觉) 。即使训练图像看起来像当前场景,如果该训练图像中的机械臂位于桌子的另一侧,那也是无用的。
因此,在进行上述视觉匹配之前,系统会过滤数据集。它只查看机器人的本体感觉状态 \(q\) (关节角度、抓手位置) 与当前状态 \(\hat{q}\) 相似的训练帧。

该公式创建了一个相关观察结果的子集 \(\mathcal{O}_q\)。视觉功能对应关系 (来自第 2 步) 仅针对此子集进行计算。
4. 优化直至确信
这是一个将 ABA 与简单检索方法区分开来的关键步骤。仅仅因为你找到了视觉匹配,并不意味着你找到了正确的行为。
想象一下机器人正拿着一块垃圾。在训练集中,它可能有两种处理持有物体的行为: “放入回收站” (针对纸张) 和“放入堆肥” (针对食物) 。如果功能对应关系模糊,系统可能会检索到混合了“回收”和“堆肥”的例子。
ABA 方法检查检索到的图像预测动作的熵 (Entropy) 。
- 高熵: 检索到的动作五花八门。机器人很困惑。它会要求专家优化对应关系 (例如,“不,将这种特定颜色与回收箱匹配”) 。
- 低熵: 检索到的动作是一致的 (呈现一种“模式”) 。机器人继续执行。
5. 干预
最后,系统执行干预。它取前 \(M\) 个功能对齐的训练观察结果 (\(o_1, ... o_M\))。它计算它们的嵌入,取平均值,并将这个“想象出来的”嵌入输入到策略网络中。
策略 \(\pi\) 基于这个 ID 嵌入输出一个动作,从而有效地在陌生环境中执行已知的安全行为。
实验设置
研究人员使用 Franka Research 3 机器人在真实硬件上验证了 ABA。他们将其与三个基线进行了比较:
- Vanilla (原始版) : 无干预的基础策略 (扩散策略) 。
- PolicyEmbed: 一种基于策略自身学习到的嵌入空间检索最近邻的干预方法 (没有功能对应) 。
- DINOEmbed: 一种使用 DINOv2 特征 (一种强大的视觉基础模型) 检索邻居的干预方法。

任务
他们设计了两个不同的任务来测试泛化能力:
- 扫垃圾 (Sweep Trash): 机器人必须根据垃圾类型 (有机垃圾与可回收垃圾) 将物品扫入不同区域。
- 杯中取物 (Object in Cup): 一个精确任务,机器人必须拿起一个物体并将其放入杯子中。这很有挑战性,因为不同的物体需要不同的抓取策略 (例如,记号笔从底部放入,钢笔从顶部放入) 。

OOD 条件
为了测试鲁棒性,研究人员给机器人出了一系列难题:
- 新背景: 将桌面变为黑色布料。
- 新物体: 将训练物体 (M&M 豆、纸团、记号笔) 替换为全新的物体 (多力多滋、餐巾纸、铅笔、电池、积木) 。

结果与分析
结果提供了令人信服的证据,证明对于机器人操作而言,功能对应优于标准的视觉相似性。
任务成功率
图 3 (下文) 总结了主要结果。
- 分布内 (ID): ABA 甚至在这里也提高了性能,可能是因为它过滤掉了嘈杂的行为。
- OOD 背景: 当背景改变时,Vanilla 策略在“杯中取物”任务中崩溃 (成功率降至接近零) 。ABA 保持了高性能,因为它检索原始训练图像 (带有原始背景) 来驱动策略。
- OOD 物体: 这是最引人注目的结果。当面对完全陌生的物体 (如铅笔) 时,Vanilla、PolicyEmbed 和 DINOEmbed 都举步维艰。然而,ABA 实现了与训练场景相当的成功率。

具体来说,在“杯中取物”的“OOD 物体”类别中, ABA 实现了超过 90% 的成功率 , 而 Vanilla 策略和其他嵌入几乎完全失败。这证明了视觉相似性 (DINO/策略嵌入) 是不够的;机器人需要理解功能等效性才能泛化到新的几何形状。
它需要多少次帮助?
人机回路系统的一个关键问题是人类的负担。如果机器人每秒钟都请求帮助,那它就不是自主的。
研究人员跟踪了反馈请求的次数。图 4 显示 ABA 非常高效。对于一个耗时 70-120 个时间步的任务,机器人通常每个回合只请求 2 到 5 次反馈。

对于更难的 OOD 物体 (如电池) ,请求次数略有增加,这也是合理的——因为建立功能联系比铅笔/钢笔更难。
为什么它有效?
研究人员分析了系统检索到了什么。图 5 绘制了检索精度与成功率的关系图。它显示出很强的相关性: 当系统检索到与基准真值在功能上对齐的观察结果时 (如 ABA 所做的那样) ,任务就会成功。

这证实了基线 (PolicyEmbed 和 DINOEmbed) 失败的原因是它们检索到了错误的训练样本。例如,DINO 可能会基于视觉特征将铅笔匹配到记号笔,但如果记号笔的抓取策略与钢笔 (铅笔实际上模仿的对象) 不同,机器人就会失败。ABA 基于专家指导的功能对应确保找到了正确的“行为”匹配。
结论与启示
“类比适应”这篇论文为泛化提供了一个全新的视角。与其试图强迫神经网络学习所有物理和物体的通用表示 (这需要海量数据) ,不如承认必要的行为通常已经存在于训练集中。挑战仅仅在于如何访问它们。
通过使用专家反馈来定义功能类比,我们可以解锁“部署时泛化”。这种方法允许一个在钢笔上训练的机器人处理铅笔、筷子或画笔,而无需进行任何梯度更新或重新训练。
关键要点:
- 不要重新训练,要干预: 我们可以通过用“想象出来的”ID 输入替换 OOD 输入来引导策略。
- 功能重于形式: 对于机器人技术而言,视觉相似性 (像素匹配) 通常不如功能相似性 (示能性匹配/Affordance match) 重要。
- 人在回路中: 少量的高层人类指导可以修复原本需要大规模数据收集才能解决的鲁棒性故障。
这种方法为非结构化环境中更具适应性的机器人打开了大门,表明通往通用机器人的道路可能不仅仅是“更多数据”,而是“更好的类比”。
](https://deep-paper.org/en/paper/2506.12678/images/cover.png)