简介
想象一下,你正在教机器人如何煮一杯咖啡。你向它展示了几个例子——也许只有五到十次你研磨咖啡豆和倒水的演示。对于现代机器学习模型来说,这寥寥无几的例子远不足以学习到一个鲁棒的策略。机器人可能会学会移动手臂,但它无法理解如何处理杯子位置的细微变化或光线的改变。
为了解决这个问题,机器人学家经常求助于增强大规模数据集的 模仿学习 (Imitation Learning, IL) 。 逻辑很简单: 如果我们拥有一个庞大的机器人数据库 (比如包含数千小时机器人操作的 DROID 数据集) ,我们肯定能从中找到与煮咖啡“足够相似”的旧经验,并利用它们帮助机器人学得更快。
但这里存在一个陷阱: “相似”到底意味着什么?
一个任务看起来相似是因为机器人拿着杯子吗?还是因为机器人正在做一个圆周搅拌动作?如果你基于视觉相似性搜索数据库,你可能会检索到机器人清洗杯子的视频——视觉上很像,但动作完全错误。如果你基于运动相似性搜索,你可能会检索到机器人搅拌一锅汤的视频——动作正确,但物体物理属性完全错误。
这正是研究论文 “COLLAGE: Adaptive Fusion-based Retrieval for Augmented Policy Learning” 所要解决的核心问题。研究人员认为,依赖单一的相似性定义 (如仅依靠视觉或仅依靠运动) 是脆弱的,并且会导致“负迁移”——即糟糕的数据实际上会使机器人的表现变差。
在这篇文章中,我们将深入探讨 COLLAGE,这是一个新的框架,它不仅仅是猜测哪些数据是相关的。相反,它利用多个“专家” (视觉、运动、形状、语言) 来检索数据,然后通过数学计算出哪个专家最适合当前的任务。

如图 1 所示,不同的任务需要不同的检索策略。COLLAGE 通过自适应地融合这些策略来解决这个问题。让我们看看它是如何工作的。
背景: 少样本模仿挑战
在剖析解决方案之前,我们需要了解背景设定。目标是 少样本模仿学习 (Few-Shot Imitation Learning) 。 我们要面对的是:
- 目标数据集 (\(D_{target}\)): 针对我们想要解决的新任务的一小部分专家演示 (例如 5 个演示) 。
- 先验数据集 (\(D_{prior}\)): 一个巨大的、未经筛选的离线数据集,包含成千上万个不相关或关系松散的行为。
解决这个问题的标准方法是 检索增强策略学习 (Retrieval-Augmented Policy Learning) 。 你将目标演示嵌入到一个特征空间中 (使用神经网络) ,并在先验数据集中搜索“最近邻”。然后,你将目标数据与这些检索到的数据结合起来训练策略。
单模态启发式方法的失败
以前的方法尝试过使用:
- 视觉检索: 使用 ResNet 或 DINO 等模型寻找看起来相同的图像。
- 运动检索: 使用光流寻找移动方式相同的轨迹。
- 语言检索: 使用文本嵌入寻找具有相似指令的任务。
问题在于这些都是静态的启发式方法。如果你决定使用视觉检索,你就押注外表是 每个 你将遇到的任务中最重要的因素。正如我们在介绍中看到的,这种押注经常会输。如果你试图“打开一本书”,视觉相似性效果很好。如果你试图“搅拌一个碗”,视觉相似性可能会给你“把苹果放进碗里”的数据——这会破坏你的策略性能。
COLLAGE: 核心方法
COLLAGE 代表 集体数据聚合 (COLLective data AGgrEgation) 。 COLLAGE 背后的哲学是,我们不应该强迫机器人选择一种相似性类型。相反,我们应该让数据决定哪种相似性度量对当前任务有用。
该方法遵循一个三步流程:
- 多模态检索: 使用所有可用的度量标准检索候选数据。
- 相关性估计: 根据每个度量标准对目标演示的预测能力,计算其“信任分”。
- 自适应采样: 通过从受信任的度量标准中大量采样并忽略糟糕的度量标准来训练最终策略。
让我们分解一下架构。

第一步: 跨多模态检索
首先,COLLAGE 就像一张大网。它假设我们可以访问 \(k\) 个不同的特征编码器,其中每个编码器代表世界的不同“视角”。在本文中,作者使用了四种不同的模态:
- 视觉 (DINOv2): 捕捉高级语义外观 (例如,“这里有一个杯子”) 。
- 运动 (光流): 捕捉场景的动态 (例如,“像素正在以圆形模式移动”) 。
- 形状 (PointNet++): 通过点云捕捉场景的 3D 几何形状,忽略纹理和颜色。
- 语言 (OpenAI Embeddings): 捕捉指令的语义意图 (例如,“打开门”) 。
对于小规模目标数据集中的每一个演示,系统都会使用 全部四种 方法独立地查询庞大的先验数据集。
为了确保检索的精确性,他们使用了 子序列动态时间规整 (S-DTW) 。 因为相关的行为 (如抓住把手) 可能埋藏在先验数据集中一段很长且不相关的轨迹里,S-DTW 允许系统将目标演示与先验数据的微小片段进行匹配。
第一步的输出是四桶独立检索到的数据: \(D_{visual}\), \(D_{motion}\), \(D_{shape}\), 和 \(D_{language}\)。
第二步: 估计相关性权重
这是论文中最具创新性的部分。我们有四桶数据。有些桶里可能装的是金子;其他的可能装的是垃圾。在不进行人工检查的情况下,我们要如何分辨?
COLLAGE 使用一种“免回滚 (rollout-free)”机制来估计质量。它提出的问题是: 如果我仅基于这桶数据训练一个策略,它会对专家目标演示感到多么惊讶?
对于每个检索到的子集 (例如运动子集) ,系统都会训练一个轻量级的“参考策略” (\(\pi_{ref}\))。这是一个简单的行为克隆 (BC) 模型,仅 在该桶内的数据上进行训练。

一旦这个参考策略训练完成,我们就用我们的“基准真值”——我们要解决的少数目标演示——来测试它。我们将目标演示的状态输入到这个参考策略中,并检查它分配给专家实际采取动作的概率。
这是作为对数似然 (log-likelihood) 计算的:

如果 运动 桶包含高质量、相关的数据,那么在其上训练的策略将很可能预测出非常接近目标专家动作的行为,从而产生高对数似然 (高得分 \(S_f\)) 。如果 视觉 桶包含不相关的任务,在其上训练的策略将预测错误的动作,导致低对数似然。
最后,这些得分使用 softmax 函数进行归一化,生成一组权重 (\(w_f\))。这些权重代表了特定模态对当前任务有用的概率。
第三步: 检索增强策略学习
既然我们有了数据和权重,我们就可以训练最终的机器人策略了。
作者使用了基于 Transformer 的策略 (类似于标准的机器人 Transformer) 。然而,他们并没有将所有检索到的数据均匀地倒入训练缓冲区,而是使用了 重要性采样 (Importance Sampling) 。
在训练期间,当系统创建一个数据批次 (batch) 时,它会根据第二步计算出的权重对轨迹进行采样。如果“形状”模态得到的权重是 0.6,而“语言”得到的权重是 0.1,那么训练批次中来自形状桶的数据将是语言桶数据的 6 倍。
这有效地过滤掉了噪音。策略会关注那些被数学证明与目标任务一致的数据,而很大程度上忽略那些会导致负迁移的数据。
最终的目标函数是一个标准的模仿学习损失,但应用于这个加权的数据分布之上:

实验结果
作者在两个截然不同的环境中评估了 COLLAGE: LIBERO 仿真基准测试和使用 Franka Emika Panda 机器人的 真实世界 设置。
仿真 (LIBERO)
在仿真中,系统在 10 个不同的任务上进行了测试。结果与单模态基线 (仅使用视觉或仅使用运动检索) 以及非检索基线 (标准 BC 和多任务学习) 进行了比较。
主要发现: COLLAGE 的表现优于最佳单模态基线 11.2% 。
更有趣的是,实验验证了没有单一特征是“最好的”这一假设。
- 对于任务 “Stove-Moka” (炉灶-摩卡壶) , 视觉 模态占主导地位。
- 对于 “Soup-Cheese” (汤-奶酪) , 运动 模态至关重要。
- 对于 “Cheese-Butter” (奶酪-黄油) , 形状 模态权重最高。
COLLAGE 能够自动识别这些偏好。我们可以在下面的图表中看到这种自适应加权:

观察图 4 中的权重,我们可以看到对于某些任务 (如第一个饼图) ,权重相对平衡。对于其他任务,某种模态占主导地位。这种灵活性正是 COLLAGE 具有鲁棒性的原因。
真实世界评估 (DROID 数据集)
真实世界的实验尤其具有挑战性。作者使用了 DROID , 这是一个在许多不同实验室和环境中收集的大规模、多样化数据集。
这里的挑战是 域差距 (Domain Gap) 。 DROID 数据看起来与作者的实验室设置非常不同。光线不同,桌子不同,背景杂物也不同。

尽管存在这些视觉差异,COLLAGE 仍能检索到有用的行为。例如,在“搅拌碗”任务中,视觉差距巨大,但运动和语言模态成功地从 DROID 中检索到了搅拌动作。
定量成功率: 在现实世界中,标准的行为克隆 (BC) 几乎完全失败 (成功率为 6.7%) ,因为 5 次演示根本不足以进行复杂的操作。
- 视觉检索 将此提高到了 28.9% 。
- COLLAGE 达到了 45.5% 的成功率。
这是一个巨大的相对改进,证明了融合多样化数据源对于条件混乱的现实世界机器人技术至关重要。
我们可以在表 3 中看到针对特定任务的学习权重细分:

注意 DROID 部分 (真实世界) 中的“Lego” (乐高) 任务。 视觉 权重非常高 (0.6),而 运动 接近于零 (0.02)。这是合理的: 堆叠乐高积木是一个精确的静态对齐任务,其中凸粒的视觉配置比手臂的速度更重要。COLLAGE 成功地意识到运动数据对于这个特定任务来说是噪音,并抑制了它。
为什么它有效?
为了更深入地理解“为什么”,作者可视化了究竟检索到了 什么。

在图 5 中,我们查看“Book” (书本) 任务的细分 (第一行) 。
- 视觉检索 (左上饼图) : 主要检索“书本正面”的场景。它专注于物体。
- 语言检索 (右上饼图) : 检索混合的任务,这些任务共享语义指令。
通过结合这些,COLLAGE 确保策略看到的例子既匹配物体 (视觉) 又匹配意图 (语言) ,填补了任何单一模态都会错过的空白。
结论与启示
COLLAGE 论文提出了一个令人信服的论点: 在大规模机器人学习时代,我们 如何 整理数据与数据的数量同样重要。
主要结论是:
- 没有“万能”特征: 没有一种相似性度量适用于所有机器人任务。有时几何形状很重要 (形状) ,有时动力学很重要 (运动) ,有时语义很重要 (视觉/语言) 。
- 自适应融合: 我们不需要手动调整这些偏好。通过使用轻量级参考策略,我们可以通过数学方法估计哪些数据是有价值的。
- 数据效率: 这种方法允许机器人从像 DROID 这样“狂野”、非结构化的数据集中学习,即使环境看起来与训练数据完全不同。
这种方法对通用机器人的未来具有广泛的意义。它不再试图构建一个“无所不知”的大型模型,而是预示了一个未来: 机器人可以动态地查询它们的记忆库,汇集 (collage) 相关的经验来解决面前的问题。
](https://deep-paper.org/en/paper/2508.01131/images/cover.png)