引言
在构建通用机器人的探索中, 行为克隆 (Behavior Cloning, BC) 一直是一种主流策略。其前提很简单: 收集大量人类执行任务的数据,然后训练神经网络根据当前的视觉观察来复制这些动作。随着扩散策略 (Diffusion Policies) 和 Transformer 等表达能力强的模型的兴起,机器人在模仿复杂动作方面已经变得非常出色。
然而,这里有一个陷阱。行为克隆往往是一个“像素级”的模仿者。如果你训练一个机器人抓取杯子时相机固定在 45 度角,然后你将相机稍微向左移动,策略通常会发生灾难性的失败。机器人并没有学会如何抓取杯子;它学会的是如何对特定的像素排列做出反应。
这种脆弱性造成了一个巨大的瓶颈。我们希望在从不同视角、光照条件和环境收集的大规模多样化数据集 (研究人员称之为异构数据 )上训练机器人。但是,当标准的 BC 应用于这种混乱的数据时,它很难找到共享的结构。它会过拟合于单个演示中的特定视觉细节,而不是学习底层的行为。
在这篇文章中,我们将深入探讨一种名为 CLASS (Contrastive Learning via Action Sequence Supervision,基于动作序列监督的对比学习) 的解决方案。这种方法反转了表征学习的剧本。CLASS 不再仅仅关注图像,而是问: “无论相机看到了什么,随后的动作是否相似?” 通过基于未来动作序列的相似性来对齐视觉表征,CLASS 使机器人能够忽略视觉噪声 (如相机移动) 并专注于手头的任务。

问题所在: 行为克隆中的视觉过拟合
要理解为什么 CLASS 是必要的,我们首先需要了解标准模仿学习的局限性。
在典型的设置中,机器人观察一个状态 \(o_t\) (通常是一张图像) 并预测一个动作 \(a_t\)。现代方法通常预测一系列未来的动作 (动作分块/action chunking) 以确保运动流畅。然而,\(o_t\) 与动作序列之间的联系是通过直接监督学习到的。
如果你有两个相同任务的演示——比如堆叠积木——分别从两个不同的相机角度录制,那么像素输入是完全不同的。一个标准的编码器 (如 ResNet) 可能会将这两张图像映射到“隐空间” (图像的内部数值表示) 中非常不同的位置。因此,策略必须为完全相同的物理行为学习两个单独的映射。这是低效的,会导致过拟合 。 模型记住了背景和相机角度,而不是积木的相对位置。
我们需要一种方法来强制编码器将这两张视觉上截然不同、但导致相同行为的图像映射到同一个隐表示中。
解决方案: CLASS
CLASS 通过将表征学习与策略学习解耦来解决这个问题。它使用监督对比学习来预训练视觉编码器,但有一个转折: 监督来自于动作序列的相似性。
直觉非常简单: 如果两个机器人状态导致相同的动作序列 (例如,“向前移动 10cm,闭合夹爪,举起”) ,那么这些状态在语义上是等价的,即使一个是从顶部看,另一个是从侧面看。
CLASS 框架包含两个主要阶段:
- 动作序列相似度: 使用动态时间规整 (DTW) 计算两条轨迹的相似程度。
- 软对比学习: 训练编码器将视觉上不同但行为上相似的状态拉近。
让我们逐一分解。
1. 用动态时间规整 (DTW) 衡量行为
我们不能简单地使用欧几里得距离 (L2 误差) 逐步比较动作。人类的演示是嘈杂的。一个演示可能比另一个稍快,或者有轻微的停顿。逐帧比较会严厉惩罚这些时间上的错位,即使整体运动是相同的。
为了解决这个问题,作者利用了 动态时间规整 (DTW) 。 DTW 是一种寻找两个时间序列之间最佳对齐的算法。它允许“扭曲”时间轴——拉伸或压缩序列的某些部分——以找到最佳匹配。
给定来自两个不同演示的两个动作序列 \(\mathbf{A}^m\) 和 \(\mathbf{A}^n\),DTW 计算它们之间的最小累积距离:

这里,\(\Gamma\) 代表对齐路径。通过使用 DTW,CLASS 可以识别出“慢速抓取”和“快速抓取”本质上是相同的行为。
2. 软对比学习
一旦我们有了 DTW 距离,我们就知道哪些图像代表相似的行为。下一步是训练神经网络 (编码器) 来识别这一点。
经典的对比学习 (如 SimCLR) 是二元的: 同一图像的两个增强视图是“正”样本对 (将它们拉近) ,任何其他图像都是“负”样本对 (将它们推开) 。
CLASS 将其扩展为 软 InfoNCE 目标。它不仅仅将样本对视为二元的正或负。相反,它根据图像未来动作的相似程度,为每一对图像分配一个连续的权重 \(w_{ij}\)。
首先,该方法定义了一个从 DTW 距离导出的权重 \(w_{ij}\)。如果 DTW 距离很小 (动作非常相似) ,权重就高。如果距离很大,权重为 0。

这里,CDF 是累积分布函数。实际上,这个方程是在说: “你们的动作序列越接近,你们视觉表征之间的联系就应该越强。”
然后将该权重注入到对比损失函数中:

让我们解读这个损失函数:
- 目标: 我们想要最大化概率 \(p_{ij}\)。
- \(S_{ij}\): 这是图像 \(i\) 和图像 \(j\) 的学习到的视觉特征之间的余弦相似度。
- \(w_{ij}\): 这是我们基于行为的权重。
- 机制: 该损失鼓励编码器对那些动作相似度权重 (\(w_{ij}\)) 高的样本对产生高相似度得分 (\(S_{ij}\))。
至关重要的是,这允许模型学习相似度的梯度 。 它创建了一个结构化的隐空间,其中的状态不是根据它们的外观聚类,而是根据机器人即将做什么来聚类。
完整架构
可视化训练流程有助于阐明这些部分是如何组合在一起的。

- 内部模块 (表征学习) : 这是 CLASS 的独特贡献。我们取一批数据 (锚点/Anchors) 。我们在数据集中找到具有相似动作序列的其他样本 (正样本/Positives) 和不具有相似动作序列的样本 (负样本/Negatives) 。我们计算 DTW 分数并应用软 InfoNCE 损失来训练 ResNet-18 编码器 。
- 外部模块 (策略学习) : 一旦编码器训练完成,其权重可以被冻结 (或以低学习率微调) 。然后我们连接一个 策略头 (Policy Head) (如扩散策略或 MLP) ,它接收来自编码器的鲁棒特征并使用标准行为克隆来预测动作。
实验设置: 异构性的挑战
为了证明 CLASS 解决了视觉泛化问题,研究人员设计了专门用于打破标准行为克隆的实验。他们引入了 异构数据采集 设置。

- 动态相机 (Dyn-Cam): 相机在剧集中随机移动。
- 随机静态相机 (Rand-Cam): 相机在每一集被放置在随机位置,但在剧集中保持固定。
- 随机物体颜色 (Rand-Color): 物体颜色在每一集都会改变。
这些变化意味着“相同”状态的像素输入在不同的演示中看起来截然不同。
关键结果
实验涵盖了 5 个仿真基准 (包括 Robomimic 和 LIBERO) 和 3 个现实世界任务。结果与标准行为克隆 (MLP 和扩散策略) 以及其他表征学习方法 (如 R3M、MVP 和 TCN) 进行了比较。
1. 仿真性能
下面的汇总表突显了性能上的巨大差异,特别是在“Dyn-Cam” (动态相机) 列中。

看看 Dyn-Cam 下的 Square 任务:
- 标准扩散策略 (DP) 仅达到 6% 的成功率。它完全没能泛化到移动相机。
- CLASS-DP (使用 CLASS 表征的扩散策略) 达到了 62% 的成功率 (参数化) 和 67% (非参数化) 。
这是一个数量级的提升。它证实了虽然标准 BC 会过拟合于相机角度,但 CLASS 成功提取了不变的状态信息。
2. 可视化隐空间
为什么它效果这么好?我们可以使用 t-SNE (一种用于可视化高维数据的技术) 来查看神经网络的“内部”。

在 左侧 (标准 BC) , 轨迹是分散的。模型被不断变化的相机角度搞糊涂了,将相似的物理状态映射到嵌入空间中完全不同的区域。 在 右侧 (CLASS) , 我们看到了干净、紧密的聚类。所有“接近积木”的状态都聚在一起,所有“举起积木”的状态也都聚在一起,无论相机角度如何。
我们可以通过查看 最近邻 来进一步验证这一点。如果我们使用特定角度的图像查询数据集,模型认为什么图像是“相似”的?

对于 标准 BC (上图) ,最近邻在视觉上是相同的。它检索具有相同相机角度的图像。这证实了它过拟合于视角。

对于 CLASS (上图) ,最近邻显示了 相同的物理状态 (机械臂相对于积木处于相同位置) ,但是来自于 不同的相机角度 。 这正是我们想要的: 视角不变性。
3. 现实世界的鲁棒性
仿真很有用,但真正的考验是物理硬件。研究人员在三个任务上测试了 CLASS: 堆叠、挂杯子和装载烤面包机。他们在演示之间将相机移动到三脚架上的随机位置。

结果反映了仿真的情况。在 Mug-Hang (挂杯子) 任务中,标准的 ImageNet 预训练扩散策略达到了 0% 的成功率 (它可以抓住杯子,但在精确放置时失败了) 。 CLASS-DP 达到了 55-65% 的成功率。
4. 为什么设计选择很重要
研究人员进行了消融研究来证明其架构决策的合理性。

- 硬 vs. 软 (图表 a): 使用“软”权重 (相似度梯度) 至关重要。恢复到二元的“硬”对比学习会显著降低性能。
- 序列长度 (图表 b): 你需要查看一系列动作。如果窗口太短,就会缺乏上下文。
- 相似度度量 (图表 c): DTW 优于简单的 L2 距离,因为它能处理人类演示中的时间错位。
5. 效率与扩展性
对预训练的一个普遍担忧是计算成本。有趣的是,CLASS 加快了整个过程。

因为表征是先学习的且高度结构化,下游策略学习 (微调) 比从头开始训练 BC 收敛得快得多。
此外,CLASS 具有良好的扩展性。随着演示数量的增加,正样本对的质量提高,从而导致更好的表征。

参数化与非参数化推理
CLASS 论文中一个引人入胜的方面是它以两种方式评估表征:
- 参数化: 训练神经网络 (策略头) 来预测动作。
- 非参数化 (检索) : 完全不训练策略头。相反,在测试时,机器人对当前图像进行编码,在训练集中找到最近邻 (使用余弦相似度) ,并平均它们的动作序列。
这种基于检索的推演公式为:

理想情况下,如果表征是完美的,你甚至不需要策略网络——你可以直接复制最相似训练示例的动作。实验表明, 仅表征 (Rep-Only/非参数化) 的性能惊人地具有竞争力,通常能匹配或击败标准 BC,并且推理时间明显更快 (因为它避免了繁重的扩散步骤) 。

结论
CLASS 框架凸显了机器人学习未来的一个关键见解: 动作是视觉最好的监督者。
当我们希望机器人执行任务时,背景的具体像素值或相机的确切角度是无关紧要的。重要的是机器人与物体之间的功能关系。通过强制视觉编码器基于“接下来发生什么” (动作序列相似性) 而不是“看起来像什么” (像素相似性) 来组织世界,CLASS 创建了对现实世界的混乱具有鲁棒性的表征。
对于进入该领域的学生和研究人员来说,CLASS 是一个极好的例子,展示了如何将 自监督学习 (SSL) 和 对比学习 从计算机视觉调整到机器人技术中。它使我们从脆弱的单视角模仿转向鲁棒的、可泛化的行为学习。
随着我们迈向在海量“野外”数据集 (如 YouTube 视频或多样化的机器人车队) 上训练机器人,像 CLASS 这样能够从异构数据中提取共享行为的方法将是必不可少的构建块。
](https://deep-paper.org/en/paper/2508.01600/images/cover.png)