引言

在构建通用机器人的探索中, 行为克隆 (Behavior Cloning, BC) 一直是一种主流策略。其前提很简单: 收集大量人类执行任务的数据，然后训练神经网络根据当前的视觉观察来复制这些动作。随着扩散策略 (Diffusion Policies) 和 Transformer 等表达能力强的模型的兴起，机器人在模仿复杂动作方面已经变得非常出色。

然而，这里有一个陷阱。行为克隆往往是一个“像素级”的模仿者。如果你训练一个机器人抓取杯子时相机固定在 45 度角，然后你将相机稍微向左移动，策略通常会发生灾难性的失败。机器人并没有学会如何抓取杯子；它学会的是如何对特定的像素排列做出反应。

这种脆弱性造成了一个巨大的瓶颈。我们希望在从不同视角、光照条件和环境收集的大规模多样化数据集 (研究人员称之为异构数据 )上训练机器人。但是，当标准的 BC 应用于这种混乱的数据时，它很难找到共享的结构。它会过拟合于单个演示中的特定视觉细节，而不是学习底层的行为。

在这篇文章中，我们将深入探讨一种名为 CLASS (Contrastive Learning via Action Sequence Supervision，基于动作序列监督的对比学习) 的解决方案。这种方法反转了表征学习的剧本。CLASS 不再仅仅关注图像，而是问: “无论相机看到了什么，随后的动作是否相似？” 通过基于未来动作序列的相似性来对齐视觉表征，CLASS 使机器人能够忽略视觉噪声 (如相机移动) 并专注于手头的任务。

行为克隆与 CLASS 的比较。面板 A 显示 BC 在静态设置中表现良好。面板 B 显示当视角改变时 BC 失败。面板 C 显示 CLASS 基于动作轨迹对齐状态。

问题所在: 行为克隆中的视觉过拟合

要理解为什么 CLASS 是必要的，我们首先需要了解标准模仿学习的局限性。

在典型的设置中，机器人观察一个状态 \(o_t\) (通常是一张图像) 并预测一个动作 \(a_t\)。现代方法通常预测一系列未来的动作 (动作分块/action chunking) 以确保运动流畅。然而，\(o_t\) 与动作序列之间的联系是通过直接监督学习到的。

如果你有两个相同任务的演示——比如堆叠积木——分别从两个不同的相机角度录制，那么像素输入是完全不同的。一个标准的编码器 (如 ResNet) 可能会将这两张图像映射到“隐空间” (图像的内部数值表示) 中非常不同的位置。因此，策略必须为完全相同的物理行为学习两个单独的映射。这是低效的，会导致过拟合 。模型记住了背景和相机角度，而不是积木的相对位置。

我们需要一种方法来强制编码器将这两张视觉上截然不同、但导致相同行为的图像映射到同一个隐表示中。

解决方案: CLASS

CLASS 通过将表征学习与策略学习解耦来解决这个问题。它使用监督对比学习来预训练视觉编码器，但有一个转折: 监督来自于动作序列的相似性。

直觉非常简单: 如果两个机器人状态导致相同的动作序列 (例如，“向前移动 10cm，闭合夹爪，举起”) ，那么这些状态在语义上是等价的，即使一个是从顶部看，另一个是从侧面看。

CLASS 框架包含两个主要阶段:

动作序列相似度: 使用动态时间规整 (DTW) 计算两条轨迹的相似程度。
软对比学习: 训练编码器将视觉上不同但行为上相似的状态拉近。

让我们逐一分解。

1. 用动态时间规整 (DTW) 衡量行为

我们不能简单地使用欧几里得距离 (L2 误差) 逐步比较动作。人类的演示是嘈杂的。一个演示可能比另一个稍快，或者有轻微的停顿。逐帧比较会严厉惩罚这些时间上的错位，即使整体运动是相同的。

为了解决这个问题，作者利用了 动态时间规整 (DTW) 。 DTW 是一种寻找两个时间序列之间最佳对齐的算法。它允许“扭曲”时间轴——拉伸或压缩序列的某些部分——以找到最佳匹配。

给定来自两个不同演示的两个动作序列 \(\mathbf{A}^m\) 和 \(\mathbf{A}^n\)，DTW 计算它们之间的最小累积距离:

动态时间规整 (DTW) 计算公式，最小化对齐路径 Gamma 上的距离。

这里，\(\Gamma\) 代表对齐路径。通过使用 DTW，CLASS 可以识别出“慢速抓取”和“快速抓取”本质上是相同的行为。

2. 软对比学习

一旦我们有了 DTW 距离，我们就知道哪些图像代表相似的行为。下一步是训练神经网络 (编码器) 来识别这一点。

经典的对比学习 (如 SimCLR) 是二元的: 同一图像的两个增强视图是“正”样本对 (将它们拉近) ，任何其他图像都是“负”样本对 (将它们推开) 。

CLASS 将其扩展为 软 InfoNCE 目标。它不仅仅将样本对视为二元的正或负。相反，它根据图像未来动作的相似程度，为每一对图像分配一个连续的权重 \(w_{ij}\)。

首先，该方法定义了一个从 DTW 距离导出的权重 \(w_{ij}\)。如果 DTW 距离很小 (动作非常相似) ，权重就高。如果距离很大，权重为 0。

基于 DTW 距离的 CDF 定义软权重 w_ij 的公式。

这里，CDF 是累积分布函数。实际上，这个方程是在说: “你们的动作序列越接近，你们视觉表征之间的联系就应该越强。”

然后将该权重注入到对比损失函数中:

软 InfoNCE 损失函数的公式。

让我们解读这个损失函数:

目标: 我们想要最大化概率 \(p_{ij}\)。
\(S_{ij}\): 这是图像 \(i\) 和图像 \(j\) 的学习到的视觉特征之间的余弦相似度。
\(w_{ij}\): 这是我们基于行为的权重。
机制: 该损失鼓励编码器对那些动作相似度权重 (\(w_{ij}\)) 高的样本对产生高相似度得分 (\(S_{ij}\))。

至关重要的是，这允许模型学习相似度的梯度 。它创建了一个结构化的隐空间，其中的状态不是根据它们的外观聚类，而是根据机器人即将做什么来聚类。

完整架构

可视化训练流程有助于阐明这些部分是如何组合在一起的。

图 2: 训练流程。内部模块显示表征学习 (预训练) 。外部模块显示策略微调。

内部模块 (表征学习) : 这是 CLASS 的独特贡献。我们取一批数据 (锚点/Anchors) 。我们在数据集中找到具有相似动作序列的其他样本 (正样本/Positives) 和不具有相似动作序列的样本 (负样本/Negatives) 。我们计算 DTW 分数并应用软 InfoNCE 损失来训练 ResNet-18 编码器 。
外部模块 (策略学习) : 一旦编码器训练完成，其权重可以被冻结 (或以低学习率微调) 。然后我们连接一个 策略头 (Policy Head) (如扩散策略或 MLP) ，它接收来自编码器的鲁棒特征并使用标准行为克隆来预测动作。

实验设置: 异构性的挑战

为了证明 CLASS 解决了视觉泛化问题，研究人员设计了专门用于打破标准行为克隆的实验。他们引入了 异构数据采集 设置。

图 3: 不同相机设置的可视化。A 和 D 是标准静态设置。B、C 和 E 引入了移动相机和随机颜色。

动态相机 (Dyn-Cam): 相机在剧集中随机移动。
随机静态相机 (Rand-Cam): 相机在每一集被放置在随机位置，但在剧集中保持固定。
随机物体颜色 (Rand-Color): 物体颜色在每一集都会改变。

这些变化意味着“相同”状态的像素输入在不同的演示中看起来截然不同。

关键结果

实验涵盖了 5 个仿真基准 (包括 Robomimic 和 LIBERO) 和 3 个现实世界任务。结果与标准行为克隆 (MLP 和扩散策略) 以及其他表征学习方法 (如 R3M、MVP 和 TCN) 进行了比较。

1. 仿真性能

下面的汇总表突显了性能上的巨大差异，特别是在“Dyn-Cam” (动态相机) 列中。

表 1: 性能比较。注意在 Dyn-Cam 和 Rand-Color 列中 CLASS 与基线之间的显著差距。

看看 Dyn-Cam 下的 Square 任务:

标准扩散策略 (DP) 仅达到 6% 的成功率。它完全没能泛化到移动相机。
CLASS-DP (使用 CLASS 表征的扩散策略) 达到了 62% 的成功率 (参数化) 和 67% (非参数化) 。

这是一个数量级的提升。它证实了虽然标准 BC 会过拟合于相机角度，但 CLASS 成功提取了不变的状态信息。

2. 可视化隐空间

为什么它效果这么好？我们可以使用 t-SNE (一种用于可视化高维数据的技术) 来查看神经网络的“内部”。

图 13: 隐表征的 t-SNE 可视化。左: 标准 BC。右: CLASS。

在 左侧 (标准 BC) , 轨迹是分散的。模型被不断变化的相机角度搞糊涂了，将相似的物理状态映射到嵌入空间中完全不同的区域。在 右侧 (CLASS) , 我们看到了干净、紧密的聚类。所有“接近积木”的状态都聚在一起，所有“举起积木”的状态也都聚在一起，无论相机角度如何。

我们可以通过查看 最近邻 来进一步验证这一点。如果我们使用特定角度的图像查询数据集，模型认为什么图像是“相似”的？

图 15: 标准 BC 的最近邻。检索到的图像看起来在视觉上完全相同 (相同的相机角度) 。

对于 标准 BC (上图) ，最近邻在视觉上是相同的。它检索具有相同相机角度的图像。这证实了它过拟合于视角。

图 14: CLASS 的最近邻。检索到的图像显示的是从不同角度拍摄的相同物理状态。

对于 CLASS (上图) ，最近邻显示了 相同的物理状态 (机械臂相对于积木处于相同位置) ，但是来自于 不同的相机角度 。这正是我们想要的: 视角不变性。

3. 现实世界的鲁棒性

仿真很有用，但真正的考验是物理硬件。研究人员在三个任务上测试了 CLASS: 堆叠、挂杯子和装载烤面包机。他们在演示之间将相机移动到三脚架上的随机位置。

图 17: 现实世界任务推演。

结果反映了仿真的情况。在 Mug-Hang (挂杯子) 任务中，标准的 ImageNet 预训练扩散策略达到了 0% 的成功率 (它可以抓住杯子，但在精确放置时失败了) 。 CLASS-DP 达到了 55-65% 的成功率。

4. 为什么设计选择很重要

研究人员进行了消融研究来证明其架构决策的合理性。

图 4: 设计选择分析图表。

硬 vs. 软 (图表 a): 使用“软”权重 (相似度梯度) 至关重要。恢复到二元的“硬”对比学习会显著降低性能。
序列长度 (图表 b): 你需要查看一系列动作。如果窗口太短，就会缺乏上下文。
相似度度量 (图表 c): DTW 优于简单的 L2 距离，因为它能处理人类演示中的时间错位。

5. 效率与扩展性

对预训练的一个普遍担忧是计算成本。有趣的是，CLASS 加快了整个过程。

图 10: 训练曲线显示 CLASS 收敛速度比 BC 快。

因为表征是先学习的且高度结构化，下游策略学习 (微调) 比从头开始训练 BC 收敛得快得多。

此外，CLASS 具有良好的扩展性。随着演示数量的增加，正样本对的质量提高，从而导致更好的表征。

图 11: 扩展定律。随着数据集规模增加，CLASS 始终优于 BC。

参数化与非参数化推理

CLASS 论文中一个引人入胜的方面是它以两种方式评估表征:

参数化: 训练神经网络 (策略头) 来预测动作。
非参数化 (检索) : 完全不训练策略头。相反，在测试时，机器人对当前图像进行编码，在训练集中找到最近邻 (使用余弦相似度) ，并平均它们的动作序列。

这种基于检索的推演公式为:

使用最近邻加权平均的非参数化动作推演公式。

理想情况下，如果表征是完美的，你甚至不需要策略网络——你可以直接复制最相似训练示例的动作。实验表明, 仅表征 (Rep-Only/非参数化) 的性能惊人地具有竞争力，通常能匹配或击败标准 BC，并且推理时间明显更快 (因为它避免了繁重的扩散步骤) 。

图 12: 推理时间比较。Rep-Only 比扩散策略 (DP) 快得多。

结论

CLASS 框架凸显了机器人学习未来的一个关键见解: 动作是视觉最好的监督者。

当我们希望机器人执行任务时，背景的具体像素值或相机的确切角度是无关紧要的。重要的是机器人与物体之间的功能关系。通过强制视觉编码器基于“接下来发生什么” (动作序列相似性) 而不是“看起来像什么” (像素相似性) 来组织世界，CLASS 创建了对现实世界的混乱具有鲁棒性的表征。

对于进入该领域的学生和研究人员来说，CLASS 是一个极好的例子，展示了如何将 自监督学习 (SSL) 和 对比学习 从计算机视觉调整到机器人技术中。它使我们从脆弱的单视角模仿转向鲁棒的、可泛化的行为学习。

随着我们迈向在海量“野外”数据集 (如 YouTube 视频或多样化的机器人车队) 上训练机器人，像 CLASS 这样能够从异构数据中提取共享行为的方法将是必不可少的构建块。

引言#

问题所在: 行为克隆中的视觉过拟合#

解决方案: CLASS#

1. 用动态时间规整 (DTW) 衡量行为#

2. 软对比学习#

完整架构#

实验设置: 异构性的挑战#

关键结果#

1. 仿真性能#

2. 可视化隐空间#

3. 现实世界的鲁棒性#

4. 为什么设计选择很重要#

5. 效率与扩展性#

参数化与非参数化推理#

结论#

引言