机器人为何失败：利用因果数据筛选修正模仿学习

如果你一直在关注大型语言模型 (LLM) 的爆发式增长，你可能熟悉“缩放定律 (scaling laws) ”假说: 更多的数据通常会带来更好的性能。然而，随着模型规模的扩大，一个微妙的推论显现出来——数据质量与数据数量同样重要，甚至更为重要。在机器人领域，这一教训正被证明更为关键，且实施起来要困难得多。

在机器人模仿学习 (Imitation Learning, IL) 中，我们训练策略来复制人类的演示。但并非所有的演示都是生而平等的。有些演示很混乱，有些依赖于无法泛化的策略，还有些包含“虚假关联 (spurious correlations) ” (比如机器人仅在桌子是白色时才学会抓取物体) 。

传统上，机器人学家依赖直觉或启发式方法来清洗数据。他们可能会问: “这条轨迹平滑吗？”或者“人类操作员在这里犯错了吗？”但一篇名为 《CUPID: 利用影响函数筛选你的机器人喜爱的数据》 (CUPID: Curating Data your Robot Loves with Influence Functions) 的新论文指出，我们对数据质量的人类直觉往往是错误的。相反，作者提出了一个数学框架，将特定的训练样本与机器人在现实世界中的实际成功或失败进行因果关联。

图 1: 我们提出了 CUPID，这是一种机器人数据筛选方法，利用影响函数来预测性地回答关于每个演示对下游策略性能影响的反事实问题。

问题所在: 训练与现实的脱节

要理解为什么机器人领域的数据筛选如此困难，首先需要看看机器人通常是如何训练的。标准方法是行为克隆 (Behavior Cloning, BC) 。

在 BC 中，我们收集专家轨迹 (状态和动作的序列) 数据集。然后训练一个神经网络 (即策略) 来最小化损失函数——本质上，如果网络预测的动作与专家的动作不同，我们就对其进行惩罚。

陷阱就在这里。在标准的计算机视觉或 NLP 中，如果验证损失下降，模型通常就会变好。在机器人领域, 低训练损失并不能保证任务成功。 机器人可以完美地记住人类的动作，但仍可能因为以下原因导致灾难性的失败:

复合误差 (Compound Errors) : 任务早期的微小偏差会将机器人置于它从未见过的状态，从而导致进一步的错误。
脆弱的策略 (Brittle Strategies) : 机器人可能会学习一种在训练设置中有效，但如果光照改变或物体稍微移动就会失效的策略。
虚假关联 (Spurious Correlations) : 机器人可能会关注背景特征而不是物体本身。

CUPID 的作者认为，我们不应该基于人类看着“好”的标准来筛选数据。我们应该基于什么能最大化策略的期望回报 (Expected Return) (即解决任务的概率) 来筛选数据。

解决方案: 通过影响函数进行因果归因

这篇论文的核心贡献是一种称为 CUPID (筛选影响性能的演示，CUrating Performance-Influencing Demonstrations) 的方法。其目标是回答一个反事实问题: “如果我从训练集中移除这个特定的演示，我的机器人成功率会如何变化？”

如果移除一个演示使机器人表现更好 (或性能没有变化) ，那么该数据可能是有害的或多余的。如果移除它使机器人表现变差，那么该数据就是至关重要的。

什么是影响函数？

为了在不重新训练模型数千次的情况下回答这个问题 (重新训练成本过高) ，作者利用了影响函数 (Influence Functions) 。

影响函数源于稳健统计学，允许我们近似计算如果增加某个训练点的权重或将其移除，模型参数会如何变化。在标准深度学习中，我们关注训练点如何影响测试损失。

然而，CUPID 需要关注训练点如何影响期望回报 (\(J(\pi_\theta)\)) ，而不仅仅是测试损失。

图 2: 使用 CUPID 进行数据筛选。在使用行为克隆基于一组演示训练策略后，我们在线评估它以收集闭环轨迹并估计策略的期望回报。CUPID 根据这些演示对此性能估计的测量影响对其进行排名，并选择前 k 个。

如上图工作流程所示，该过程如下:

训练 (Train) : 使用行为克隆在所有可用数据上训练一个基线策略。
评估 (Evaluate) : 在环境 (或模拟器) 中运行机器人以收集“试运行 (rollouts) ”。有些会成功，有些会失败。
归因 (Attribute) : 使用 CUPID 计算每个原始训练演示对这些成功或失败的贡献程度。

数学引擎

挑战在于环境的动力学是未知的且不可微的——你不能简单地就神经网络权重对“成功”布尔值求梯度。

为了解决这个问题，作者将影响函数与“对数导数技巧 (log-derivative trick) ” (常用于强化学习中的 REINFORCE 算法) 相结合。

他们将性能影响 (Performance Influence) (\(\Psi_{\pi\text{-inf}}\)) 定义为期望回报相对于训练演示权重的导数。作者为此推导出了一个强大的分解式:

显示性能影响分解为期望回报和动作影响的公式。

让我们拆解这个方程 (论文中的公式 3) :

\(\Psi_{\pi\text{-inf}}(\xi)\): 特定训练演示 \(\xi\) 的“得分”。
\(R(\tau)\): 试运行的回报 (例如，成功为 +1，失败为 -1) 。
\(\Psi_{a\text{-inf}}\): 动作影响 (Action Influence) 。这衡量了训练演示 \(\xi\) 在多大程度上促使策略采取了试运行中看到的特定动作 \((s', a')\)。

通俗解释: CUPID 观察一次试运行。如果试运行成功 (\(R=1\)) ，它会查看机器人采取的每一个动作。如果某个训练演示强烈地促使机器人采取那些“获胜”的动作，该演示就会得到正分。相反，如果试运行失败 (\(R=-1\)) ，且某个训练演示鼓励了导致该失败的动作，该演示就会得到负分。

这是对启发式过滤的深刻转变。即使人类认为某个演示看起来“很乱”也无所谓。如果那个混乱的演示能鼓励导致成功的动作，CUPID 就会将其识别为有价值的。

实验结果: 启发式方法的失效

研究人员在模拟基准测试 (RoboMimic) 和使用 Franka Emika 机器人的真实世界任务中验证了 CUPID。结果恰恰凸显了为什么自动化的、基于性能的筛选是必要的。

1. “质量”陷阱 (混合质量数据)

在 RoboMimic 模拟中，研究人员使用了混合了“低质量” (次优) 人类演示的数据集。他们将 CUPID 与“DemInf” (一种基于互信息/可预测性进行过滤的方法) 和“质量预言机 (Quality Oracle) ” (使用真实标签) 进行了比较。

图 3: RoboMimic 混合质量筛选结果。上图: 数据质量。下图: 策略性能。基于 CUPID 筛选的数据训练的扩散策略取得了比基线更高的成功率。

图 3 中的结果揭示了一个惊人的悖论。看最上面的一行: 像 DemInf 这样的基线非常擅长寻找“高质量”数据 (曲线向上) 。然而，看最下面的一行 (策略成功率) 。 更高的“质量”并不总是意味着更高的成功率。

CUPID (橙色线) 始终选择能带来高成功率的数据，通常优于严格针对人类感知的质量进行优化的方法。这证实了目前最先进的模型 (如扩散策略) 实际上可能受益于一些“次优”数据，因为这些数据提供了更好的覆盖范围或恢复行为。

2. 识别鲁棒策略 (“TuckBox”任务)

真实世界的实验为 CUPID 提供了最具说服力的故事。考虑“TuckBox”任务: 机器人必须将盒子滑到架子下面。

策略 A (滑动) : 操作员滑动盒子。这很顺滑、容易，看起来是“高质量”的。
策略 B (拾取放置) : 操作员拿起盒子并放置它。这比较顿挫，看起来是“低质量”的。

关键点在哪里？在测试环境中，盒子的摩擦力或质量可能会发生变化，使得滑动变得不可靠 (脆弱) ，而拾取放置则保持鲁棒。

启发式方法 (甚至人类标注者) 倾向于偏爱顺滑的滑动演示。但当 CUPID 分析试运行 (滑动经常失败) 时，它正确地识别出拾取放置演示才是成功的驱动因素。

图 5: Franka 扩散策略筛选数据集分布 (过滤) 。(b) TuckBox: 过滤 66% 后的筛选演示分布。拾取放置演示更好。

如上图 (中间) 所示，CUPID (以及 Oracle) 意识到“拾取放置”策略 (蓝色) 是鲁棒的，尽管其视觉质量看似较低，仍将其保留。像 DemInf 这样的基线 (寻找可预测性) 几乎只保留脆弱的“滑动”策略 (红色) ，导致在现实世界中的成功率为 0% (如论文图 4 所示) 。

3. 对抗虚假关联 (“书架”任务)

在另一个实验中，机器人必须从架子上抽出一本书。

场景 A: 目标书籍单独放置。背景是白色的。 (水平拉动有效) 。
场景 B: 目标书籍上面压着重物。背景是深色的。 (水平拉动失败；需要垂直拉动) 。

数据集是不平衡的: 大多数“水平拉动”演示发生在白色背景下。机器人学到了一个虚假关联: 白色背景 \(\rightarrow\) 水平拉动。

当部署在白色背景但书上有重物的测试设置中时，标准策略失败了。CUPID 分析了失败案例，并意识到“水平拉动 + 白色背景”的演示在这些边缘情况下对策略产生了负面影响。通过过滤掉它们，它迫使机器人学习真正的因果机制 (书上的重物) ，而不是背景颜色。

更广泛的影响

这篇论文中最令人兴奋的结果之一是，由 CUPID 筛选的数据不仅对用于筛选的模型有用。作者展示了为标准扩散策略筛选的数据，可用于微调大型通用的视觉-语言-动作 (VLA) 模型 (\(\pi_0\)) 。

图 7: 为单任务扩散策略筛选的数据提高了 pi_0 后训练的性能。

这为机器人学习的未来提出了一个可扩展的工作流:

训练一个更小、更便宜的“侦察”策略。
利用这个侦察策略使用 CUPID 来筛选数据集。
使用清洗后的高性能数据集来训练大型基础模型。

结论

“CUPID”论文向机器人社区发起挑战，不再将数据过滤视为基于静态启发式方法的预处理步骤。通过将数据筛选视为针对闭环性能的优化问题，我们可以识别出哪些演示实际上教会了机器人如何成功。

对于学生和从业者来说，关键的启示是:

相信结果，而非美学: 一个教会脆弱策略的“干净”演示，比一个教会鲁棒性的“混乱”演示更糟糕。
因果关系是关键: 我们需要将训练数据与测试时回报联系起来的方法，而不仅仅是测试时损失。
少即是多: 在有影响力的数据子集上进行训练，往往比在完整数据集上训练能产生更好的策略，尤其是当完整数据集包含冲突或虚假行为时。

随着我们迈向通用机器人时代，像 CUPID 这样的工具可能会成为“DataOps”流程的标准组件，确保我们的机器人不仅被喂食更多的数据，而是正确的数据。

问题所在: 训练与现实的脱节#

解决方案: 通过影响函数进行因果归因#

什么是影响函数？#

数学引擎#

实验结果: 启发式方法的失效#

1. “质量”陷阱 (混合质量数据)#

2. 识别鲁棒策略 (“TuckBox”任务)#

3. 对抗虚假关联 (“书架”任务)#

更广泛的影响#

结论#