利用生成式 AI 攻破机器人：预测性红队测试指南

引言: “实验室里没问题”难题

想象一下，你花了数周时间训练一个机械臂来执行操作任务，比如抓取物体并将它们分类放入箱子。你使用的是模仿学习 (Imitation Learning) ，向机器人展示了数千次演示。在你的实验室里，在明亮的荧光灯和标准的粉色桌垫上，机器人表现得像个明星，成功率高达 90%。

然后，你把桌子向窗户移近了两厘米。或者可能有人穿着鲜红色的衬衫走过。又或者你把桌垫换成了蓝色的。突然间，机器人的表现直线下降。它挥舞着手臂，抓不住物体，或者完全僵住。

这就是视觉运动策略 (visuomotor policies) 典型的脆弱性。基于视觉数据训练的机器人对“分布偏移 (distribution shifts) ”——那些对人类来说微不足道但对神经网络来说却极其陌生的环境变化——出了名地敏感。

传统上，发现这些失效模式的唯一方法是硬件评估 。你必须物理上设置好机器人，改变光照，增加杂物，并运行数百次试验。这不仅缓慢、昂贵，而且需要无休止的人工监督。

但是，如果我们可以在不接触机器人的情况下预测这些故障呢？如果我们能利用生成式 AI “幻觉”出这些困难的场景，并在数字世界中对机器人的大脑进行测试呢？

这就是 Google DeepMind 和普林斯顿大学的研究人员提出的预测性红队测试 (Predictive Red Teaming) 的前提。在这篇文章中，我们将深入探讨他们的论文《预测性红队测试: 在不损坏机器人的情况下攻破策略》 (Predictive Red Teaming: Breaking Policies Without Breaking Robots) ，并探索 RoboART——一个利用图像编辑和异常检测来对机器人进行虚拟压力测试的流程。

图 1: 预测性红队测试和 RoboART 流程概述。

背景: 为什么机器人如此脆弱

要理解解决方案，我们首先需要理解问题所在。现代机器人操作通常依赖于视觉运动扩散策略 (Visuomotor Diffusion Policies) 。这些是将图像 (来自摄像头) 作为输入并输出一系列动作 (电机运动) 的神经网络。

这些策略是通过行为克隆 (Behavior Cloning) 训练的。机器人观察人类完成任务，并试图复制“我所看到的”和“我所做的”之间的关系。问题在于，机器人并没有学习杯子的概念；它学习的是像素模式。如果光照改变，像素模式也会随之改变，机器人就会进入未定义的区域。

红队测试的概念

“红队测试 (Red Teaming) ”是一个借用自军事和网络安全的术语。它涉及一个小组 (红队) 扮演对手的角色来攻击系统并寻找漏洞。在大型语言模型 (LLMs) 的背景下，红队测试涉及诱导模型说出有毒或有偏见的内容。

在机器人技术中, 具身红队测试 (Embodied Red Teaming) 通常意味着寻找机器人失效的物理场景。然而，物理地做这件事是不可扩展的。如果你想测试 50 种不同的光照条件和 20 种不同的桌子高度，你将面临数周的体力劳动。这篇论文提出将该过程完全转移到软件领域。

核心方法: RoboART

研究人员推出了 RoboART (机器人自动化红队测试，Robotics Automated Red Teaming) 。目标很简单: 拿一个在“标称” (正常/理想) 条件下训练的策略，预测它在“非标称” (变化后) 条件下的表现。

该流程由两个独特的阶段组成: 编辑 (Edit) 和预测 (Predict) 。

第一阶段: 生成式图像编辑

第一步是创建非标称数据。既然我们不想物理上设置蓝色的桌子或调暗灯光，我们就使用最先进的生成式 AI 来修改机器人现有的观测数据。

团队使用的是 Imagen 3 , 一种基于扩散的图像编辑模型。他们提取机器人训练集中的原始图像 (在这些图像中机器人是成功的) ，并应用基于文本的编辑。

例如，一个提示词可能是: “在粉色垫子的边缘添加一个大垃圾桶。”

图 3: 生成式图像编辑示例。上排: 原始图像。下排: 添加了垃圾桶的编辑后图像。注意阴影和透视的一致性。

如图 3 所示，结果令人印象深刻。生成模型不仅仅是在图像上粘贴一个 2D 剪贴画垃圾桶；它将物体融入场景中，同时尊重摄像机角度 (俯视与腕部相机) 和光照。这使得研究人员能够为各种环境因素创建数据集，例如:

光照变化 (红色、绿色、蓝色色调) 。
背景变化 (桌垫颜色) 。
干扰物 (人、垃圾桶、随机物体) 。
几何形状变化 (通过缩放模拟桌子高度变化) 。

VLM 评审 (The VLM Critic)

生成模型是概率性的——有时它们会失败。它们可能会扭曲机械臂或未能添加所请求的物体。为了自动化质量控制，RoboART 采用了一个视觉语言模型 (VLM) , 具体来说是 Gemini Pro 1.5。

系统会生成编辑的四个变体。VLM 充当评论家，审查原始图像、编辑后的候选图像和文本指令。它会选择忠实遵循指令且没有破坏图像其余部分的最佳编辑。

图 4: 视觉语言模型充当过滤器，选择与文本描述相符的最佳编辑图像。

第二阶段: 通过异常检测进行故障预测

现在我们拥有成千上万张代表困难场景的“假”图像 (例如，一个带有红色桌子的黑暗房间) ，我们如何知道机器人是否会失败？我们无法实际执行动作，因为图像是合成的。

这里的洞察是使用异常检测 (Anomaly Detection) 。假设很简单: 如果机器人的策略发现新图像比其训练数据“令人困惑”或“怪异”，那么它很可能会失败。

置信度的数学原理

研究人员通过查看策略内部的嵌入空间 (embedding space) 来衡量“怪异程度”。当神经网络处理图像时，它将其转换为数字向量 (嵌入) 。在语义上相似的图像在这个空间中应该靠得很近。

他们定义了一个异常评分 (Anomaly Score) , 记为 \(s_{\pi}\)。对于给定的编辑后观测 \(o\)，他们计算其与原始标称数据集 \(S_{nom}\) 中最近邻居的余弦距离。

公式 2: 异常评分是根据当前观测的嵌入与最近标称嵌入之间的余弦距离计算得出的。

如果这个距离很大，说明策略看到了它不认识的东西。

为了将这个分数转化为二元的“通过/失败”预测，他们需要一个阈值 \(\tau\)。他们使用一种称为共形预测 (Conformal Prediction) 的统计技术。这允许他们根据一组正常的验证图像来设定阈值，确保异常检测器已根据机器人的基准性能进行了校准。

公式 8: 使用共形预测确定异常阈值。

预测成功率

最后，系统预测特定环境因素 (如“蓝色光照”) 下的成功率。他们假设成功率大致是异常率的倒数。

公式 1: 预测的成功率大约是 1 减去异常率。

这里，\(\alpha_f^{\pi}\) 是被标记为异常的编辑图像的百分比。

公式 7: 特定因素的异常率计算。

算法总结

整个过程是自动化的。用户只需定义他们想要测试的因素 (例如，“背景中有人”) ，RoboART 就会处理生成、过滤和评分。

算法 1: 完整的 RoboART 算法，展示了从策略输入到性能预测的流程。

实验与结果

为了证明这一方法的有效性，作者并没有仅仅停留在模拟中。他们在真实机器人上运行了超过 500 次硬件试验来验证他们的预测。

设置:

任务: 抓取和放置物体。
策略: 他们测试了两种不同的架构:

\(\pi_{hyb}\) (混合策略): 结合了轨迹优化和扩散模型。
\(\pi_{dfn}\) (原生扩散策略): 标准的端到端学习方法。

条件: 12 种不同的非标称条件，包括彩色光照、不同的背景垫和各种干扰物。

图 15: 实验中使用的混合策略和扩散策略的架构。

因素

研究人员针对一系列视觉挑战测试了机器人。如图 2 所示，这些挑战从细微的光照变化到显著的视觉混乱不等。

图 2: 在硬件上测试的 12 种环境因素，包括光照变化、背景颜色和干扰物。

预测与现实相符吗？

结果显示，RoboART 的预测与实际物理成功率之间存在很强的相关性。

排序: RoboART 正确识别了哪些因素最具破坏性。例如，它正确预测了改变桌子高度对混合策略将是毁灭性的，而增加人类干扰物则是可控的。
绝对准确性: 预测成功率与真实成功率之间的平均差异小于 0.19 (19%)。考虑到现实世界机器人技术的噪声，这是高度准确的。

图 5: 预测性能与真实性能之间的相关性。图表显示 RoboART 准确地对不同场景的难度进行了排序 (左) ，并估计了绝对成功率 (右) 。

在图 5 中，你可以看到这种相关性。数据点通常紧贴对角线，表明当 RoboART 说“这很难”时，机器人在硬件上实际上也会失败。

“那又怎样？”: 针对性数据收集

预测失败很有用，但预防失败更好。RoboART 最强大的应用是针对性数据收集 。

如果 RoboART 告诉你，你的机器人在“蓝色光照”和“绿色桌子”下会失败，你就不需要猜测接下来该收集什么数据。你可以专门去收集少量这些确切条件下的真实世界数据。

研究人员正是这样做的。他们使用 RoboART 标记为最困难的三个条件的数据对策略进行了微调。

图 6: 使用针对性数据微调策略带来了巨大的性能提升，即使在未见过的条件下也是如此。

结果 (图 6) 非常显著:

巨大提升: 针对性条件下的性能提高了 2–7 倍 。
跨域泛化: 令人惊讶的是，机器人在未受训练的条件下也表现得更好。在“蓝色光照”下训练有助于它更好地处理“红色光照”。这表明让策略接触针对性的分布偏移可以使底层视觉表示在整体上更加鲁棒。

结论与未来影响

论文《预测性红队测试》为机器人技术的最大瓶颈之一——依赖物理测试——提供了一个令人信服的解决方案。通过结合生成式 AI 的创造力和异常检测的统计严谨性, RoboART 允许工程师在部署前在数千个虚拟场景中对机器人进行压力测试。

关键要点:

生成式编辑适用于机器人技术: 现代图像编辑模型 (如 Imagen 3) 足以创建用于机器人策略的逼真“对抗性”输入。
内部困惑预测外部失败: 你不需要运行机器人就能知道它会失败；你只需要测量输入在策略嵌入空间中与训练分布的距离。
可操作的洞察: 这不仅仅是为了评估。它指导了数据收集过程，实现了高效的策略改进。

局限性

这种方法并非魔法。存在 “编辑-现实差距 (Edit-to-Real gap) ” 。例如，通过生成式 AI 改变图像中的光照并不总是能像真实物理那样完美地投射阴影。此外，当前的方法着眼于单张图像，而不是时间上的不一致性 (视频) ，这可能是未来的研究领域。

此外，RoboART 依赖于视觉异常。它无法预测由非视觉因素引起的故障，例如物体比看起来更重 (物理属性) 。

尽管存在这些局限性，RoboART 代表了迈向更安全、更可靠机器人的一大步。它使我们从“部署并祈祷 (deploy and pray) ”的范式转变为“预测并准备 (predict and prepare) ”。

图 9: 对真实观测结果进行异常检测评估，证实了即使不进行生成式编辑，底层假设也是成立的。

引言: “实验室里没问题”难题#

背景: 为什么机器人如此脆弱#

红队测试的概念#

核心方法: RoboART#

第一阶段: 生成式图像编辑#

VLM 评审 (The VLM Critic)#

第二阶段: 通过异常检测进行故障预测#

置信度的数学原理#

预测成功率#

算法总结#

实验与结果#

因素#

预测与现实相符吗？#

“那又怎样？”: 针对性数据收集#

结论与未来影响#

关键要点:#

局限性#