利用几何结构攻破机器人: 如何对操纵策略进行红队测试

想象一下,你训练了一个机器人去抓取一把螺丝刀。你在数千次模拟中对它进行了训练,它达到了 95% 的成功率。你准备好部署了。但是,在现实世界中,你递给机器人一把稍微弯曲的螺丝刀,或者手柄比训练集里的稍微厚一点。突然间,机器人遭遇了灾难性的失败——它打滑了,弄掉了物体,或者根本抓不稳。

这是机器人技术中的一个经典问题: 对分布外几何形状的脆弱性 。 标准基准通常在经过策划的、“标称”物体集上评估机器人。它们很少测试系统如何应对现实中杂乱、不完美的变异。

在这篇文章中,我们将深入探讨一种名为 几何红队测试 (Geometric Red-Teaming, GRT) 的新框架。这项研究提出了一种自动发现“崩溃形状 (CrashShapes)”的方法——即物理上合理,但会导致预训练机器人策略失败的变形物体。通过将策略视为黑盒并利用仿真在环 (simulation-in-the-loop) 优化,GRT 揭示了机器人操纵系统的隐藏漏洞。

图 1: GRT 通过极小且合理的几何编辑揭示了真实机器人的策略失败。上图: 标称的螺丝刀、瓶子和 USB 插头均成功。下图: CrashShapes 导致了糟糕的抓取姿态、抓取滑脱,以及由于插头在夹持器内旋转导致的插入失败。细微且逼真的变形让原本在原始物体上成功的策略崩溃了。

如图 1 所示,该系统采用标准物体 (上排) 并发现导致抓取不良、滑脱或插入失败的细微几何变化 (下排) ——即使这种变形在人类观察者看来微不足道。

问题所在: 静态基准 vs. 动态现实

在计算机视觉 (CV) 和自然语言处理 (NLP) 等领域,“红队测试 (Red-Teaming)”是一种标准做法。研究人员积极尝试利用对抗性样本来攻破他们的模型——例如带有不可察觉噪声的图像欺骗分类器,或绕过大语言模型安全过滤器的提示词。

机器人领域缺乏针对 3D 几何的强大等效方法。大多数评估发生在像 YCB (一组标准日常物品) 这样的静态数据集上。如果机器人能抓起 YCB 芥末瓶,我们就假设它能抓起任何芥末瓶。这种假设是危险的。几何变化会改变可供性 (affordances)——即物体允许交互的特定部分 (如把手或边缘) 。如果抓取策略依赖于某种特定的曲率,而这种曲率因为轻微的凹痕而消失,那么该策略就是脆弱的。

GRT 旨在回答这个问题: 我们能否在保持物体物理合理性的同时,自动生成导致灾难性失败的几何变形?

解决方案: 几何红队测试 (GRT)

GRT 是一个模块化框架,整合了三个不同的概念:

  1. VLM 引导的选择: 使用视觉语言模型 (如 GPT-4o) 根据语义推理决定在何处使物体变形。
  2. 雅可比场变形: 一种平滑且逼真地使网格变形的数学方法。
  3. 黑盒优化: 一种遗传风格的算法,在物理模拟器中进化这些形状,以最小化机器人的成功率。

图 2: GRT 系统概览。给定任务描述和标称物体 (初始化参数) ,使用视觉语言模型选择锚点和把手点 (a)。采样把手位移以定义变形候选群。每个样本通过基于雅可比场的优化转换为扰动网格 (b),并使用冻结策略在仿真中进行评估 (c)。导致失败的变形被采样以指导下一代种群。

如图 2 所示,工作流是循环的。它从一个标称物体开始,识别用于操纵的关键点,生成变形“候选”种群,在模拟器 (Isaac Gym) 中测试它们,并进化种群以引发失败。

第一步: 哪里变形?(VLM 引导)

你不能简单地随机移动 3D 网格的顶点。这样做会导致尖锐、锯齿状或非流形的网格,看起来像故障而不是真实的物体。此外,并非物体的所有部分都与特定任务相关。如果你在测试机器人插入 USB 驱动器的能力,让塑料外壳变形可能无关紧要,但稍微弯曲连接器头则是至关重要的。

为了解决这个问题,研究人员采用了视觉语言模型 (VLM) 。 他们开发了一种两阶段的提示策略。

  1. 几何推理: 向 VLM 展示叠加了编号关键点的物体多视图。要求它识别哪些点可以作为“把手 (handles)” (移动的点) 和“锚点 (anchors)” (保持固定的点) ,以创建有意义的形状变化。
  2. 任务关键性排序: VLM 根据特定任务 (例如“对抓取策略进行红队测试”) 对这些子集进行排序。它寻找那些合理但可能引发问题的变化。

图 3: 用于 3D 把手点选择的两阶段 VLM 提示策略。首先,几何推理模板将规范视图面板和索引关键点与高级任务描述对齐,引导 VLM 推断哪些顶点控制有意义的网格变形。接下来,任务关键性排序模板要求模型根据合理性和任务相关性对这些候选进行帕累托排序,生成一组紧凑的把手点,用于有针对性的、任务感知的红队测试。

这种语义基础确保了优化搜索空间集中在物体真正重要的部分,使得该过程比随机搜索高效得多。

第二步: 如何变形?(雅可比场)

一旦选择了“把手”点,系统需要一种方法来移动它们,同时平滑地拖动网格的其余部分。研究人员改编了一种称为 As-Plausible-As-Possible (APAP) 的技术,特别是其雅可比场变形阶段。

数学目标是找到新的顶点位置 (\(V^*\)),以最小化局部几何的变形 (尽可能保留原始三角形的方向和比例) ,同时满足把手和锚点的约束。

() \\boldsymbol { V } ^ { * } = \\underset { \\boldsymbol { V } } { \\arg \\operatorname* { m i n } } \\left| \\left| \\boldsymbol { L } \\boldsymbol { V } - \\boldsymbol { \\nabla } ^ { T } \\boldsymbol { A } \\boldsymbol { J } \\right| \\right| ^ { 2 } + \\lambda | | \\boldsymbol { K } _ { a } \\boldsymbol { V } - \\boldsymbol { T } _ { a } | | ^ { 2 } , ()

在这个方程中:

  • \(L\) 代表拉普拉斯算子 (描述局部网格连接性) 。
  • \(J\) 是雅可比场 (局部旋转/缩放变换) 。
  • 第二项确保锚点 (\(T_a\)) 保持在它们应该在的位置。

有趣的是,研究人员发现完整的 APAP 流程 (包含一个“扩散先验”以使形状看起来像学习到的分布) 实际上对某些工程物体是有害的。

图 6: APAP 扩散先验在 USB 插头上引起的变形失败。虽然仅使用雅可比场的变体保留了连接器几何形状,但完整的流程产生了不切实际的变形。这些偏差严重破坏了插入任务的可行性。

如图 6 所示,将完整的扩散先验应用于 USB 插头 (中间列) 破坏了连接器的几何结构,使得无论机器人技术多么高超都无法插入。仅使用雅可比场的方法 (右列) 在保留连接器结构完整性的同时,允许了必要的变形。

此外,省略扩散先验提供了巨大的速度提升——将每个物体的处理时间从 10 分钟减少到仅 22 秒,这对于运行数千次优化循环至关重要。

第三步: 寻找失败 (优化)

有了使物体变形的方法,系统现在需要找到特定的变形参数 \(\theta\) (把手点的移动向量) ,以最小化机器人的性能 \(\mathcal{J}\)。

() \\theta ^ { * } = \\underset { \\theta \\in \\Theta , D _ { \\theta } ( M ) \\in \\mathcal { G } ( M ) } { \\arg \\operatorname* { m i n } } \\mathcal { I } ( \\pi , D _ { \\theta } ( M ) ) , ()

由于模拟器 (Isaac Gym) 和策略成功指标通常是不可微的 (你无法轻易计算梯度) ,标准的梯度下降法行不通。相反,GRT 使用了一种基于种群的、无梯度的名为 TOPDM 的方法。

算法 1: 通过模拟器反馈对黑盒操纵策略进行红队测试

如算法 1 所述,该过程如下运作:

  1. 初始化一个随机变形种群。
  2. 在模拟器中评估每个候选项 (试演) 。
  3. 选择精英: 挑选出导致成功率最低的前百分之几的变形。
  4. 变异: 通过微扰精英来创建下一代。
  5. 重复直到发现灾难性失败或时间耗尽。

为了确保变形不会变得荒谬 (比如把杯子变成扁平的煎饼) ,研究人员引入了 平滑度分数 (Smoothness Score, SS) 约束。

() \\mathrm { S S } ( D ) = \\frac { 1 } { M } \\sum _ { i = 1 } ^ { M } | d _ { i } | _ { 2 } , \\qquad D = { d _ { i } } _ { i = 1 } ^ { M } . ()

该分数限制了把手点的平均位移。优化器会过滤掉任何超过特定“变形预算” \(\tau\) 的候选项:

() \\mathcal { C } _ { \\tau } ( M ) \\ = \\ { \\theta \\in \\Theta : \\mathrm { S S } \\big ( D ( \\theta ) \\big ) \\leq \\tau \\ } . ()

实验结果: 崩溃

研究人员在三个不同的领域测试了 GRT:

  1. 刚体抓取: 使用 Contact-GraspNet 抓取 YCB 物体。
  2. 高精度插入: 将类似 USB 的插头插入插座。
  3. 关节操纵: 打开抽屉。

结果非常明显。在标称物体上表现近乎完美的策略在 GRT 发现的形状下崩溃了。

表 1: 跨任务的红队测试结果。最终下降幅度、失败迭代次数和 AUC 衡量失败严重程度;△Comp. 量化几何偏差。

在表 1 中,“Final Drop”表示成功率的下降幅度。

  • 抓取: 下降了约 76%。
  • 关节操纵: 下降了约 61-98%。
  • 插入: 下降了约 67-77%。

这些失败的视觉演变过程令人着迷。优化过程缓慢地改变物体形状,寻找策略的盲点。

图 4: 整个优化过程中几何红队测试的演变。每一行显示了一个物体通过我们的流程在三个任务中经历的变形: 刚体抓取 (第 1-4 行) 、高精度插入 (第 5 行) 和关节抽屉操纵 (第 6 行) 。各列显示了带有形状复杂度和任务成功率注释的变形阶段。结果证实,微小且合理的变形就能使性能崩溃,且通常不会显著增加复杂度。

看看图 4 底部的 L形支架。变化是微妙的,但成功率从 97.4% 降到了 11.4%。这凸显了学习到的策略是多么“脆弱”;它们过拟合了训练物体的特定几何特征。

VLM 引导重要吗?

你可能会想,我们真的需要一个花哨的 VLM 来选择把手点吗?难道不能随机选点吗?研究人员进行了一项消融研究来测试这一点。

表 2: 使用 Contact-GraspNet 对 22 个 YCB 物体进行抓取的消融结果。我们评估了把手选择策略 (启发式 vs. VLM 引导) 和变形搜索方法 (高斯扰动 vs. 优化) 的影响。所有基于关键点的方法 (“所有把手”除外) 都使用与 VLM 引导平均值匹配的固定把手数量。结果表明,VLM 引导和优化都提高了失败的严重程度和收敛速度。

表 2 将 VLM 引导 + 优化 (提出的方法) 与启发式 (随机) 选择和简单的高斯扰动进行了比较。

  • VLM 引导实现了最大的性能下降 (76.3%)。
  • 它比启发式方法更快达到 50% 的失败率 (7.32 次迭代) 。
  • 它保持了较低的几何复杂度 (\(\Delta\) Complexity 0.041),意味着形状更简单、更真实,但能更有效地攻破机器人。

蓝队行动: 修复机器人

红队测试的目标不仅仅是破坏——而是让系统变得更强。这就是 蓝队行动 (Blue-Teaming) 发挥作用的地方。

研究人员将 GRT 发现的“CrashShapes”反馈到训练流程中。他们使用 PPO (Proximal Policy Optimization) 在这些困难的几何形状上微调策略。

表 3: 高精度工业插入任务的仿真蓝队测试结果。报告了微调前后的 CrashShape 性能;最后一列确认保留了标称性能。标称预训练成功率: \\(96 \\%\\) (基于状态) 和 \\(86 \\%\\) (点云初始化) 。

表 3 中的结果令人鼓舞。

  • 对于基于状态的插入策略,“CrashShape 1” (CS-1) 的成功率从 25.0% 跃升至 87.8%
  • 至关重要的是,在标称 (原始) 物体上的性能保持在高位 (87.5%)。

这证明了 CrashShapes 是有效的训练信号。它们不是那种不可能完成的、无意义的“对抗性样本”;它们是有效的、高难度的例子,迫使策略更好地泛化。

从仿真到现实

对基于仿真的研究的一个常见批评是“虚实迁移差距 (Sim-to-Real gap)”。这些细微的几何失败在现实世界中真的重要吗,还是它们只是利用了物理引擎的漏洞?

为了验证这一点,团队 3D 打印了在模拟器中发现的 CrashShapes,并在物理机器人 (用于插入任务的 xArm 6,用于抓取任务的 Franka Emika Panda) 上进行了测试。

图 7: 用于现实世界插入实验的物理设置和制造的几何形状。左: 标称 USB 插头和由我们的框架生成的两个红队 CrashShapes。这些 3D 打印变体保留了连接器的合理性,同时引入了细微的几何偏差。右: 用于物理测试的 xArm 6 机器人和装配平台。

图 8: 用于现实世界抓取实验的物理设置和制造的几何形状。左: 标称螺丝刀和瓶子及其 CrashShapes (变形变体) 。右: 桌面 Franka Emika Panda 和用于获取点云的 Azure Kinect 相机。这些 3D 打印变体在保留合理性的同时改变了与抓取相关的几何形状。

现实世界的结果与仿真非常吻合。

表 4: 跨插入和抓取的现实世界验证。两项任务的列是统一的。对于插入,CS-1 和 CS-2 是两个打印的 CrashShapes。对于抓取,每个物体有一个在 CS-1 下报告的打印 CrashShape;CS-2 为“-”。

如表 4 所示:

  • 插入: 原始策略在标称插头上的成功率为 90%。在 CS-1 上,它骤降至 22.5%
  • 恢复: 当他们部署“蓝队化”后的策略 (在模拟中微调) 时,CS-1 上的现实世界成功率恢复到了 90.0%

这是一个强有力的验证。它证实了 GRT 发现的物理、几何漏洞可以迁移到现实中,并且基于仿真的修正可以有效地修复现实世界中的这些漏洞。

结论与启示

几何红队测试 (GRT) 引入了一种严格的方法来压力测试机器人操纵。GRT 不依赖于给我们虚假安全感的静态测试集,而是主动寻找导致失败的几何“边缘情况”。

主要收获:

  1. 几何是失败的一个向量: 形状的微小变化可以完全破坏看似稳健的策略。
  2. 语义引导是高效的: 使用 VLM 引导变形搜索比随机噪声能更快地发现失败,并产生更合理的形状。
  3. 可操作的反馈: 发现的 CrashShapes 不仅用于评估;它们是宝贵的训练数据,可以显著提高现实世界的鲁棒性。

随着机器人走出受控的工厂环境,进入非结构化的家庭和办公室,像 GRT 这样的工具将变得至关重要。我们无法手动策划机器人可能遇到的每一个弯曲的勺子或凹陷的罐头。我们需要自动化的对手为我们找到这些故障,以便我们能在部署前修复它们。