想象一个化学实验室。这里充满精确的测量、剧烈的反应和易碎的设备。现在,想象一个机器人试图在这个空间里穿梭。与在桌子上整理积木 (这是一个经典的机器人基准测试) 不同,化学实验涉及深度传感器无法识别的透明玻璃器皿、会晃动和泼洒的液体,以及一旦出现几毫米误差就可能导致危险的安全协议。

多年来,“机器人化学家”的梦想一直受到这些物理现实的限制。机器虽然擅长重复性动作,但很难应对实验科学所需的动态、安全关键的推理。

这就轮到 RoboChemist 登场了。

在智源研究院 (BAAI) 和清华大学研究人员的一篇新论文中,提出了一种新颖的框架,将高层推理与底层灵巧性结合了起来。通过将视觉-语言模型 (VLMs) 与视觉-语言-动作 (VLA) 模型相结合,RoboChemist 实现了以前在机器人实验中未曾见过的自主性和安全性水平。

在这篇深度文章中,我们将探索该系统是如何工作的,为什么“视觉提示 (visual prompting) ”是其秘密武器,以及它如何在无需人工干预的情况下完成像酸碱中和反应这样复杂的实验。

问题: 为什么机器人难以应对化学实验

要理解 RoboChemist 为何是一项突破,我们首先需要了解该领域的难度。随着像 \(\pi_0\) 和 RDT 这样的 视觉-语言-动作 (VLA) 模型的兴起,机器人操控技术已经取得了显著进步。这些模型可以观察图像并输出机器人动作 (关节运动) 。

然而,在化学实验室中,标准的 VLA 面临两个严重的失败点:

  1. 语义盲区 (Semantic Blindness) : 一个标准的 VLA 可能知道如何“拿起杯子”,但它不理解化学实验的语境。它不知道特定的试管必须在顶部加热以避免内容物爆炸,或者溶液必须搅拌直到变成特定颜色。
  2. 感知缺陷 (Perception Gaps) : 许多现有系统依赖深度相机 (RGB-D) 。在充满透明烧杯、试管和移液管的实验室里,深度传感器经常失效。对于机器人来说,在 3D 空间中感知透明物体是非常困难的。

之前的尝试如 VoxPoserReKep 试图弥合这一差距,但在处理透明物体或严格的安全约束时往往力不从心。它们很难将“安全加热”这样的文本指令转化为精确的几何坐标。

解决方案: RoboChemist 架构

RoboChemist 的核心创新在于双循环框架 (dual-loop framework) 。 它不依赖单一模型来完成所有工作,而是将“大脑”的工作分配给视觉-语言模型 (VLM) ,将“手”的工作分配给 VLA 模型,并通过严格的反馈循环将二者连接起来。

展示规划器、视觉提示和执行器循环的 RoboChemist 架构概览。

图 1 所示,该系统分三个不同阶段运行,由 VLM (具体为 Qwen2.5-VL) 进行管理:

  1. 规划器 (大脑) : 它接收一个高层目标 (例如,“执行酸碱中和反应”) ,并将其分解为一系列基本动作 (例如,“抓取玻璃棒”、“搅拌”、“倒入酸”) 。
  2. 视觉提示生成器 (向导) : 这是关键的创新点。VLM 不是简单地告诉机器人“抓取烧杯”,而是观察场景并在图像上绘制边界框或关键点。它实际上是在说: “为了安全,抓取这里 (坐标) 。”
  3. 监控器 (监督者) : 在采取行动后,VLM 会观察结果。液体变清了吗?如果没有,它会触发重试。这就创建了一个能够进行纠错的闭环系统。

核心方法: 视觉提示与闭环

让我们分解一下 RoboChemist 如何使用 视觉提示 来实现精确控制的机制。

仅靠文本是不够的

在许多机器人系统中,指令是基于文本的。“拿起烧瓶。”但在化学中,如何拿起烧瓶至关重要。如果你要加热试管,你不能抓取靠近火焰的底部;你必须抓取上三分之一处。一个在通用数据上训练的标准 VLA 模型可能不知道这一特定的安全协议。

RoboChemist 通过让 VLM 生成 视觉提示 来解决这个问题。系统将实验台的当前图像输入 VLM,并要求它根据安全指南识别安全的抓取点和目标区域。VLM 输出精确的 2D 坐标 (边界框或点) 。

这些视觉提示被叠加在图像上并输入给 VLA。这给了机器人一个明确的目标,大大降低了控制问题的复杂性。

机器人操作方法的比较。Rekep 因间隙问题失败,MOKA 操作危险,而 RoboChemist 安全且符合规范。

上方的 图 3 完美地说明了这一点。

  • ReKep (a) 失败了,因为它依赖深度感知,而深度感知难以处理透明试管,导致抓取失败。
  • MOKA (b) 识别出了抓取点,但将其置于试管中心。在加热时,这会使机器人的夹爪极其危险地靠近火焰——这是一个重大的安全违规。
  • RoboChemist (c) 生成了一个“符合安全规范”的提示。它明确地将试管上部识别为抓取点,并将目标高度设置在火焰上方的安全位置。

酸碱中和反应示例

为了看到完整流程的运作,让我们看一个复杂的长程任务: 酸碱中和反应 。 该实验需要制备碱溶液,加入指示剂 (酚酞) ,然后小心地加入酸直到颜色发生变化——这是一个典型的需要视觉反馈的“滴定”问题。

酸碱中和实验的分步演示。

参考 图 2 :

  1. 开始: 研究人员给出目标。VLM 将其分解为特定的基本任务: 抓取、倾倒、搅拌。
  2. 视觉提示 (步骤 2) : 为了抓取玻璃棒,VLM 在棒周围画了一个绿色边界框,并用一个红点指示确切的抓取位置。这解决了透明度问题——即使深度传感器失效,VLM 也能在 RGB 图像中“看到”玻璃。
  3. 闭环监控 (步骤 5) : 机器人倒入酸。VLM 充当监控器。它会问: “溶液是无色的吗?”
  • *观察 1: * 液体仍然是粉红色的。监控器返回 “N” (否) 。
  • *动作: * 规划器再次触发“倾倒”基本任务。
  • *观察 2: * 液体变清了。监控器返回 “Y” (是) 。
  1. 完成: 只有当化学现实与目标相符时,任务才结束。

这种“外循环” (VLM 检查工作) 使 RoboChemist 能够应对变数。如果酸的浓度略有不同,机器人只需多倒几次,直到反应完成。

实验结果

研究人员在两个方面评估了 RoboChemist: 基本任务 (Primitive Tasks) (单个动作) 和 完整实验 (Complete Experiments) (长工作流) 。他们将其与 ACT、RDT-1B 和 \(\pi_0\) 等最先进的基准模型进行了比较。

基本任务

基本任务包括抓取玻璃棒、加热金属丝、倾倒液体和搅拌等动作。使用的指标是 成功率 (SR)合规率 (CR) ——后者衡量机器人是否遵循了安全规范 (例如,它是否洒出了液体?它是否抓取了试管的灼热部分?) 。

条形图展示了不同方法之间的成功率和合规率比较。

表 2 所示,RoboChemist (尤其是带有闭环“w/ CL”的版本) 在各项指标上都超越了基准模型。

  • 抓取玻璃棒: RoboChemist 达到了 95% 的成功率 , 而强大的 RDT 模型仅达到 20%。基准模型在处理透明、细长的玻璃物体时非常吃力。
  • 合规性: 在安全性 (CR) 方面,RoboChemist 在抓取任务上得分 0.875 , 而 RDT 为 0.100。这证实了视觉提示有效地执行了端到端模型所忽略的安全规则。

机器人执行七种不同基本任务的可视化。

图 6 展示了这些基本任务。注意动作的多样性——从将铂丝精细地插入溶液 (c) 到精确地倾倒液体 (d)。

完整化学实验

对系统的真正考验是将这些基本任务串联成完整的实验。团队测试了五个场景,包括:

  1. 混合 NaCl 和 CuSO\(_4\) (络合反应) 。
  2. 焰色反应 (通过火焰颜色识别金属) 。
  3. 酸碱中和反应。
  4. 热分解。
  5. 蒸发。

三个完整化学实验的可视化: 络合反应、焰色反应和中和反应。

图 4 中,我们看到机器人正在执行这些多步骤协议。 焰色反应 (b) 尤其令人印象深刻。机器人必须将金属丝浸入溶液中,然后将其精确地保持在火焰中以观察颜色变化。

这些完整任务的结果非常明显。在 酸碱中和反应 任务中:

  • ACT: 0% 成功率 (在搅拌/倾倒阶段失败) 。
  • RDT: 0% 成功率。
  • \(\pi_0\): 5% 成功率。
  • RoboChemist: 40% 成功率

虽然 40% 意味着在长程可靠性方面仍有提升空间,但这相比于现有模型几乎完全无法完成此类复杂的多阶段化学任务来说,是一个巨大的飞跃。对于像混合 NaCl 和 CuSO\(_4\) 这样较短的任务,RoboChemist 达到了 95% 的成功率

泛化能力: 真正智能的标志

论文的一个主要观点是 RoboChemist 具有泛化能力。它不仅仅是死记硬背特定的杯子或光照条件。

展示焰色反应和置换反应的泛化任务可视化。

图 5 展示了这种泛化能力。系统成功地对不同元素 (\(Ca^{2+}\)、\(Li^+\)、\(Na^+\)) 进行了 焰色反应 (a) , 正确解读了不同的火焰颜色 (砖红色、紫红色、黄色) 。它还处理了 置换反应 (b)复分解反应 (c) , 识别出了沉淀物和气体气泡 (\(CO_2\)) 。

这证实了 VLM 的语义理解能力允许机器人进行适应。如果指令从“测试钠”变为“测试锂”,VLM 会更新其对视觉监控器的期望 (寻找红色而不是黄色) ,而无需从头开始重新训练机器人。

结论

RoboChemist 代表了实验室自动化向前迈出的重要一步。通过认识到机器人需要“眼睛” (感知) 和“大脑” (推理) 来应对化学实验中微妙的危险,研究人员创建了一个非常稳健的系统。

这项工作的主要收获包括:

  1. 视觉提示弥合了差距: 使用 VLM 在图像上绘制边界框,提供了 VLA 模型所缺乏的精确几何锚定,特别是对于透明物体。
  2. 安全是可计算的: 通过根据安全指南生成提示,机器人可以遵守严格的实验室协议 (例如,“不要触摸热玻璃”) 。
  3. 闭环至关重要: 在化学实验中,你不能盲目地执行计划。必须监控反应。RoboChemist 的“规划器-监控器”外循环使其能够对现实世界的物理现象做出反应。

虽然仍存在局限性——处理极其精确的定量任务或从头组装复杂的仪器仍然遥不可及——但 RoboChemist 证明,科学的未来很可能涉及那些不仅能思考实验,还能像人类化学家一样以细心和精确的动作去执行实验的 AI 智能体。