想象你坐在椅子上,一只握着剃须刀片的机械臂开始向你的脸移动。你知道这台机器人的设计初衷是协助剃须,但你并不清楚它的确切路径。它是瞄准了你的脸颊吗?它会停下来吗?它的移动速度会不会太快?

在涉及物理人机交互 (pHRI) 的场景中,例如机器人喂食、沐浴或剃须,互动是充满帮助还是令人恐惧,往往取决于透明度。如果机器人能直接告诉你,“我要慢慢移向你的左脸颊修剪鬓角”,焦虑感就会消失,协作也会变得天衣无缝。

然而,赋予机器人“说出”其意图的能力出奇地困难。传统上,这需要为特定任务硬编码特定的短语。但是,如果我们能构建一个系统,让任何机器人仅通过观察环境和自身的运动规划,就能解释任何物理任务,那会怎样呢?

这正是 CoRI (机器人意图交流,Communication of Robot Intent) 致力于解决的问题,这是一个结合了机器人运动规划与现代视觉-语言模型 (VLM) 推理能力的全新研究框架。

图 1: 我们提出的 CoRI 流程,在辅助沐浴任务中生成意图交流。

核心问题: 沉默的机器人

随着机器人从工业笼子走进我们的家庭和护理设施,它们需要与人类进行物理接触。在辅助机器人领域,机器人可能会为人擦脸、喂食或协助穿衣。

如今机器人传达意图的标准方式是通过视觉提示: 闪烁的 LED 灯、投射在地板上的箭头或在屏幕上显示路径。虽然这些方法对于导航 (例如,扫地机器人发出左转信号) 很有效,但在复杂的操作任务中却行不通。闪烁的灯光无法告诉你机器人为什么要对你的手臂施加压力,或者它需要你身体前倾。

自然语言是人类最直观的界面。挑战在于生成。机器人“知道”的计划是一系列数学路径点 (x, y, z 坐标、速度和力) 。而人类理解的概念是“擦拭手臂”或“靠近嘴巴”。CoRI 的设计初衷就是将前者转化为后者。

CoRI 解决方案: 任务无关的流程

研究人员推出的 CoRI 是一种无需针对特定任务进行训练即可生成自然语言解释的流程。它事先并不知道“剃须”是什么。相反,它是动态推断出来的。

该流程为用户回答了三个关键问题:

  1. 意图 (Intention): 机器人的总体目标是什么?
  2. 运动 (Motion): 它将如何移动? (速度、方向、力度) 。
  3. 配合 (Cooperation): 人类需要做什么?

架构

CoRI 的精妙之处在于它处理数据的方式。如下面的概览所示,系统接收两个通常不兼容的输入: 来自机器人摄像头的 2D 图像和代表机器人未来动作的 3D 数据点列表。

图 2: CoRI 流程概览。该流程将环境的图像观测和规划的 3D 轨迹作为输入。

该流程包含三个主要阶段:

  1. 交互感知轨迹编码: 将数学可视化。
  2. 视觉推理 (VLM): 解释场景。
  3. 语言交流 (LLM): 生成语音。

让我们分解每个阶段的技术创新。

1. 将数学转化为图形 (轨迹编码)

视觉-语言模型 (如 GPT-4o) 非常擅长理解图像,但很难解释原始的数字坐标列表。为了解决这个问题,CoRI 将机器人的运动规划转换为摄像头画面上的视觉叠加层。

首先,系统使用姿态估计 (识别手腕、手肘、肩膀) 检测场景中的人类。然后,它处理轨迹 \(\tau\)。轨迹是一个包含位置、速度和力数据的路径点列表。

然而,一次性解释一段冗长、复杂的动作会让人困惑。CoRI 会根据交互事件自动将轨迹分割成若干“块”。研究人员定义了一套特定的逻辑来决定何时将轨迹切分为新的一段:

基于抓手变化、力变化或暂停来确定分割索引的方程。

这个方程本质上是说,如果出现以下情况,则开始新的分段:

  • 抓手变化 (\(g_i \neq g_{i+1}\)): 机器人张开或闭合手 (例如,抓取毛巾) 。
  • 力变化 (Force Change): 机器人从在自由空间移动 (\(f=0\)) 过渡到进行接触 (\(f \neq 0\)),反之亦然。
  • 暂停 (Pause): 机器人停止移动超过 2 秒 (可能在等待人类) 。

一旦分段完成,流程会将轨迹绘制在图像上。这不仅仅是一条简单的线;它是专为 AI 读取而设计的数据丰富可视化:

  • 起点/终点: 用蓝色和红色方块标记。
  • 速度: 由颜色亮度表示 (深绿色 = 慢,亮绿色 = 快) 。
  • 力: 由线条颜色表示 (青色 = 无力,渐变到品红 = 高力) 。

这使得 VLM 能够“看到”动力学信息。如果 AI 看到一条品红色的线,它就知道机器人正在推压某物。如果它看到一条亮绿色的线,它就知道机器人正在快速移动。

图 8: 剃须任务中参与者 2 的轨迹 2 叠加可视化示例。

在上图 (图 8) 中,你可以看到这种可视化在剃须任务中的实际应用。骨架追踪识别了人类手臂,彩色线条显示了机器人沿手臂的预定路径。这种视觉语境正是 AI 将机器人数据与现实世界联系起来的关键。

2. 视觉推理引擎

一旦轨迹被视觉编码,CoRI 就会查询视觉-语言模型。它执行两步推理过程:

步骤 A: 环境理解 模型观察场景 (为了隐私,面部已模糊处理) 并识别上下文。它看到一个人,可能还有一张床,以及机器人抓手里的工具。

  • *查询: * “机器人拿着什么?”
  • *VLM 输出: * “机器人拿着一块白布。它可能用于清洁或擦拭。”

步骤 B: 轨迹理解 系统随后将带有轨迹叠加层的图像提供给 VLM。它提出结构化的问题: “蓝色方块在哪里?涉及到力吗?它靠近身体的哪个部位?”

通过结合环境语境 (“拿着剃须刀”) 和轨迹视觉信息 (“沿前臂移动且力度较轻”) ,VLM 推断出意图: “机器人正在剃手臂。” 这是在机器人从未被显式编程去了解什么是剃须的情况下实现的。

3. 生成语句

最后,一个推理型 LLM (如 o3-mini) 接收 VLM 的结构化摘要,并将其转化为自然、面向用户的语音。研究人员优先考虑简洁、友好和指导性的语言。

机器人不会说: 思考中……“轨迹段 2 从坐标 X 移动到坐标 Y,伴随 2 牛顿的力”, 而是说:

“我现在正从你的左手腕移向左手肘……随着毛巾的移动逐渐增加力度,进行一次温柔的擦拭。”

实验设置: CoRI 的实战测试

为了证明该流程在不同场景下均有效,研究人员使用两个不同的机器人平台 (Stretch RE1 和 xArm 7) 实施了三个独特的辅助任务。

图 3: 用户研究中实现和使用的三个任务: 沐浴、剃须和喂食。

  1. 模拟沐浴: 机器人拿着毛巾擦拭用户的手臂。这测试了速度变化的交流。
  2. 模拟剃须: 机器人拿着推剪 (带有假刀片) 沿手臂移动。这测试了复杂轨迹形状和精度的交流。
  3. 喂食: 机器人将勺子送到用户嘴边。这测试了用户配合 (告诉用户何时张嘴) 。

在用户研究中,16 名参与者与机器人进行了互动。他们在三种条件下体验了这些任务:

  1. 无交流: 机器人默默移动。
  2. 基线 (脚本化) : 机器人使用标准模板,如“我正在向你的[左手腕]移动”。
  3. CoRI (我们的方法) : 机器人使用生成的自然语言解释。

结果: 交流改善了吗?

用户研究的结果令人信服。研究人员使用侧重于动作理解和交流清晰度的李克特量表问卷来衡量表现。

图 4: 箱线图显示了每个参与者的李克特项目回答分布。

图 4 所示,CoRI (深蓝色柱状图) 的表现显著优于基线和无交流策略。

  • 动作理解 (左图) : 当 CoRI 激活时,用户在预测机器人下一步动作 (L1) 和理解机器人要做什么 (L2) 方面感到更加自信。
  • 交流质量 (右图) : 这里的差异更为明显。
  • L4 (意图) : CoRI 在传达机器人为什么移动方面表现更好。
  • L6 (配合) : 这是一个关键的胜利。CoRI 成功地告诉用户他们需要做什么 (例如,“保持手臂静止”或“身体前倾”) 。脚本化的基线通常会在此失败,因为它无法推断交互的语境。

蕴含性: 机器人在说真话吗?

使用 LLM 的一个主要风险是“幻觉”——即 AI 编造内容。为了验证准确性,研究人员将 CoRI 生成的语句与轨迹的“真值 (Ground Truth)”描述进行了比较。他们使用一种称为蕴含概率 (Entailment Probability) 的指标来检查生成的文本在逻辑上是否与实际计划一致。

表 1: 平均蕴含概率。

表 1 显示,CoRI 在所有任务中都达到了约 0.95 的蕴含得分。这与“Oracle” (人工编写的摘要) 相当,并且显著高于基线。这证实了该流程不仅听起来自然,而且在机器人的位置、速度和力度方面技术上也是准确的。

意义何在

CoRI 的意义不仅限于剃须或喂食。它代表了我们对机器人编程方式的转变。

  1. 泛化能力: 我们不需要为每个新任务编写新的交流脚本。如果机器人学会了梳头或刷墙,CoRI 只需分析运动规划即可自动生成解释。
  2. 信任: 通过在动作发生之前解释像力和速度这样的“隐形”因素,机器人变得不那么令人生畏。
  3. 无障碍性: 自然语言降低了使用门槛。用户不需要懂机器人技术或阅读复杂的显示屏;他们只需要听。

结论

CoRI 流程表明,通过视觉推理可以弥合底层机器人控制 (数字和力) 与高层人类理解 (语言和意图) 之间的鸿沟。通过将运动规划转化为图像并让先进的 AI 模型对其进行解释,机器人终于可以解释自己的行为了。

随着辅助机器人成为老年护理和物理治疗中的常见设备,像 CoRI 这样的系统将至关重要。它们将机器人从沉默、不可预测的机器转变为善于交流、透明的合作伙伴。


本文讨论的视觉效果和数据基于研究论文 “CoRI: Communication of Robot Intent for Physical Human-Robot Interaction”。