引言

想象一下,试着在通过微小的摄像头观察的同时,导航穿过一个湿滑、扭曲的隧道。现在,想象你必须定位一个特定的病变,随着隧道像呼吸一样变形而追踪它的运动,并精确地操作工具来治疗它。这就是内窥镜手术的日常现实。这是一种需要极大的认知负荷、稳定的双手和多年训练的手术。

多年来,机器人专家一直试图自动化这一过程的部分环节,以减轻外科医生的负担。然而,人体内部的环境对机器人来说极其困难。它是非结构化的、动态的且湿润的。传统的自动化方法通常很“脆弱”——它们依赖复杂的数学模型,一旦组织发生意外变形或反光遮挡了摄像头,这些模型就会失效。

但是,如果机器人能像人类一样理解手术呢?如果它能看一张图像,阅读像“追踪息肉”这样的指令,并本能地知道该如何移动呢?

这就是 EndoVLA 的承诺,它是论文 “EndoVLA: Dual-Phase Vision-Language-Action for Precise Autonomous Tracking in Endoscopy” 中提出的一个新框架。通过将大型语言模型 (LLMs) 的推理能力与机器人控制相结合,研究人员创建了一个系统,它不仅仅是在“处理”像素——它是在理解任务。

在这篇文章中,我们将剖析 EndoVLA 是如何工作的,特别关注其新颖的 双阶段微调 (Dual-Phase Fine-Tuning, DFT) 策略,该策略教会一个通用的 AI 模型成为外科专家。

挑战: 为什么不直接用 GPT-4?

我们已经看到了像 GPT-4V 或开源变体等多模态大型语言模型 (MLLMs) 的兴起,它们能以惊人的准确性描述图像。在机器人领域,我们将这些模型的应用称为 视觉-语言-动作 (Vision-Language-Action, VLA) 。 这个想法很简单: 模型接收图像和文本指令作为输入,并输出机器人动作 (如“向左移动手臂”) 。

然而,将标准的 VLA 应用于内窥镜检查面临两个巨大的障碍:

  1. 领域鸿沟 (The Domain Gap) : 通用的 VLA 模型是在互联网数据上训练的——猫、汽车和咖啡杯的图片。它们从未见过胃的内部。它们缺乏区分息肉和粘膜褶皱的医学背景。
  2. 数据稀缺 (Data Scarcity) : 训练机器人需要成千上万个例子。在医疗机器人领域,收集机器人成功追踪肿瘤的高质量数据既昂贵又困难。
  3. 精确性与创造性 (Precision vs. Creativity) : LLM 被设计成具有创造性和开放性的。手术则需要确定性、可靠性和精确的动作。你不会希望在病人体内有一个“有创意”的机器人。

EndoVLA 不仅通过训练模型,而且通过从根本上改变模型 学习的方式 来解决这些问题。

EndoVLA 框架

在其核心,EndoVLA 建立在 Qwen2-VL 主干网络之上,这是一个强大的开源视觉-语言模型。该系统专为连续体机器人 (continuum robots) 设计——这种灵活、像蛇一样的内窥镜可以向多个方向弯曲。

Figure 2: Overview of the setup of robotic endoscope and the DFT architecture of EndoVLA

图 2 所示,其架构看似简单。机器人捕获图像 (\(O_t\)) 并接收文本指令 (\(I\)) 。这些输入分别由视觉编码器和语言分词器处理。数据融合后传递给大型语言模型 (LLM) 。

输出包括两部分:

  1. 感知 (Perception) : 一个定位目标的边界框 \([x, y, w, h]\)。
  2. 动作 (Action) : 一个离散的运动指令 (例如,“右上”,“停止”) 。

这种同时输出至关重要。通过迫使模型在决定 如何 移动之前先识别目标 在哪里,系统将其动作建立在视觉现实之上。

训练数据: EndoVLA-Motion

由于针对此特定问题不存在数据集,研究人员构建了自己的数据集: EndoVLA-Motion

Figure 5: (a) The data is collected by two phantoms. (b) Robotic setup.

他们使用逼真的胃部仿体 (胃的硅胶模型) 和机器人内窥镜记录了 6,000 个图像-动作对。他们定义了三个模拟真实手术需求的特定任务,如下图所示:

Figure 1: EndoVLA enables robust autonomous tracking in endoscopic procedures, demonstrating effective zero-shot generalization capabilities across general scenes and sequential tracking tasks.

  1. 息肉追踪 (Polyp Tracking) : 将突出的病变保持在视野中心。
  2. 异常区域追踪 (Abnormal Region Tracking) : 跟随平坦、变色的组织区域 (更难看到) 。
  3. 圆形标记跟随 (Circular Marker Following) : 一个复杂的顺序任务,机器人必须跟随一圈标记,模拟肿瘤切除中使用的环形切割引导。

核心方法: 双阶段微调 (DFT)

这篇论文真正的创新在于训练策略。如果你只是在数据上训练一次 LLM (标准的有监督微调) ,它往往会学习到“平均”行为。它可能掌握大概的意思,但缺乏手术所需的极高精确度。

作者提出了 双阶段微调 (Dual-Phase Fine-Tuning, DFT) 方法。这就好比训练一名医学生: 首先,他们从教科书上学习 (监督学习) ,然后他们通过实践并根据表现获得评分来学习 (强化学习) 。

第一阶段: 有监督微调 (SFT)

在第一阶段,模型建立基准理解。利用低秩适应 (LoRA) ——一种高效微调巨大模型的技术——模型在 EndoVLA-Motion 数据集上进行训练。它学习预测与人类演示相匹配的边界框和动作。

虽然 SFT 提供了一个很好的起点,但研究人员发现这还不够。模型经常在复杂的“圆形标记”任务中挣扎,因为在该任务中,它需要理解一系列动作,而不仅仅是发现单个物体。

第二阶段: 强化微调 (RFT)

为了将模型从“良好”推向“专家”水平,研究人员采用了强化学习 (RL) 。具体来说,他们使用了一种涉及 可验证奖励 (Verifiable Rewards) 的技术。

在标准的 RL 中,你可能需要人类来说“好机器人”或“坏机器人”。这无法扩展。相反,EndoVLA 使用数学规则自动为模型的输出评分。

优化过程由一种称为 群组相对策略优化 (Group Relative Policy Optimization, GRPO) 的算法处理。

Equation 6 showing the GRPO objective function

GRPO 非常复杂,因为它不仅仅看一次尝试;它观察一组尝试,并优化策略以提高相对于基线的平均结果。这稳定了训练过程,防止模型学习到不稳定的行为。

三种可验证奖励

系统如何自我评分?研究人员设计了三种具体的奖励函数来引导模型走向完美:

1. IoU 奖励 (感知准确性) 这衡量了模型看目标的准确程度。它计算预测的边界框与真实值之间的 交并比 (Intersection over Union)

Equation 5: IoU Reward Formula

如果模型说息肉在左上角,但实际上在中心,这个奖励就会降为零。这迫使模型成为一个准确的观察者。

2. 运动角度奖励 (动作准确性) 机器人移动的方向对吗?这是一个二元奖励。如果真实值说“向右上移动”,而模型预测“向右上移动”,它就得到 1.0 分。否则,它什么也得不到。

Equation 6: Motion Angle Reward Formula

机器人的运动逻辑由离散的电机增量定义。例如,“右上”对应于肌腱电机的特定调整:

Equation 1: Motor control definitions

3. 格式奖励 (结构完整性) LLM 有时会产生幻觉或输出错误格式的文本 (例如,当你要求坐标时它写了一段话) 。格式奖励确保输出严格遵循所需的语法: [x, y, w, h] action

Equation 7: Format Reward Formula

通过结合这三个信号,RFT 阶段微调模型,使其在视觉上准确,在动作上正确,在格式上可靠。

实验与结果

这种复杂的双阶段训练真的更有效吗?结果令人信服。

定量分析

研究人员比较了他们模型的三个版本:

  1. 仅 SFT (SFT Only) : 仅在数据集上训练。
  2. 仅 RFT (RFT Only) : 仅使用强化学习训练 (从基础模型开始) 。
  3. DFT (SFT + RFT): 提出的方法。

下表揭示了巨大的差异,特别是在困难的“CC” (圆形切割) 任务中。

Table 2: IoU of bounding box and PR (%) of action prediction

请看 CC 列 。 SFT 模型的 IoU (视觉准确性) 仅达到 11.0% 。 RFT 模型甚至更差,为 2.8% 。 但 DFT 模型跃升至 48.5% 。 这证明了无论是监督学习还是强化学习,单独使用都不够;必须将它们结合起来。SFT 阶段提供了必要的“先验知识” (基础知识) ,而 RFT 阶段则提炼这些知识以处理复杂的场景。

可视化改进

定性结果展示了 为什么 数字会有如此大的差异。

Figure 8: Qualitative results of bounding box prediction and motion output

图 8 中,请看预测 (红框) 与真实值 (绿框) 的对比。

  • SFT (顶行) : 在简单任务中预测框体相当不错,但在第三列 (CC) 完全失败,在错误的位置预测了一个微小的框。
  • RFT (中间行) : 倾向于预测巨大的、错误的边界框。没有监督基础,RL 智能体很难学会物体实际上长什么样。
  • SFT+RFT (底行) : 追踪紧密且准确,涵盖所有任务。红框与绿框几乎完美重叠。

真实机器人表现

仿真是由一回事,但在物理机器人上能行吗?团队将 EndoVLA 部署在真实的奥林巴斯式内窥镜上,并在胃部仿体内部进行了测试。

Table 3: Performance in real-world endoscopic tracking tasks.

在息肉追踪 (PP) 和异常区域 (AR) 任务中,组合模型在向目标移动方面达到了 100% 的成功率 。 在高度复杂的圆形切割 (CC) 任务中——这涉及到按特定顺序跟随一系列标记——它是 唯一 能够完成整个圆圈的模型 (尽管完成率为 10%,显示了任务的极端难度,但明显优于其他方法的 0%) 。

Figure 3: Example of successful rollouts on the real-world endoscopic tasks

令人惊讶的泛化能力

这篇论文最令人着迷的结果也许是 EndoVLA 对它从未见过的事物的泛化能力有多好。请记住,该模型是在胃部仿体上微调的。

研究人员在以下场景中对其进行了测试:

  1. 水果序列: 按顺序追踪香蕉、苹果和西瓜。
  2. 户外场景: 追踪地面上的洞。
  3. 图标: 追踪字母和符号。

Figure 4: Generalization examples: CORL characters, fruit, and outdoor holes.

尽管从未在水果或树木上进行过训练,EndoVLA 的表现非常出色。

Table 4: SR (%) in general scene tracking tasks

表 4 所示,SFT+RFT 模型在水果序列上达到了 100% 的成功率 , 在洞穴追踪上达到了 90% 的成功率 。 这表明“双阶段”训练不仅仅教会了模型记忆胃部纹理;它教会了模型 遵循视觉指令 的基本概念。它学习到了“追踪目标”与相应运动动作之间的语义联系,而不管目标实际上长什么样。

结论与未来启示

EndoVLA 代表了医疗机器人向前迈出的重要一步。它使我们从僵化的、手工编码的追踪算法转向能够理解手头任务的灵活、语义智能体。

主要结论包括:

  1. 视觉-语言-动作适用于手术: 我们可以使用自然语言提示和视觉反馈来控制手术机器人。
  2. 双阶段微调至关重要: 你不能单独依赖监督学习或强化学习。结合它们 (SFT 用于结构,RFT 用于精确度) 可以解锁最先进的性能。
  3. 泛化是可能的: 一个经过稳健训练的 VLA 智能体可以将其追踪逻辑应用于全新的环境,暗示了未来手术机器人可能无需重新训练就能适应不同患者解剖结构的潜力。

虽然该系统目前是在仿体上测试的,且在速度方面存在局限性 (运行频率约为 2Hz) ,但基础已经奠定。随着这些模型变得更快并在真实的临床视频数据上进行训练,我们可能很快就会看到 AI 智能体充当外科医生智能、可靠的助手,即使在最混乱的环境中也能时刻关注病理情况。