让 SAM2 更具智慧：如何教会分割模型理解文本与时间

Segment Anything Model (SAM) 及其视频版本 SAM2 的发布标志着计算机视觉领域的一个关键时刻。这些模型功能极其强大；仅需一个点或一个边界框，它们就能以近乎完美的精度分割物体，并在视频中对其进行跟踪。

但这里有一个问题: SAM2 是“失语”的。它无法理解自然语言。你不能直接要求它*“分割正在爬树的猫”或“跟踪正在左转的红色汽车”*。它需要明确的几何提示 (点击或框选) 。此外，虽然 SAM2 是像素匹配的大师，但它缺乏对时间和运动的高级推理能力。它将视频视为一系列需要跟踪的图像，而不是一个动作展开的事件。

在这篇文章中，我们将深入探讨 SAMWISE , 这是一篇新的研究论文，它向冻结的 SAM2 模型中注入了“智慧”——具体来说是自然语言理解和时序推理能力。我们将探索该方法如何通过增加极少量的参数，在复杂的视频分割任务上实现最先进 (SOTA) 的性能。

问题所在: 指代性视频物体分割 (RVOS)

我们要解决的任务是 指代性视频物体分割 (RVOS) 。其目标是根据描述性文本查询，在视频中分割并跟踪特定物体。

这比标准的目标检测要难得多，原因有二:

多模态推理: 模型必须将视觉特征 (像素) 与语言特征 (文本) 对齐。
时序推理: 文本通常描述一个动作 (例如，“坐着的人” 与 “站起来的人”) 。模型必须理解随时间变化的运动，以区分相似的物体。

现有方法的局限性

大多数现有方法都陷入了两个陷阱:

离线方法: 它们一次性处理整个视频。这提供了很好的上下文，但使模型变得沉重、缓慢，且无法用于实时流式应用。
基于片段的方法: 它们将视频切成独立的片段。这种方法速度较快，但会丢失全局上下文。如果一个物体被遮挡了几秒钟，模型就会忘记它的存在。

SAM2 提供了第三种方式: 流式处理 (Streaming) 。它随着帧的到来进行处理，利用记忆库来记住过去。然而，由于 SAM2 并非为理解文本或运动而训练，简单地插入一个文本编码器并不能很好地工作。

SAMWISE: “智慧”的架构

研究人员提出了 SAMWISE，这是一个包裹在冻结的 SAM2 主干周围的框架。其核心理念是高效 : 他们没有重新训练庞大的 SAM2 模型，而是插入了小型的、可学习的模块，将文本和时间“翻译”成 SAM2 可以理解的语言。

图 2. SAMWISE 架构概览，展示了图像编码器、文本编码器和新适配器模块之间的交互。

如 图 2 所示，该架构保留了 SAM2 原有的图像编码器和掩码解码器。神奇之处在于两个关键的增量:

跨模态时序 (CMT) 适配器: 插入到编码器中的模块，用于混合文本、视觉和时间信息。
条件记忆编码器 (CME): 一种纠正 SAM2 倾向于“卡”在错误物体上的机制。

让我们逐一拆解。

1. 跨模态时序 (CMT) 适配器

标准的适配器通常只是将特征从一个空间投影到另一个空间。SAMWISE 中的 CMT 适配器则更有野心。它被放置在编码器的 Transformer 层内，执行两项特定工作: 跨模态适配和时序适配 。

图 3. 跨模态时序 (CMT) 适配器的架构，重点展示了分层选择性注意力 (HSA) 和交叉注意力模块。

视觉-文本交互

如 图 3 所示，适配器实现了文本和图像之间的双向对话:

视觉到文本注意力 (VTA): 图像特征“查看”文本，以识别哪些单词对应于可见区域。
文本到视觉注意力 (TVA): 文本特征“查看”图像，将抽象词汇 (如“跑”) 落地到视觉现实中。

时序适配 (HSA)

为了理解运动 (例如，区分行走的牛和站立的牛) ，模型需要同时观察多帧图像。然而，关注视频片段中的每个像素在计算上极其昂贵。

作者引入了 分层选择性注意力 (HSA) 。 HSA 不使用全局注意力，而是关注 3D 时空补丁 (见下文 图 4 )。它假设运动是局部的——第 \(t\) 帧中的像素与第 \(t-1\) 帧和 \(t+1\) 帧中的空间邻居关系最为密切。

图 4. 分层选择性注意力 (HSA) 示意图，展示了模型如何处理 3D 时空补丁。

这使得 SAMWISE 能够将运动线索直接编码到视觉特征中。其影响在下文的 图 5 中可视化呈现。当文本提示从“walking” (行走) 变为“swinging head” (摆头) 时，特征图的“热度”转移到了图像的不同部分 (腿部 vs 头部) ，证明了适配器成功地引导了视觉编码器。

图 5. PCA 可视化展示了 CMT 如何根据特定的文本提示提供情境化的视觉特征。

2. 用条件记忆编码器解决“跟踪偏差”

这篇论文最引人入胜的见解之一是发现了 SAM2 中的 跟踪偏差 (Tracking Bias) 。

SAM2 被设计为一个强大的跟踪器。一旦它锁定了一个物体，即使在遮挡期间，它也会极力避免丢失它。在 RVOS 中，这是一把双刃剑。

想象一个有两只猫的视频。提示词是 “那只正在爬树的猫”。

在第 1 帧，两只猫都在地上。
SAM2 任意选择了一只猫 (或者最符合“猫”特征的那只) 并开始跟踪它。
在第 50 帧，另一只猫开始爬树。
问题: SAM2 忽略了第二只猫，因为它对自己正在跟踪的那只猫有偏差。它更“信任”它的记忆，而不是当前的视觉证据。

图 1 说明了跟踪偏差问题，其中 SAMWISE 在目标动作发生时纠正了焦点。

图 1 完美地说明了这一点。骑自行车的目一开始并不在场，所以标准模型跟踪了错误的人。当正确的目标出现时，SAM2 通常会忽略它。

为了解决这个问题，SAMWISE 引入了 条件记忆编码器 (CME) 。

CME 如何工作

CME 就像一个裁判。在每一帧，它比较两件事:

记忆特征 (Memory Features): SAM2 当前正在跟踪的内容 (受过去影响，有偏差) 。
无记忆特征 (Memory-Less Features): 当前帧看起来是什么样子的，并与文本对齐 (无偏差) 。

如果“无记忆”特征显示出一个与文本强烈匹配的物体——并且它与正在被跟踪的物体不同——CME 就会发出信号。它告诉记忆库: “嘿，我们正在跟踪的物体不再是最佳匹配了。把焦点切换到这个新物体上。”

图 6. 条件记忆编码器 (CME) 在动作消除目标歧义时纠正跟踪偏差的效果。

如 图 6 所示，CME 检测到了猫开始“爬树” (具有区分性的动作) 的时刻，并将这一新信息注入到记忆库中。这使得模型能够在视频中途无缝切换目标，这是原始 SAM2 所缺乏的能力。

实验结果

研究人员在多个基准上测试了 SAMWISE，包括 Ref-YouTube-VOS、Ref-DAVIS 以及具有挑战性的 MeViS 数据集。MeViS 特别困难，因为查询严重依赖于运动 (例如，“游走的鱼” vs “静止的鱼”) 。

定量上的成功

SAMWISE 取得了最先进的结果。

在 MeViS 上，它显著优于以前的方法，证明了其处理复杂运动表达的能力。
它仅用 <5M 可训练参数 就实现了这些结果，而全微调或大型视觉语言模型 (VLM) 方法则需要训练或运行庞大的模型 (数十亿参数) 。

定性上的成功

视觉结果证实了这些数字。在下文的 图 10 中，我们看到 SAMWISE 处理困难场景:

(a) 根据轨迹区分汽车 (“直线行驶”) 。
(e) 根据动作识别特定的人 (“向右移动并观看”) 。

图 10. MeViS 的定性示例，展示了 SAMWISE 处理遮挡、多实例和描述性属性的能力。

该模型也足够稳健，可以拒绝错误的切换。有时，CME 可能会建议一个在当前帧看起来正确但在全局上下文中没有意义的新物体。由于 SAMWISE 平衡了 CME 输出与现有的记忆库，它可以在必要时保持稳定性。

结论

SAMWISE 代表了现代 AI 开发的一种明智方法: 不要重新发明轮子；只需让它转得更好。

作者没有从头开始训练一个新的视频分割模型，而是利用了 SAM2 的巨大威力。通过外科手术式地通过 CMT 适配器 (用于文本/时间理解) 和 CME (用于偏差修正) 注入“智慧”，他们将一个几何工具变成了一个语义工具。

这项工作弥合了静态“万物分割”能力与动态、复杂的视频理解现实之间的鸿沟。它为我们如何调整其他基础模型以适应流式环境中的复杂多模态任务提供了一个蓝图。

关键要点

冻结的基础模型: 你不需要微调庞大的模型就能获得 SOTA 结果；高效的适配器可以创造奇迹。
时间很重要: 视频不仅仅是一堆图像。显式地建模时空补丁 (通过 HSA) 对于理解动作至关重要。
偏差修正: 像 SAM2 这样的强跟踪器可能会过于固执。像 CME 这样的机制对于让模型在出现新证据时“改变主意”至关重要。

问题所在: 指代性视频物体分割 (RVOS)#

现有方法的局限性#

SAMWISE: “智慧”的架构#

1. 跨模态时序 (CMT) 适配器#

视觉-文本交互#

时序适配 (HSA)#

2. 用条件记忆编码器解决“跟踪偏差”#

CME 如何工作#

实验结果#

定量上的成功#

定性上的成功#

结论#

关键要点#