引言
我们都有过这样的经历。你正试着编辑一张照片,也许是想把主体抠出来放到新的背景上。你使用智能选择工具,点击物体,大多数时候,它像魔术一样神奇。但当你遇到头发、自行车辐条或风筝上细细的线时,魔法消失了。你发现自己把图片放大到 400%,试图精确点击那一像素宽的线条,结果工具却选中了整片天空。
这就是交互式分割 (Interactive Segmentation) 的经典瓶颈。虽然像 Segment Anything Model (SAM) 这样的近期进展彻底改变了计算机感知物体的方式,但它们仍然面临两个主要问题:
- “胖手指”问题: 对于人类来说,精确点击极细或复杂的结构既令人沮丧又耗时。
- 分辨率墙: 处理高分辨率图像以捕捉那些微小细节需要巨大的计算内存,这迫使模型对图像进行下采样,从而丢失了它们试图选中的细节。
在最近的一篇 CVPR 论文中,研究人员提出了 NTClick , 这是一种从根本上改变我们要与分割模型交互方式的新方法。NTClick 没有强迫用户做到像素级精确,而是引入了“容噪 (Noise-Tolerant) ”点击,以及一种能在消费级硬件上处理 4K 分辨率图像的智能两阶段架构。
在这篇文章中,我们将详细拆解 NTClick 的工作原理,解释为什么“不确定性”是计算机视觉中的一种超能力,以及它如何比当前最先进的技术更好地分割细小物体。
背景: 点击、涂鸦与权衡
要理解为什么需要 NTClick,我们首先需要看看目前我们是如何与分割模型对话的。
标准交互
最流行的方法是基于点击 (Click-based) 的方法 (如 RITM、SimpleClick 和 SAM 所采用) 。你点击物体 (前景点击) 或背景 (背景点击) 。这种方法快速且直观。然而,随着物体变得越来越复杂,修正错误所需的点击次数会急剧增加。
涂鸦替代方案
为了解决精度问题,一些方法使用涂鸦 (Scribbles) (如 Slim Scissors 方法) 。你不需要点击一个精确的点,而是在物体上画一条粗略的线。虽然这降低了对精度的要求,但在物理操作上却更费力。如果你面对的是一团密集的树叶或电线,你最终不得不“涂满”大片区域,这违背了快速交互的初衷。
分辨率问题
在底层,大多数现代分割模型都使用视觉 Transformer (ViT) 。这些模型很强大,但有一个弱点: 自注意力 (Self-Attention) 机制。标准自注意力的计算成本随着图像尺寸呈二次方增长。为了防止内存耗尽,模型通常会将图像缩小到 \(1024 \times 1024\) 像素。对于高分辨率照片中的细风筝线来说,下采样就像橡皮擦一样——在模型有机会看到它之前,线就已经消失了。
核心方法: NTClick
NTClick背后的研究人员通过重新思考交互 (用户如何输入数据) 和架构 (计算机如何处理数据) 来解决这些问题。
1. 容噪点击
第一项创新在于行为层面。传统模型将点击视为一种明确的声明: “这个特定的像素属于该物体。”如果你在细铁丝上偏离了几个像素,模型就会感到困惑,因为你刚刚把天空标记为了物体。
NTClick 引入了第三种交互类型: 容噪点击 (Noise-Tolerant Click) 。

如图 1 所示,与前景 (红色) 和背景 (蓝色) 点击不同,容噪点击 (绿色) 有着不同的用途。它告诉模型: “这附近有精细的结构。”
它不要求像素级的精确度。无论你是点在物体上、物体间的缝隙中,还是边缘上,模型都会将此解释为一个信号,去该附近寻找高频细节。这种用户工作量的急剧减少正是论文中“用户友好性”的体现。
2. 两阶段架构
模型如何处理这些宽泛的指令?NTClick 将工作负载分为两个阶段: 粗略感知和高分辨率精细化 。

第一阶段: 显式粗略感知 (ECP)
第一个网络 (如图 2 上方路径所示) 接收图像和用户的点击作为输入。它在较低的分辨率下运行以节省内存。
关键在于,它并不尝试立即做出最终的二元决定 (物体 vs. 背景) 。相反,它生成一个前景-背景-不确定 (FBU) 图 。
\[ \mathrm { F B U } \operatorname* { m a p } \in \{ f o r e g r o u n d , b a c k g r o u n d , u n c e r t a i n \} ^ { W \times H } \]这张图将图像分为三个区域:
- 确定的前景: 简单的部分 (例如树干) 。
- 确定的背景: 清晰的区域 (例如天空) 。
- 不确定区域: 复杂区域 (例如树叶、头发、边缘) 。
通过显式地识别“不确定”区域,模型确切地知道在下一步中需要将精力集中在哪里。
第二阶段: 高分辨率精细化 (HRR)
这正是 NTClick 大放异彩的地方。第二个网络接收 FBU 图和原始高分辨率图像 (高达 \(4096^2\)) ,对那些不确定的像素进行分类。
为什么高分辨率是必要的?看看图 3 中的对比:

在标准分辨率 (1024x682) 下,体育场屋顶的精细结构细节模糊成了一团。在 4K 分辨率下,分隔清晰可见。然而,由于全局注意力的二次方复杂度,在标准 GPU 上使用标准 Transformer 处理 4K 图像在计算上是不可能的。
解决内存瓶颈
为了高效处理 4K 图像,作者用一种混合方法替换了标准的全局注意力: 网格注意力 (Grid Attention) + 邻域注意力 (Neighborhood Attention) 。
数学上的解法: 标准全局注意力将每个像素图块 (patch) 与所有其他图块进行比较。网格注意力仅比较固定间隔 (\(K\)) 的图块。
\[ \begin{array} { r } { \Omega ( \mathrm { G l o b a l ~ A t t e n t i o n } ) = 4 w h C ^ { 2 } + 2 ( w h ) ^ { 2 } C } \\ { \Omega ( \mathrm { G r i d ~ A t t e n t i o n } ) = 4 w h C ^ { 2 } + 2 \frac { ( w h ) ^ { 2 } } { K ^ { 2 } } C } \end{array} \]如上式所示,复杂度除以了 \(K^2\)。如果 \(K=8\),计算成本将显著下降,使得 4K 处理变得可行。
“墙”的问题: 网格注意力非常适合长距离上下文 (观察整张图像) ,但它在不在网格上的相邻像素之间制造了“墙”。它们无法直接“交谈”。为了解决这个问题,作者使用了邻域注意力 。

图 4 完美地展示了这一点。
- 窗口注意力 (左) : 将关注点限制在特定的框内。
- 网格注意力 (中) : 将关注点稀疏地分布在整个图像上。
- 邻域注意力 (右) : 允许每个像素与其直接邻居进行交谈。
通过结合这些机制,NTClick 获得了两全其美的效果: 理解物体形状的全局上下文,以及描绘像素级完美边缘的局部聚焦,所有这些都不会撑爆 GPU 内存。
实验与结果
研究人员在多个具有挑战性的数据集上测试了 NTClick,包括 DIS5K (高精度二分分割) 和 ThinObject-5K 。
性能 vs. 最先进技术
使用的主要指标是 NoC@90 (达到 90% 交并比所需的点击次数) 和 5-mIoU (5 次点击后的平均精度) 。NoC 越低越好;mIoU 越高越好。

如表 1 所示,NTClick 优于主要竞争对手,包括 SAM-HQ 和 SegNext,特别是在最难的数据集 DIS5K-TE4 (拥有最复杂的结构) 上。
- SegNext 在 TE4 上大约需要 9.15 次点击才能获得良好的掩膜。
- NTClick 只需要大约 7.23 次点击。
效率与用户工作量
提升不仅仅在于原始精度;还在于改进的速率。

图 5 展示了 IoU 曲线。NTClick (绿线) 起步更强,且始终高于 SegNext (蓝色) 、SAM-HQ (橙色) 等。这意味着用户花在修正模型上的时间更少。
视觉证据
定量数据固然好,但在分割领域,眼见为实。

在图 7 中,我们可以看到实际的差异。看看桥缆或椅子腿。
- SegNext (第 3 列) 经常漏掉最细的线条或产生连接幻觉。
- Slim Scissors (第 4 列) 在边界处理上很吃力。
- NTClick (第 2 列) 干净利落地捕捉到了精细的几何形状,即使用户输入 (容噪点击) 并不完全精确。
对“随意”点击的鲁棒性
最令人印象深刻的结果之一是鲁棒性测试。研究人员通过改变随机种子来模拟用户未击中目标的不同程度。

表 6 显示,无论点击位置的随机变化如何,性能 (NoC@90 和 5-mIoU) 几乎保持一致。这证明了“容噪”设计按预期工作——模型能明白你的意图,即使你点击得不完全正确。
结论
NTClick 代表了交互式计算机视觉向前迈出的重要一步,因为它承认了一个人类现实: 我们不是像素级精确的,而且我们不喜欢等待。
通过引入容噪点击 , 作者让工具变得更加宽容。通过设计带有网格和邻域注意力的由粗到细架构 , 他们突破了限制先前基于 Transformer 模型的特定分辨率障碍。
这一成果的影响是广泛的。从加速未来 AI 模型的数据集标注,到为平面设计师和放射科医生提供处理细节而不令人沮丧的工具,NTClick 证明了更好的 AI 关键不仅仅在于更大的模型——还在于更智能的交互和更高效的架构。
](https://deep-paper.org/en/paper/file-2149/images/cover.png)