引言
在人工智能快速发展的格局中,大型视觉语言模型 (LVLM) ,如 LLaVA、GPT-4V 和 DeepSeek-VL,已成为多模态理解领域的超级巨星。这些模型拥有惊人的能力,可以描述复杂的场景,回答有关图像的问题,甚至执行以前被认为是不可能的推理任务。
然而,它们的能力一直存在一个缺口。虽然 LVLM 可以生动地描述“停在消防栓旁边的红色汽车”,但要求它指出那辆车的确切像素坐标通常会导致失败,或者需要对模型进行重大修改。这种识别图像中与文本描述相对应的特定区域的任务,被称为视觉定位 (Visual Grounding) 。
为了弥补这一差距,研究人员通常采用微调 (fine-tuning) 的方法,即在包含边界框和分割掩码的专用数据集上重新训练模型。这不仅计算成本高昂,而且会改变原始模型的权重。
但是,如果模型已经知道物体在哪里呢?如果这些信息隐藏在显而易见的地方,深埋在神经网络的架构中等待被发现呢?
在论文 “Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding” 中,来自延世大学的研究人员做出了一个惊人的发现。他们发现,在冻结的 LVLM 的数千个注意力头 (attention heads) 中,有一小部分——有时少至三个——充当着内置的“定位头”。只需利用这些头,我们就可以在没有任何训练步骤的情况下实现最先进的视觉定位。

如图 1 所示,模型的平均注意力图通常是嘈杂模糊的 (第 2 列) 。然而,特定的头 (第 3 和第 4 列) 会强烈聚焦于文本中描述的物体,例如披萨或右边的人。这篇博客文章将带你了解这些头是如何被发现的,它们是如何被选择的,以及它们如何改变免训练计算机视觉的游戏规则。
背景: 视觉定位的挑战
在深入探讨解决方案之前,让我们先明确问题。视觉定位通常有两种形式:
- 指代性表达理解 (REC): 围绕文本描述的物体绘制边界框。
- 指代性表达分割 (RES): 创建物体的像素级完美掩码。
现状
目前,主要有两种方法可以强制 LVLM 执行此操作:
- 基于微调的方法: 采用预训练模型 (如 LLaVA) 并在定位数据上继续训练它。你可能会向词汇表中添加特殊标记 (如
[SEG]) 来触发分割掩码。虽然有效,但这破坏了模型的“冻结”性质,并需要大量资源。 - 免训练方法: 这些通常依赖于较旧的模型 (如 CLIP) 或结合来自扩散模型的梯度。虽然它们不需要重新训练,但其性能历来落后于微调过的专用模型,并且经常难以处理复杂的空间指令 (例如,“笔记本电脑左边的杯子”) 。
该论文的研究人员提出了第三条路径: 利用 LVLM 自身的内部注意力机制 。

图 2 展示了这种范式转变。(a) 部分显示了传统的微调这一繁重方法。(b) 部分显示了提议的方法: 简单地从冻结模型中提取“正确”的注意力图来指导分割工具 (如 SAM - Segment Anything Model) 。
理解 LVLM 中的自注意力
要理解他们是如何实现这一点的,我们需要快速回顾一下 Transformer 架构。LVLM 分层处理数据。每一层都有多个“注意力头”。
在数学上,注意力允许模型将输入的各个部分相互关联。当 LVLM 处理文本“白狗”时,它会计算文本标记和图像标记 (图像块) 之间的注意力分数。
注意力机制由以下方程控制:

这里,\(Q\) 是查询 (来自文本) ,\(K\) 是键 (来自图像) 。输出了当处理该特定单词时模型在图像中看哪里。
研究人员特别关注相对于文本查询最后一个标记的注意力权重。他们假设,由于 LVLM 是以自回归方式生成文本的,句子的最后一个标记总结了整个短语的语义含义。因此,最后一个文本标记的注意力图理论上应该“看”向被描述的物体。

核心发现: 寻找“定位头”
如果你对模型中所有头的注意力取平均值,你会得到噪声。信号被稀释了。这篇论文的核心贡献是一种系统的方法,可以过滤掉噪声并找到充当聚光灯操作员的特定头。
研究人员提出了两个严格的标准来识别这些“定位头”。
标准 1: 注意力总和 (这个头在看图像吗?)
LVLM 既关注文本也关注图像。许多注意力头仅专注于文本到文本的关系 (理解语法或上下文) ,而完全忽略图像。这对视觉定位毫无用处。
为了过滤掉这些,研究人员计算了注意力总和 (\(S_{img}\))。该指标将分配给图像标记的注意力权重加总。如果总和很高,说明该头正在积极地关注视觉数据。

图 3 绘制了各种模型中所有头的注意力总和。你可以看到一条急剧上升的曲线。最右边的头 (高于阈值 \(\tau\)) 是那些深度参与视觉数据的头。我们丢弃其余的。
标准 2: 空间熵 (焦点清晰吗?)
仅仅看图像是不够的。一个头可能会看整个图像 (背景、天空、地板) ,而不是特定的物体。我们需要聚焦于紧凑、独特区域的头。
为了衡量这一点,作者利用了空间熵 (Spatial Entropy) 。
- 高熵: 注意力分散在整个地图上 (不利于定位) 。
- 低熵: 注意力集中在紧密的簇中 (利于定位) 。
该过程包括对注意力图进行二值化 (根据强度将其变为黑白) ,识别连通分量 (斑点) ,并根据这些斑点的大小计算熵。

如图 4 可视化所示,顶行显示了一个低熵的头——它创建了独特、干净的簇。底行显示了高熵——分散的噪声。
该熵的数学公式为:

选择过程
结合这两个标准,研究人员设计了一个筛选流程:
- 保留具有高注意力总和的头。
- 在这些头中,按空间熵排名 (越低越好) 。
- 对 1,000 个随机样本重复此操作,以找到那些始终表现良好,而不仅仅是在一张图片上侥幸成功的头。

结果是一个频率图表( 图 5 , 右侧) 。极少数的头 (如 LLaVA-7B 中的第 14 层第 24 个头) 几乎每次都出现在列表顶部。这些就是定位头 。
这种选择真的与性能相关吗?是的。

图 6(b) 展示了一个散点图,比较了选择排名 (x 轴) 与实际的交并比 (IoU) 性能 (y 轴) 。存在很强的正相关性。通过该算法识别出的头确实是那些知道物体在哪里的头。
框架: 免训练视觉定位
一旦确定了定位头 (对于每个模型来说是一次性的过程) ,执行视觉定位就变成了一个简单的流水线。
- 输入: 一张图像和一个文本提示 (例如,“白马”) 。
- 前向传播: 通过冻结的 LVLM 运行输入。
- 提取: 仅从前 k 个定位头 (例如,前 3 个头) 中提取注意力图。
- 组装: 将这些图相加并应用高斯平滑以减少像素噪声。
- 后处理:
- 对于边界框: 使用凸包算法在突出显示的区域周围绘制一个框。
- 对于分割: 使用边界框作为 Segment Anything Model (SAM) 的提示,以获得精确的掩码。

图 7 可视化了这个优雅的流程。请注意来自 L14H1、L14H3 和 L14H6 的注意力图是如何组合起来突出显示马匹的,然后该区域被细化为干净的掩码。
实验与结果
研究人员在标准基准 (如 RefCOCO) 上测试了 10 种不同的 LVLM (参数范围从 1.3B 到 13B) 的此框架。
定量上的成功
结果令人印象深刻。所提出的方法明显优于现有的免训练方法,而且令人惊讶的是,其性能与利用大量微调的方法相当。

表 1 突出了指代性表达理解 (REC) 的性能。看看“Training-free methods” (免训练方法) 部分。所提出的方法 (Ours) 获得的分数 (如 RefCOCO val 上的 83.5) 令之前的基于 CLIP 的方法 (通常在 40-60 之间) 相形见绌,并可与 Shikra 等微调模型 (87.0) 相媲美。

表 2 显示了在分割 (RES) 方面的类似优势。该方法始终如一地实现高精度,证明了冻结模型内的定位信号是稳健的。
定性分析
数字固然好,但眼见为实。该方法可以处理包含多个相似物体的复杂场景,这也是基于 CLIP 的方法臭名昭著的失败点。

在图 8 中,请看“肉类区右侧的坚果和胡萝卜区”这一例子。模型正确识别了特定的托盘隔间。同样,它能根据“把手指放在嘴里的人”这样的描述,在人群中区分出特定的个体。
推理能力
由于这种方法依赖于 LVLM 的深度文本理解,它继承了模型的推理能力。它可以解决“推理分割”任务,即物体没有被直接命名,而是通过暗示指出的。

在图 17 中,模型被问到: “图片中的什么物品可以用作人们通常在优雅的正式着装中戴在脖子上的配饰……?” 模型正确地推理出这指的是狗身上的领结 , 并完美地对其进行了分割。这种语义理解水平对于传统的物体检测器来说是困难的。
什么时候会失败? (以及它告诉我们什么)
没有模型是完美的。然而,这种方法的一个优点是可解释性。当模型失败时,我们可以查看注意力图来找出原因。

在图 9 中,提示要求找出“右边第三根香蕉”。预测包括了第三根和第四根香蕉。注意力图显示 LVLM 本身就在“看”这两个物体,这表明是模型的计数逻辑出现了故障,而不是定位框架本身的问题。这种透明度对于调试 LVLM 非常宝贵。
启示与结论
这篇论文的发现表明,我们看待大型视觉语言模型的方式发生了根本转变。它们不仅仅是看图像的文本生成器;它们拥有对视觉世界的先天空间理解,这种理解位于特定的神经通路中。
主要收获:
- 效率: 我们可以在没有微调带来的巨大碳足迹和时间成本的情况下解锁视觉定位能力。
- 简单: 该框架本质上是注意力图的“过滤器”,只需极少的代码即可在现有模型之上实现。
- 通用性: 这适用于不同的模型架构 (LLaVA、DeepSeek、InternVL) 和规模。
未来应用
其潜力不仅仅在于绘制方框。如图 19 所示,这些定位头可以驱动图像编辑 。 通过使用注意力掩码来指导扩散模型,用户可以以高精度执行基于文本的图像修复 (例如,将滑冰者的衣服变成蜘蛛侠的服装) 。

通过认识到你的大型视觉语言模型“只需要几个注意力头”,我们为更可解释、更高效和更强大的多模态人工智能应用打开了大门。人工智能的眼睛已经睁开了;我们只是学会了如何去观察它们所看到的东西。
](https://deep-paper.org/en/paper/2503.06287/images/cover.png)