在过去的几年里,人工智能领域取得了令人瞩目的飞跃。像 GPT-4、LLaMA 和 FlanT5 这样的大型语言模型 (LLM) 已经证明,机器可以写诗、撰写论文、调试代码,并进行高度连贯的对话。然而,尽管它们在语言方面展现出卓越的能力,却有一个明显的局限: 它们无法看见 。 这些模型生活在一个纯文本的世界里,无法感知我们环境中丰富的视觉信息。
让机器能够同时理解图像和文本——即视觉-语言预训练 (Vision-Language Pre-training, VLP) ——是人工智能研究的关键前沿之一。传统方法通常需要从零开始构建庞大的端到端模型,在数十亿个图文对上进行训练。这类方法虽然效果显著,却需要巨量的计算资源和漫长的训练时间,几乎只有最大的科技公司才能负担。
有没有更高效的路径?与其从头构建一个庞大的多模态模型,不如直接连接两个现有的人工智能支柱: 一个强大的视觉模型与一个强大的语言模型。
这正是 Salesforce Research 的研究突破 BLIP-2 背后的妙思所在。BLIP-2 提出了一种方法,在实现顶尖视觉-语言性能的同时显著提升了计算效率。它利用冻结的、现成的预训练模型——一个用于视觉,一个用于语言——并在它们之间学习一个小而智能的桥梁。
挑战: 弥合模态鸿沟
图像和文本属于根本不同的领域。像 Vision Transformer (ViT) 这样的视觉模型会将图片转换成一组高维视觉嵌入;而语言模型则处理代表文本的词元嵌入 (token embeddings) 。这两种“语言”几乎完全不兼容——它们的特征空间截然不同。两者之间的差距被称为模态鸿沟 (modality gap) 。
以往的多模态方法,如 DeepMind 的 Flamingo,通过在冻结的 LLM 中添加可训练的交叉注意力层来解决这个问题。这些层让语言模型在处理中能够“窥视”图像特征。虽然有效,但仍需大量的训练数据和计算资源。
BLIP-2 团队提出了一个更简单的问题: 能否在完全不修改任何预训练模型内部结构的前提下连接这两个世界?他们的答案是: 可以,而且非常高效。
BLIP-2 的策略: 一个轻量级的翻译器
在训练过程中,BLIP-2 保持其图像编码器和语言模型完全冻结。这显著减少了可训练参数,并保留了各自的预训练知识,从而避免灾难性遗忘。关键创新在于它们之间添加的组件: 一个小型、可训练的 Transformer,称为查询 Transformer (Querying Transformer) , 或 Q-Former 。

图 1. BLIP-2 框架概览: 一个轻量级的 Q-Former 通过两阶段自举策略——表示学习和生成学习——连接冻结的预训练视觉与语言模型。
Q-Former 扮演着智能翻译器的角色。它接受图像编码器的输出,并将其压缩成一组学习到的查询向量——这些紧凑的“软视觉提示”能够被 LLM 理解。BLIP-2 通过一个巧妙的两阶段策略来训练这个组件。
第一阶段: 教会 Q-Former “看见”
第一阶段的重点是帮助 Q-Former 学习提取与文本描述相关的视觉特征。在此阶段,它仅与冻结的图像编码器连接,并在图文对上通过三项互补任务进行训练:

图 2. Q-Former 的架构及第一预训练阶段的三个训练目标——对比学习、匹配和图像引导的文本生成——这些目标帮助模型提取与文本相关的视觉特征。
图文对比学习 (Image-Text Contrastive Learning, ITC)。 该任务训练模型将图像与对应的文字标题匹配。对于每张图像,正确标题在表示空间中被拉近,而错误标题则被推远,促进视觉与语言的对齐。
图文匹配 (Image-Text Matching, ITM)。 一个二元分类任务: 给定图文对,预测它们是否匹配。它迫使 Q-Former 学习物体与文本描述之间的跨模态细节关系。
图像引导的文本生成 (Image-Grounded Text Generation, ITG)。 在此任务中,Q-Former 仅使用学习到的查询作为视觉信息的载体来生成图像文本描述。通过这一过程,模型学会将所有相关视觉信息压缩到查询向量中。
在第一阶段结束后,Q-Former 成为一个熟练的“视觉摘要器”,能够将原始图像特征转化为简洁、适合语言模型处理的表示。
第二阶段: 教会 Q-Former “说出” LLM 的语言
当 Q-Former 学会了“看见”,下一个挑战是教会它与冻结的 LLM 沟通 。 在第二阶段,Q-Former (以及仍冻结的图像编码器) 通过一个简单的线性投影层连接到语言模型。

图 3. BLIP-2 的第二阶段预训练将 Q-Former 连接至冻结的 LLM。 (上) 自举基于解码器的 LLM,如 OPT; (下) 自举基于编码器-解码器的 LLM,如 FlanT5。
Q-Former 的输出——它学习到的查询嵌入——被映射到与 LLM 词嵌入相同的维度,并作为软提示前置于输入文本 。 这些视觉提示为语言模型提供上下文,使其能够基于图像生成相应文本。
举例来说,假设向 BLIP-2 提问:
“问题: 这只猫戴着什么?回答: ”
当配上一张戴着太阳镜的猫的图片时,这些软视觉提示会提供相应的视觉线索,引导冻结的 LLM 输出正确答案: “太阳镜”。
Q-Former 使用生成损失进行训练,该损失鼓励 LLM 生成正确的描述或回答。由于第一阶段已教会 Q-Former 如何提取重要视觉信息,第二阶段的协同可高效完成——无需重新训练庞大的语言模型。
结果: 以小博大,性能卓越
BLIP-2 的冻结模型方法效果如何?结果令人惊艳。
涌现的零样本视觉-语言能力
由于 BLIP-2 直接连接强大的指令微调 LLM (如 FlanT5) ,它展现出惊人的零样本图像到文本生成能力。你可以输入一张图片和任意指令,模型即可生成对应语言输出——即便这些任务从未在训练中出现。

图 4. BLIP-2 能基于开放式指令生成零样本图像到文本内容,如推理、讲故事和创意写作,由 ViT-g 与 FlanT5XXL 驱动。
这些示例展示了 BLIP-2 如何描述图像、推理上下文及生成引人入胜的叙事——全部无需针对具体任务微调。
在 VQA 任务中超越巨型模型
在视觉问答 (VQA) 任务中,BLIP-2 达到了顶尖性能,甚至超越了规模庞大得多的模型。

表 2. 零样本 VQA 性能。BLIP-2 的成绩较 Flamingo-80B 提高 8.7%,同时可训练参数减少 54 倍。
BLIP-2 最大配置在 VQAv2 中取得 65.0% 的成绩,远超 DeepMind 的 800 亿参数模型 Flamingo——而其可训练参数仅有 1.08 亿。
这一高效性源于其模块化冻结结构。使用更好的视觉编码器 (如 ViT-g 相对于 ViT-L) 或更强的语言模型 (如 FlanT5 相对于 OPT) 均可直接提升结果,无需重新训练,证明了 BLIP-2 的可扩展性与模块化特性。
两阶段策略的重要性
为验证第一阶段的必要性,作者进行了消融实验: 若跳过表示学习,会有什么结果?

图 5. 若缺少第一阶段的表示学习,模型无法弥合模态鸿沟,在训练中准确率显著下降。
结果显而易见: 没有视觉-语言表示学习,模型的 VQA 性能急剧下降——OPT 模型甚至在后期迭代中出现灾难性遗忘。这证明了 BLIP-2 的两阶段预训练策略对于稳健的跨模态对齐至关重要。
在各类视觉-语言任务中表现强劲
当在标准数据集上微调时,BLIP-2 在多个基准测试中均取得了领先成果:
- 图像字幕生成: BLIP-2 在 NoCaps 基准上刷新纪录,展现出卓越的域外泛化能力。

表 3. BLIP-2 微调后的图像字幕生成性能在域内与域外评估中均超过先前模型。
- 视觉问答 (微调后) :
BLIP-2 表现优于多数开放式生成模型,甚至与更大型系统相当或更好。

表 4. 微调后 BLIP-2 在 VQA 准确率上可比肩数十亿参数系统,同时保持更高的参数效率。
- 图文检索: BLIP-2 在 COCO 与 Flickr30K 的图像到文本及文本到图像检索任务中均取得领先成绩。
这些结果表明,BLIP-2 不仅高效,而且在视觉-语言理解与生成上同样强大且具备良好泛化能力。
局限与未来挑战
尽管优势明显,BLIP-2 也存在局限。由于依赖冻结的图像编码器和 LLM,它继承了二者的偏见与知识缺陷,有时会生成不准确或过时的输出,或出现错误推理。

图 6. 由于继承了 LLM 的偏见或视觉推理不完整,BLIP-2 出现的部分失败案例。
此外,BLIP-2 目前在视觉-语言任务的上下文学习 (in-context learning) 方面表现不足——即在推理时通过少量示例提升性能的能力。其预训练数据仅限单图像与单标题配对,限制了学习多模态序列关系的潜力。
这些限制提示了未来的发展方向,例如引入更丰富的交错数据集或应用指令微调来强化多模态推理能力。
结论: 构建更智能的桥梁
BLIP-2 提供了一个深刻的启示: 多模态 AI 不一定要更大,而要更聪明地连接 。 通过一个轻量级查询 Transformer 搭建冻结的视觉与语言模型之间的桥梁,BLIP-2 在视觉-语言预训练的效率与性能上树立了新标杆。
核心要点:
- 通过冻结模型实现高效: BLIP-2 利用预训练的编码器与 LLM,无需端到端重训,大幅降低计算成本。
- 两阶段预训练至关重要: 先教 Q-Former “看见”,再教它“说话”,确保模态间稳健对齐。
- 模块化且面向未来的框架: 随着视觉与语言模型不断进步,BLIP-2 能无缝集成它们,并以极低成本实现扩展。
尽管继承了 LLM 的局限,BLIP-2 仍是向可访问、可扩展多模态系统迈出的重要一步。它为如何低成本地教大型语言模型“看见”提供了实用蓝图,并可能重新定义我们构建同时理解文字与视觉的对话式 AI 的方式。
](https://deep-paper.org/en/paper/2301.12597/images/cover.png)