在人工智能飞速发展的世界里,我们已经习惯了模型能够写诗、写代码,甚至以惊人的准确度描述图像。像 GPT-4V 或 Llama-Vision 这样的大型视觉语言模型 (Large Vision-Language Models, LVLMs) 彻底改变了机器感知世界的方式。然而,在生成内容与评估内容之间存在着明显的差距。
创建一个能为图像生成标题的模型是一回事;创建一个能审视五个不同的标题,并稳健地判断哪一个最有用、最准确、最安全的模型,则是完全另一回事。这是奖励模型 (Reward Models, RMs) 的领域,它们是使 AI 符合人类意图的人类反馈强化学习 (RLHF) 过程背后的沉默引擎。
为多模态任务构建这些裁判是非常困难且昂贵的,因为它需要海量的人类偏好数据集 (例如,“图像 A 与文本 B 的匹配度高于文本 C”) 。但是,如果我们不需要从头开始训练一个新模型呢?如果我们能取一个理解图像的模型,和一个理解人类文本偏好的独立模型,然后简单地……把它们融合在一起呢?
这正是研究论文 《Transferring Textual Preferences to Vision-Language Understanding through Model Merging》 (通过模型合并将文本偏好迁移到视觉语言理解) 的前提。研究人员探索了一种令人着迷的、无需训练的方法,通过合并现有模型的权重来创建强大的视觉语言奖励模型 (VLRMs) 。
在这篇文章中,我们将拆解其方法论、模型合并的数学原理,以及那些表明 1 + 1 可能真的等于 3 的惊人结果。
问题: 昂贵的裁判成本
要理解这项研究的重要性,我们首先需要看看当前多模态 AI 开发中的瓶颈。
最先进的模型严重依赖 RLHF。要做 RLHF,你需要一个奖励模型——一个给 AI 输出打分的数字评论家。在纯文本领域,我们拥有优秀的奖励模型,因为我们有大量的文本偏好数据。
然而, 视觉语言奖励模型 (VLRMs) 却相对落后。为什么?
- 数据稀缺: 收集人类对图像-文本对进行评分的数据既缓慢又昂贵。
- 计算成本: 从头开始训练 VLRM 需要大量的计算资源。
- “裁判”差距: 虽然 LVLM 擅长回答关于图像的问题,但它们通常是很糟糕的质量“裁判”。它们很难给生成的内容分配准确的标量分数。
研究人员提出了一个关键问题: 源自纯文本偏好数据的知识能否在无需额外训练的情况下迁移到 LVLM?
如果成功,这将允许我们“下载”基于文本模型的判断能力,并将其“上传”到基于视觉的模型中,瞬间赋予其评估多模态内容的能力。
解决方案: 模型合并
提出的解决方案利用了模型合并 (Model Merging) 技术。这是一种将两个不同神经网络的参数 (权重) 组合成单个模型的技术。这不是并行运行两个模型 (集成) ,而是从数学上将它们的大脑平均成一个。

如上图框架所示,该过程涉及两个不同的源模型:
- 基于文本的 RM: 一个经过训练、能根据人类偏好对文本回复进行评分的模型 (左边戴眼镜的羊驼) 。
- LVLM: 一个经过训练、能理解并描述图像的模型 (标准的羊驼) 。
通过合并它们,研究人员旨在创建一个 VLRM (戴粉色蝴蝶结的羊驼) ,它既拥有 LVLM 的视觉理解能力,又拥有 RM 的关键评分能力。
方法论: 如何构建缝合模型
模型合并不仅仅是把两个文件加在一起那么简单。模型必须是同源的 (homologous) ——这意味着它们必须共享共同的架构祖先。在这篇论文中,研究人员利用了 Llama-3.1 系列。因为视觉模型 (Llama-3.2-Vision) 和奖励模型 (Tulu-2.5-RM) 都源自同一个预训练的 Llama-3.1 基座,它们的权重矩阵是兼容的。
1. 解剖组件
为了成功合并模型,我们必须了解它们的解剖结构。
预训练基座 (\(\theta^{\mathrm{PRE}}\)) : 这是共同的祖先 (Llama-3.1-8B) 。它由嵌入层 (embeddings) 、Transformer 层和语言头 (language head) 组成。

基于文本的奖励模型 (\(\theta^{\mathrm{RM}}\)) : 该模型已在文本偏好上进行了微调。关键在于,它用一个输出标量分数 (好与坏) 的奖励头 (Reward Head) (\(\theta_{\mathrm{rm}}^{\mathrm{RM}}\)) 替换了标准的语言头 (用于预测下一个词) 。

大型视觉语言模型 (\(\theta^{\mathrm{LVLM}}\)) : 该模型已在多模态数据上进行了微调。它包含一个视觉编码器 (Vision Encoder) 和一个适配器 (Adapter) 来处理图像。
2. 合并架构
目标是组装一个 VLRM。我们不能合并每一个部分,因为架构并不完全相同 (RM 没有眼睛/视觉编码器) 。
合并后的模型 (\(\theta^{\mathrm{MERGE}}\)) 通过以下方式构建:
- 保留 LVLM 的视觉组件 (\(\theta_{\mathrm{venc}}^{\mathrm{LVLM}}, \theta_{\mathrm{adapt}}^{\mathrm{LVLM}}\)) 。这确保新模型仍然能“看”。
- 保留 RM 的奖励头 (\(\theta_{\mathrm{rm}}^{\mathrm{RM}}\)) 。这确保新模型能“裁判”。
- 合并 Transformer 层 (\(\theta_{\mathrm{trans}}^{\mathrm{MERGE}}\)) 。这是产生魔法的地方——融合了“父母”双方的推理能力。
- 合并嵌入层 (\(\theta_{\mathrm{emb}}^{\mathrm{MERGE}}\)) 。

3. 合并策略
论文探讨了四种不同的数学策略来组合 Transformer 的权重。
策略 A: 简单加权平均
这是最直观的方法。简单地对 LVLM 和 RM 的权重进行加权平均。

在这里,\(\lambda\) (lambda) 是一个介于 0 和 1 之间的超参数。如果 \(\lambda\) 是 0.7,则结果模型是 70% 的 LVLM 和 30% 的 RM。虽然简单,但这种方法有时会稀释每个模型的特定能力。
策略 B: 任务算术
这种方法更为复杂。它依赖于任务向量 (Task Vectors) 的概念。任务向量代表了模型权重在微调过程中移动的“方向”。
- \(\tau^{\mathrm{LVLM}}\) 是模型学习视觉所移动的方向。
- \(\tau^{\mathrm{RM}}\) 是模型学习偏好所移动的方向。
通过计算这些相对于预训练基座 (\(\theta^{\mathrm{PRE}}\)) 的向量,我们可以同时将两种“技能”添加到基座模型中。

这假设技能是可叠加的,并且不会相互抵消。
策略 C: 高级合并 (TIES 和 DARE)
有时,当你合并模型时,参数会相互干扰。一个模型可能希望某个权重为正,而另一个模型希望它为负。这被称为干扰 (interference) 。
为了解决这个问题,研究人员使用了 TIES (修剪、选定和重新缩放) 和 DARE (丢弃并重新缩放) 。
- TIES: 解决符号冲突。它只保留在方向 (正或负) 上一致的参数变化,并丢弃微小的、不重要的变化 (修剪) 。
- DARE: 随机丢弃一定比例的增量参数 (与基座模型的差异) ,以减少冗余,然后重新缩放剩余参数以保持整体幅度。

在这个公式中,\(f(\cdot)\) 代表 TIES 或 DARE 的过滤函数,\(d\) 代表密度 (我们保留多少参数) 。
实验与结果
研究人员在严格的基准测试 (如 VL-RewardBench、TextVQA 和 MMMU-Pro )上测试了他们的“科学怪人”创造物。他们将合并后的模型与原始 LVLM (Llama-3.2-Vision) 和原始文本 RM (Tulu-2.5-RM) 进行了比较。
主要结果
结果令人信服。合并基于文本的奖励模型与视觉模型,其表现始终优于单独使用任何一个模型。

数据中的关键结论:
- 基线: “Llama-3.2-Vision” (第 1 行) 表现尚可,但在总体 (Overall) 得分上,合并模型 (第 6-9 行) 显著击败了它。
- 协同效应: 看一下 Overall 列。“Task Vec.” (任务算术) 方法获得了 57.9 的分数,而基座 LVLM 仅为 42.9 。 这是在没有任何额外训练的情况下性能的巨大飞跃。
- 策略很重要: 像 DARE + Task Vec. 这样的高级方法表现异常出色,特别是在“幻觉 (Hallucination) ”和“推理 (Reasoning) ”类别中。这表明模型成功保留了 RM 识别幻觉 (谎言) 的能力,同时也保持了 LVLM 的视觉能力。
与巨头比拼
也许最令人惊讶的结果是这些合并模型如何与 GPT-4o 和 Gemini 等专有巨头模型抗衡。

如上所示,合并模型 (底部几行) 的表现通常优于 90B 参数版本的 Llama-3.2-Vision,并在特定类别中取得了与 Gemini-1.5-Pro 相当的结果。这凸显了该方法的效率: 一个更小的合并模型可以表现出远超其体量的能力。
视觉部分真的起作用吗?
怀疑论者可能会问: “模型是真的在看图像,还是只是在盲目地评判文本?”
为了测试这一点,作者进行了一项消融实验,去除了图像输入。

标记为“w/o image input” (无图像输入) 的行显示性能显著下降 (例如,Task Vec 的总体得分从 57.9 降至 44.9) 。这证实了视觉编码器是活跃的 , 合并后的模型成功地将视觉数据与文本偏好规则结合在了一起。
定性分析: 眼见为实
让我们看一个具体的例子,来理解为什么合并后的模型效果更好。
在下面的例子中,模型被要求评估关于一张足球比赛图像的两个描述。
- 回答 1 是准确的。
- 回答 2 产生了“球门柱”的幻觉,但这在图像中是不可见的。

- Tulu-2.5-RM (纯文本模型) : 它给回答 2 打了更高的分数 (2.27 vs 2.17) 。为什么?因为回答 2 更长,并且提到了“球门柱”,这听起来在语义上与足球相关。没有眼睛,文本模型被幻觉欺骗了。
- Task Vec / DARE (合并模型) : 这些模型正确地惩罚了回答 2 (将分数降低到 ~1.6 或 ~1.8) ,并奖励了准确的回答 1 (分数 ~3.5) 。合并成功地将“不要产生幻觉”的偏好从文本模型迁移过来,并将其应用于视觉模型所看到的现实。
超参数: 微调
模型合并不是魔法;它需要调整。研究人员分析了混合权重 (\(\lambda\)) 和密度 (\(d\)) 如何影响性能。

在上面的图表中,灰色条代表合并后的模型。
- 左图 (VL-RewardBench) : 在几乎所有的超参数设置下,合并模型的表现都优于基线 (红线和蓝线) 。
- 右图 (MMMU-Pro) : 这里的性能更敏感。如果 \(\lambda\) (任务向量的贡献) 太低或太高,性能就会下降。这表明找到视觉和文本技能平衡的“最佳平衡点”至关重要。
结论与启示
这篇论文有力地证明了模型合并是一种资源高效的训练替代方案。
通过将标准的视觉语言模型与基于文本的奖励模型合并,研究人员创建了一个视觉语言奖励模型 , 它:
- 表现优于其“父母”。
- 需要零训练 (节省了巨大的计算成本) 。
- 迁移了复杂的偏好 (如幻觉检测) ,从文本迁移到了视觉。
这对学生和研究人员意味着什么? 它使得强大评估器的创建变得平民化。你不需要 H100 GPU 集群来构建最先进的多模态裁判;你可能只需要一个 CPU 和正确的合并脚本。这表明神经网络学到的“技能”比我们之前认为的更具模块化和可迁移性。
随着我们迈向更复杂的多模态智能体,将不同的专用模型“缝合”成一个单一、内聚的单元的能力,可能是快速进步的关键。AI 的未来可能不仅仅是训练更大的模型,而是关于以更聪明的方式组合我们已有的模型。
](https://deep-paper.org/en/paper/2502.13487/images/cover.png)