科学怪人式的裁判：如何通过模型合并在零训练下构建更好的视觉语言评估器

在人工智能飞速发展的世界里，我们已经习惯了模型能够写诗、写代码，甚至以惊人的准确度描述图像。像 GPT-4V 或 Llama-Vision 这样的大型视觉语言模型 (Large Vision-Language Models, LVLMs) 彻底改变了机器感知世界的方式。然而，在生成内容与评估内容之间存在着明显的差距。

创建一个能为图像生成标题的模型是一回事；创建一个能审视五个不同的标题，并稳健地判断哪一个最有用、最准确、最安全的模型，则是完全另一回事。这是奖励模型 (Reward Models, RMs) 的领域，它们是使 AI 符合人类意图的人类反馈强化学习 (RLHF) 过程背后的沉默引擎。

为多模态任务构建这些裁判是非常困难且昂贵的，因为它需要海量的人类偏好数据集 (例如，“图像 A 与文本 B 的匹配度高于文本 C”) 。但是，如果我们不需要从头开始训练一个新模型呢？如果我们能取一个理解图像的模型，和一个理解人类文本偏好的独立模型，然后简单地……把它们融合在一起呢？

这正是研究论文 《Transferring Textual Preferences to Vision-Language Understanding through Model Merging》 (通过模型合并将文本偏好迁移到视觉语言理解) 的前提。研究人员探索了一种令人着迷的、无需训练的方法，通过合并现有模型的权重来创建强大的视觉语言奖励模型 (VLRMs) 。

在这篇文章中，我们将拆解其方法论、模型合并的数学原理，以及那些表明 1 + 1 可能真的等于 3 的惊人结果。

问题: 昂贵的裁判成本

要理解这项研究的重要性，我们首先需要看看当前多模态 AI 开发中的瓶颈。

最先进的模型严重依赖 RLHF。要做 RLHF，你需要一个奖励模型——一个给 AI 输出打分的数字评论家。在纯文本领域，我们拥有优秀的奖励模型，因为我们有大量的文本偏好数据。

然而, 视觉语言奖励模型 (VLRMs) 却相对落后。为什么？

数据稀缺: 收集人类对图像-文本对进行评分的数据既缓慢又昂贵。
计算成本: 从头开始训练 VLRM 需要大量的计算资源。
“裁判”差距: 虽然 LVLM 擅长回答关于图像的问题，但它们通常是很糟糕的质量“裁判”。它们很难给生成的内容分配准确的标量分数。

研究人员提出了一个关键问题: 源自纯文本偏好数据的知识能否在无需额外训练的情况下迁移到 LVLM？

如果成功，这将允许我们“下载”基于文本模型的判断能力，并将其“上传”到基于视觉的模型中，瞬间赋予其评估多模态内容的能力。

解决方案: 模型合并

提出的解决方案利用了模型合并 (Model Merging) 技术。这是一种将两个不同神经网络的参数 (权重) 组合成单个模型的技术。这不是并行运行两个模型 (集成) ，而是从数学上将它们的大脑平均成一个。

图 1: 合并基于文本的 RM 与 LVLM 的框架。

如上图框架所示，该过程涉及两个不同的源模型:

基于文本的 RM: 一个经过训练、能根据人类偏好对文本回复进行评分的模型 (左边戴眼镜的羊驼) 。
LVLM: 一个经过训练、能理解并描述图像的模型 (标准的羊驼) 。

通过合并它们，研究人员旨在创建一个 VLRM (戴粉色蝴蝶结的羊驼) ，它既拥有 LVLM 的视觉理解能力，又拥有 RM 的关键评分能力。

方法论: 如何构建缝合模型

模型合并不仅仅是把两个文件加在一起那么简单。模型必须是同源的 (homologous) ——这意味着它们必须共享共同的架构祖先。在这篇论文中，研究人员利用了 Llama-3.1 系列。因为视觉模型 (Llama-3.2-Vision) 和奖励模型 (Tulu-2.5-RM) 都源自同一个预训练的 Llama-3.1 基座，它们的权重矩阵是兼容的。

1. 解剖组件

为了成功合并模型，我们必须了解它们的解剖结构。

预训练基座 (\(\theta^{\mathrm{PRE}}\)) : 这是共同的祖先 (Llama-3.1-8B) 。它由嵌入层 (embeddings) 、Transformer 层和语言头 (language head) 组成。

定义预训练模型组件的公式。

基于文本的奖励模型 (\(\theta^{\mathrm{RM}}\)) : 该模型已在文本偏好上进行了微调。关键在于，它用一个输出标量分数 (好与坏) 的奖励头 (Reward Head) (\(\theta_{\mathrm{rm}}^{\mathrm{RM}}\)) 替换了标准的语言头 (用于预测下一个词) 。

定义奖励模型组件的公式。

大型视觉语言模型 (\(\theta^{\mathrm{LVLM}}\)) : 该模型已在多模态数据上进行了微调。它包含一个视觉编码器 (Vision Encoder) 和一个适配器 (Adapter) 来处理图像。

2. 合并架构

目标是组装一个 VLRM。我们不能合并每一个部分，因为架构并不完全相同 (RM 没有眼睛/视觉编码器) 。

合并后的模型 (\(\theta^{\mathrm{MERGE}}\)) 通过以下方式构建:

保留 LVLM 的视觉组件 (\(\theta_{\mathrm{venc}}^{\mathrm{LVLM}}, \theta_{\mathrm{adapt}}^{\mathrm{LVLM}}\)) 。这确保新模型仍然能“看”。
保留 RM 的奖励头 (\(\theta_{\mathrm{rm}}^{\mathrm{RM}}\)) 。这确保新模型能“裁判”。
合并 Transformer 层 (\(\theta_{\mathrm{trans}}^{\mathrm{MERGE}}\)) 。这是产生魔法的地方——融合了“父母”双方的推理能力。
合并嵌入层 (\(\theta_{\mathrm{emb}}^{\mathrm{MERGE}}\)) 。

合并后的 VLRM 的最终组装。

3. 合并策略

论文探讨了四种不同的数学策略来组合 Transformer 的权重。

策略 A: 简单加权平均

这是最直观的方法。简单地对 LVLM 和 RM 的权重进行加权平均。

加权平均的公式。

在这里，\(\lambda\) (lambda) 是一个介于 0 和 1 之间的超参数。如果 \(\lambda\) 是 0.7，则结果模型是 70% 的 LVLM 和 30% 的 RM。虽然简单，但这种方法有时会稀释每个模型的特定能力。

策略 B: 任务算术

这种方法更为复杂。它依赖于任务向量 (Task Vectors) 的概念。任务向量代表了模型权重在微调过程中移动的“方向”。

\(\tau^{\mathrm{LVLM}}\) 是模型学习视觉所移动的方向。
\(\tau^{\mathrm{RM}}\) 是模型学习偏好所移动的方向。

通过计算这些相对于预训练基座 (\(\theta^{\mathrm{PRE}}\)) 的向量，我们可以同时将两种“技能”添加到基座模型中。

任务算术的公式。

这假设技能是可叠加的，并且不会相互抵消。

策略 C: 高级合并 (TIES 和 DARE)

有时，当你合并模型时，参数会相互干扰。一个模型可能希望某个权重为正，而另一个模型希望它为负。这被称为干扰 (interference) 。

为了解决这个问题，研究人员使用了 TIES (修剪、选定和重新缩放) 和 DARE (丢弃并重新缩放) 。

TIES: 解决符号冲突。它只保留在方向 (正或负) 上一致的参数变化，并丢弃微小的、不重要的变化 (修剪) 。
DARE: 随机丢弃一定比例的增量参数 (与基座模型的差异) ，以减少冗余，然后重新缩放剩余参数以保持整体幅度。

使用 TIES/DARE 的高级合并策略公式。

在这个公式中，\(f(\cdot)\) 代表 TIES 或 DARE 的过滤函数，\(d\) 代表密度 (我们保留多少参数) 。

实验与结果

研究人员在严格的基准测试 (如 VL-RewardBench、TextVQA 和 MMMU-Pro )上测试了他们的“科学怪人”创造物。他们将合并后的模型与原始 LVLM (Llama-3.2-Vision) 和原始文本 RM (Tulu-2.5-RM) 进行了比较。

主要结果

结果令人信服。合并基于文本的奖励模型与视觉模型，其表现始终优于单独使用任何一个模型。

表 1: 合并方法的比较。

数据中的关键结论:

基线: “Llama-3.2-Vision” (第 1 行) 表现尚可，但在总体 (Overall) 得分上，合并模型 (第 6-9 行) 显著击败了它。
协同效应: 看一下 Overall 列。“Task Vec.” (任务算术) 方法获得了 57.9 的分数，而基座 LVLM 仅为 42.9 。这是在没有任何额外训练的情况下性能的巨大飞跃。
策略很重要: 像 DARE + Task Vec. 这样的高级方法表现异常出色，特别是在“幻觉 (Hallucination) ”和“推理 (Reasoning) ”类别中。这表明模型成功保留了 RM 识别幻觉 (谎言) 的能力，同时也保持了 LVLM 的视觉能力。

与巨头比拼

也许最令人惊讶的结果是这些合并模型如何与 GPT-4o 和 Gemini 等专有巨头模型抗衡。

表 2: 与专有模型的比较。

如上所示，合并模型 (底部几行) 的表现通常优于 90B 参数版本的 Llama-3.2-Vision，并在特定类别中取得了与 Gemini-1.5-Pro 相当的结果。这凸显了该方法的效率: 一个更小的合并模型可以表现出远超其体量的能力。

视觉部分真的起作用吗？

怀疑论者可能会问: “模型是真的在看图像，还是只是在盲目地评判文本？”

为了测试这一点，作者进行了一项消融实验，去除了图像输入。

表 3: 有无图像输入的比较。

标记为“w/o image input” (无图像输入) 的行显示性能显著下降 (例如，Task Vec 的总体得分从 57.9 降至 44.9) 。这证实了视觉编码器是活跃的 , 合并后的模型成功地将视觉数据与文本偏好规则结合在了一起。

定性分析: 眼见为实

让我们看一个具体的例子，来理解为什么合并后的模型效果更好。

在下面的例子中，模型被要求评估关于一张足球比赛图像的两个描述。

回答 1 是准确的。
回答 2 产生了“球门柱”的幻觉，但这在图像中是不可见的。

表 5: VL-RewardBench 上的定性结果。

Tulu-2.5-RM (纯文本模型) : 它给回答 2 打了更高的分数 (2.27 vs 2.17) 。为什么？因为回答 2 更长，并且提到了“球门柱”，这听起来在语义上与足球相关。没有眼睛，文本模型被幻觉欺骗了。
Task Vec / DARE (合并模型) : 这些模型正确地惩罚了回答 2 (将分数降低到 ~1.6 或 ~1.8) ，并奖励了准确的回答 1 (分数 ~3.5) 。合并成功地将“不要产生幻觉”的偏好从文本模型迁移过来，并将其应用于视觉模型所看到的现实。

超参数: 微调

模型合并不是魔法；它需要调整。研究人员分析了混合权重 (\(\lambda\)) 和密度 (\(d\)) 如何影响性能。

图 2: 合并超参数的影响。

在上面的图表中，灰色条代表合并后的模型。

左图 (VL-RewardBench) : 在几乎所有的超参数设置下，合并模型的表现都优于基线 (红线和蓝线) 。
右图 (MMMU-Pro) : 这里的性能更敏感。如果 \(\lambda\) (任务向量的贡献) 太低或太高，性能就会下降。这表明找到视觉和文本技能平衡的“最佳平衡点”至关重要。

结论与启示

这篇论文有力地证明了模型合并是一种资源高效的训练替代方案。

通过将标准的视觉语言模型与基于文本的奖励模型合并，研究人员创建了一个视觉语言奖励模型 , 它:

表现优于其“父母”。
需要零训练 (节省了巨大的计算成本) 。
迁移了复杂的偏好 (如幻觉检测) ，从文本迁移到了视觉。

这对学生和研究人员意味着什么? 它使得强大评估器的创建变得平民化。你不需要 H100 GPU 集群来构建最先进的多模态裁判；你可能只需要一个 CPU 和正确的合并脚本。这表明神经网络学到的“技能”比我们之前认为的更具模块化和可迁移性。

随着我们迈向更复杂的多模态智能体，将不同的专用模型“缝合”成一个单一、内聚的单元的能力，可能是快速进步的关键。AI 的未来可能不仅仅是训练更大的模型，而是关于以更聪明的方式组合我们已有的模型。

问题: 昂贵的裁判成本#

解决方案: 模型合并#

方法论: 如何构建缝合模型#

1. 解剖组件#

2. 合并架构#

3. 合并策略#

策略 A: 简单加权平均#

策略 B: 任务算术#

策略 C: 高级合并 (TIES 和 DARE)#

实验与结果#

主要结果#

与巨头比拼#

视觉部分真的起作用吗？#

定性分析: 眼见为实#

超参数: 微调#

结论与启示#