多模态大语言模型 (MLLMs) ——即能够看懂图片并进行讨论的 AI——的兴起无疑是一场革命。像 GPT-4V 和 LLaVA 这样的模型已经展示了理解视觉世界的惊人能力。然而,它们都有一个顽固且严重的缺陷: 幻觉 (Hallucination)

你可能见过这种情况: 给模型看一张厨房的照片,它却自信地描述了一个并不存在的搅拌机。或者你上传一张图表,它编造了根本不存在的数据。这些“自信的谎言”使得在关键环境部署这些模型充满了风险。

为了解决这个问题,目前的行业标准是基于人类反馈的强化学习 (RLHF) 。 人类辛苦地标注数据,告诉模型什么是真的,什么是假的。但这既缓慢又昂贵。另一种选择是基于 AI 反馈的强化学习 (RLAIF) , 通常涉及使用一个巨大的专有模型 (如 GPT-4V) 来“教导”较小的模型。但是,如果你无法访问 GPT-4V,或者你想构建一个比老师更好的模型呢?

在这篇文章中,我们将深入探讨 RLAIF-V , 这是由清华大学和其他机构的研究人员提出的一个突破性框架。他们提出了一种方法,让开源模型可以使用“同伴反馈 (peer feedback) ”进行自我对齐,而不是依赖更优越的老师。结果如何?一个在可信度上实际上超越了 GPT-4V 的开源模型。

让我们来看看他们是如何做到的。

核心问题: 教师瓶颈

在当前的 AI 对齐领域,我们通常看到一种“师生”动态。一个专有、闭源的巨头 (老师,例如 GPT-4V) 生成反馈数据,然后用于训练开源模型 (学生) 。

虽然这在一定程度上有效,但它有两个主要的局限性:

  1. 天花板效应: 学生很少能超越老师。如果老师产生幻觉 (GPT-4V 确实会) ,学生也会学会产生幻觉。
  2. 不透明性: 我们不知道专有模型如何生成反馈,这让开源社区对于如何复制这种质量一无所知。

RLAIF-V 颠覆了这一剧本。如下图所示,它从层级结构转变为点对点 (peer-to-peer) 的方法。

RLAIF-V 中提出的教师-学生范式与同伴对等范式的比较。

在图 1(a) 中,你可以看到这种转变。RLAIF-V 不再是由大机器人教小机器人,而是允许开源模型互相生成反馈 (甚至为自己生成反馈) 。图 1(b) 展示了结果: RLAIF-V 12B 模型 (右上角) 的可信度得分比通常用作老师的模型还要高。

RLAIF-V 框架

研究人员不仅仅是让模型“检查自己的作业”。这通常效果不佳,因为模型往往无法从整体上发现自己的幻觉。相反,他们开发了一个复杂的流程,以三个关键阶段为中心: 去混淆响应生成 (Deconfounded Response Generation)分而治之反馈 (Divide-and-Conquer Feedback)迭代学习 (Iterative Learning)

让我们分解下图所示的架构。

RLAIF-V 框架概览,展示了从输入到反馈生成和迭代学习的流程。

1. 去混淆响应生成

要教模型什么是“好”的回答,你通常需要成对的答案: 一个赢家 (可信) 和一个输家 (产生幻觉) 。

然而,如果你只是随机选取两个回答,它们可能在真实性之外的许多方面存在差异。一个可能礼貌且长篇大论但错误;另一个可能粗鲁且简短但正确。如果模型学会了偏好第二个,它是在学习变得真实,还是在学习变得粗鲁?这就是所谓的混淆因素 (confounding factor)

作者通过使用去混淆采样 (Deconfounded Sampling) 解决了这个问题。他们使用完全相同的输入 (图像 + 提示词) 和相同的模型来生成多个回答,仅改变随机种子。因为同一个模型生成了两者,写作风格、长度和语气几乎完全相同。剩下的唯一显著差异就是内容的准确性。这使得 AI 更容易确切地学习是什么让一个回答值得信赖。

2. 分而治之反馈

这是 RLAIF-V 的“秘诀”。

问一个开源模型: “这一段是真的吗?”通常会导致糟糕的反馈。任务太复杂了;模型会被文本的长度和细微差别搞得不知所措。

作者提出了一个分而治之 (Divide-and-Conquer) 的策略,如上图 2 中间部分所示:

  1. 分 (观点提取) : 他们获取生成的回答 (例如,“时钟显示 11:20”) ,并将其拆分为原子观点。
  2. 治 (验证) : 他们将每个观点转换为一个简单的是/否问题 (例如,“时钟显示的是 11:20 左右吗?”) 。
  3. 打分: 他们要求开源模型根据图像回答这些简单的问题。

通过将任务从“评估这一段落”简化为“回答这个具体的是/否问题”,开源模型的准确性飙升。

一个回答的最终得分是根据“拒绝 (rejections) ” (模型标记为错误的观点) 的数量计算的。如果回答 A 有 0 个拒绝,而回答 B 有 2 个拒绝,回答 A 就是赢家。这在无需人工干预的情况下创建了高质量的偏好对。

3. 迭代反馈学习

研究人员使用直接偏好优化 (DPO) 来对齐模型。然而,做一次是不够的。模型的行为会随着学习而改变。

他们采用迭代方法 。 他们生成数据,对齐模型,然后使用那个新对齐的模型为下一轮生成数据。这确保了反馈始终与模型当前的能力相匹配,从而创建一个正反馈循环,稳步减少幻觉。

推理时扩展: 自我反馈循环

训练阶段令人印象深刻,但 RLAIF-V 引入了另一个创新,发生在训练之后的推理阶段 (即你实际使用模型时) 。

一旦模型通过 DPO 进行了训练,它就会“秘密地”充当奖励模型。它可以为其自己的答案分配概率分数。作者利用这一点进行了一种称为 Best-of-N (BoN) 采样的技术。

他们为用户的提示生成 \(N\) 个不同的回答,并挑选最好的一个。但他们如何评分呢?他们使用 DPO 隐式奖励公式:

显示基于策略模型与参考模型比率的奖励公式。

这里,\(\pi_{\theta}\) 是微调后的模型,\(\pi_{ref}\) 是原始参考模型。奖励 \(r(y)\) 本质上衡量了与原始模型相比,微调后的模型生成该回答的可能性有多大。

长度偏差问题: 这里有个陷阱。之前的研究表明,这种奖励计算偏向于较短的答案。一个简短、不完整的答案可能会因为概率求和的数学原理而获得比长篇详细答案更高的分数。

修复方法: 作者应用了一个简单的长度归一化 (Length-Normalization) 策略。他们对标记 (token) 级别的分数进行平均 (除以长度 \(T\)) 。这个简单的除法消除了对撰写更长、更详细描述的惩罚,允许模型基于内容而不是简洁性来选择最佳回答。

图表展示了推理时扩展 (Best-of-N) 对生成可信度的影响。

如图 5 所示,随着样本数量 (\(N\)) 的增加,应用这种自我反馈奖励 (蓝线) 显著提高了可信度,优于简单的困惑度 (PPL) 等其他方法。

实验结果: 击败老师

研究人员在几个主要基准上测试了 RLAIF-V,包括 Object HalBench (幻觉检测) 和 MHumanEval 。 他们还将它与 GPT-4V 等闭源巨头进行了比较。

定量分析

结果如下表 1 所示,令人震惊。

主要实验结果表,比较了 RLAIF-V 与包括 GPT-4V 在内的各种基准。

数据中的关键要点:

  • 幻觉大幅减少: 与基准 LLaVA 1.5 相比,RLAIF-V 7B 将对象幻觉减少了 80.7%
  • 超越 GPT-4V: 看底部的几行。 RLAIF-V 12B 实现了更低的幻觉率 (在 MHumanEval 幻觉得分为 35.6,而 GPT-4V 为 45.9) 。
  • 自我对齐有效: “OmniLMM + RLAIF-V”这一行代表了一个使用其自身作为标注器进行对齐的模型。它在可信度指标上仍然击败了 GPT-4V。这证明了你不需要更聪明的老师来改进模型;你只需要更聪明的流程。

泛化性

人们可能会担心反馈是针对特定模型的。然而,研究人员发现,使用 RLAIF-V 收集的数据具有高度的可迁移性。

柱状图展示了使用 RLAIF-V 数据在不同 MLLM 中的幻觉减少情况。

图 4 展示了由 RLAIF-V 12B 模型生成的数据可用于训练完全不同的模型 (如 MiniCPM-V 或 LLaVA) ,从而在所有模型中显著减少幻觉 (蓝色柱状图) 。

定性比较

数字固然好,但在实践中看起来如何呢?让我们看看 RLAIF-V 和 GPT-4V 之间的比较。

定性比较展示了 RLAIF-V 提供了正确答案,而 GPT-4V 对卡车的细节产生了幻觉。

在图 12 (底部示例) 中,提示词询问卡车里的人。

  • GPT-4V (红框) : 产生幻觉,称人们穿着“白色衣服”。
  • RLAIF-V (绿框) : 正确识别出他们戴着红帽子,但没有编造衣服的颜色。

这突显了 RLAIF-V 的核心成就: 它更加保守和精确,避免了用可能但错误的细节“填补空白”的倾向。

RefoMB: 更好的衡量标准

在研究过程中,作者意识到现有的 MLLM 基准存在缺陷。许多基准依赖于忽略视觉细微差别的 GPT-4 纯文本评估,或者依赖于本身就受幻觉困扰的 GPT-4V 视觉评估。

为了解决这个问题,他们创建了 RefoMB (可靠的自由格式多模态基准)

展示 RefoMB 基准中任务类别分布的图表。

RefoMB 涵盖了从细粒度感知到逻辑推理的多种能力。作者使用了一个严格的流程,涉及经过人工验证的“综合图像描述”,以确保基本事实 (ground truth) 是真实的。这使得在比较模型可信度时能够进行公平的较量。

结论与启示

RLAIF-V 论文展示了我们对 AI 对齐思考方式的重大转变。它挑战了我们需要人工劳动或大型专有模型才能使 AI 值得信赖的假设。

通过分解问题——去混淆输入、划分反馈任务并迭代结果——开源模型可以有效地“自我提升”。

关键要点:

  1. 同伴反馈有效: 如果任务结构正确 (分而治之) ,开源模型可以生成人类水平的反馈。
  2. 超级可信度: 仅使用开源方法构建在统计上比 GPT-4V 更值得信赖的模型是可能的。
  3. 推理很重要: 你可以通过使用模型自身的概率分布作为可信度过滤器 (自我反馈) ,在训练之后从模型中榨取更多性能。

对于学生和研究人员来说,RLAIF-V 为任何拥有消费级硬件的人提供了一个高质量对齐的蓝图,使通往更安全、更可靠 AI 的道路变得大众化。