大语言模型 (LLM) 是令人惊叹的写作者。它们流畅、富有创造力,并且可以在几秒钟内总结复杂的文件。然而,任何大量使用过 LLM 的人都知道它们的致命弱点: 幻觉 (Hallucination) 。 它们经常生成听起来合理但包含错误或矛盾信息的文本。
对于以事实准确性和简洁性为目标的生成式摘要 (Abstractive Summarization) 来说,幻觉是一个无法接受的问题。使模型与人类意图对齐的标准解决方案是基于人类反馈的强化学习 (RLHF) 。 虽然有效,但 RLHF 昂贵、缓慢,而且矛盾的是,在事实核查方面并不总是可靠的。人类通常更喜欢读起来顺畅的摘要,而不是严格准确的摘要。
在这篇文章中,我们将探讨一种名为基于模型的偏好优化 (Model-based Preference Optimization, MPO) 的新方法。这种方法允许 LLM 在不需要任何人类反馈数据点的情况下,自我微调以获得更好的摘要效果。
概率的问题
为了理解 LLM 为何会产生幻觉,我们需要看看它们是如何生成文本的。LLM 被训练为基于最大似然 (Maximum Likelihood) 来预测下一个 token。从数学上讲,给定源文档 \(\mathbf{x}\),生成摘要 \(\mathbf{y}\) 的概率是每一步条件概率的乘积:

模型试图找到使该概率最大化的最佳摘要 \(\mathbf{y}^*\):

然而,由于搜索空间巨大,计算绝对最优序列在计算上是不可能的。相反,模型使用解码策略 (Decoding Strategies) 来近似最佳输出。选择的策略在很大程度上影响了模型是坚持事实还是陷入幻想。
解码策略: 诚实派 vs. 创意派
主要有两类解码策略: 随机 (Stochastic) 和确定性 (Deterministic) 。
1. 随机解码 (采样 / Sampling) 这种方法引入了随机性。模型不是总是选择概率最高的词,而是从概率分布中进行采样。这通常由“温度”参数 (\(\tau\)) 控制。

当温度较高时,分布变平,模型会承担更多风险。这对于创意写作来说很棒,但对于摘要来说却是危险的。高随机性与高幻觉率相关。
2. 确定性解码 (贪婪搜索和集束搜索) 这些策略消除了随机性。 贪婪解码 (Greedy Decoding) 简单地在每一步选择概率最高的 token:

集束搜索 (Beam Search) 是一个更复杂的版本,它同时跟踪前 \(k\) 个最可能的序列 (集束) ,以找到更好的整体路径:

研究表明,像集束搜索这样的确定性方法往往能产生不那么令人惊讶,但对源文本明显更忠实的摘要。
MPO 登场: 将弱点转化为训练数据
基于模型的偏好优化 (MPO) 背后的研究人员有一个关键的洞察: 如果集束搜索能生成忠实的摘要,而温度采样会生成幻觉摘要,我们可以利用模型自身的输出来创建一个偏好数据集。
MPO 不是让人类来给摘要打分,而是自动化了这个过程:
- 胜出样本 (\(y_w\)): 使用集束搜索生成摘要。 (高忠实度) 。
- 拒绝样本 (\(y_l\)): 使用温度采样生成摘要。 (低忠实度,高幻觉) 。
这为同一个源文档创建了一对“好”与“坏”的摘要,完全由模型自己生成。
MPO 架构
这个过程建立了一个封闭的反馈循环。图 2 展示了工作流程:

- 有监督微调 (SFT) : 模型首先在标准的真实摘要数据集上进行训练。
- 偏好生成: SFT 模型生成成对的摘要。确定性输出被标记为“胜出 (Chosen) ”,随机输出被标记为“拒绝 (Rejected) ”。
- 直接偏好优化 (DPO) : 模型进行微调以与“胜出”的样本对齐。
为什么选择 DPO?
MPO 利用直接偏好优化 (DPO) 而不是传统的强化学习 (PPO) 。DPO 稳定且计算效率高,因为它不需要训练单独的奖励模型。它直接使用偏好数据优化策略。
DPO 损失函数推动模型增加胜出响应 (\(y^w\)) 的可能性,并降低拒绝响应 (\(y^l\)) 的可能性,有效地拉大忠实生成与幻觉生成之间的差距:

实验结果: 击败人类反馈
研究人员使用 GPT-J、Mistral-7B 和 LLaMA-2-7B 等模型,在 TL;DR (Reddit 摘要) 和 XSUM (BBC 新闻摘要) 等标准数据集上测试了 MPO。
他们将 MPO 与以下方法进行了比较:
- SFT: 标准的有监督微调。
- PPO & DPO (Human): 使用昂贵的人类偏好数据集训练的模型。
忠实度与相关性
结果令人震惊。MPO 在忠实度指标上显著优于使用人类反馈训练的模型。

如上方的雷达图所示,MPO (蓝线) 在衡量事实一致性的 FactCC 和 AlignScore 上占据主导地位。有趣的是,基于人类偏好训练的模型 (红线和橙线) 在真实性上的表现往往比基线 SFT 模型更差。这支持了一个理论,即人类标注者通常优先考虑流畅性而非严格的事实准确性,无意中教会了模型“听起来好听”比“内容正确”更重要。
表 2 突显了 MPO 在不同基础模型 (GPT-J, Mistral, LLaMA2) 上的鲁棒性。无论架构如何,与 SFT 基线相比,MPO 始终提高了 AlignScore (忠实度) 和 BARTScore (相关性) 。

定性分析
数字虽然有用,但查看实际文本更能揭示改进的本质。在表 4 中,我们看到了针对 Reddit 情感关系帖子的生成摘要对比。

SFT 模型产生了一系列从未发生的幻觉事件 (“然后我们没有,然后我们又做了”) 。 DPO (Human) 模型生成了一个模糊、哲理性的摘要 (“我不知道这个男孩想要什么……”) 。然而, MPO 摘要捕捉到了具体的事实事件: 他们接吻了,他说喜欢她但她不是他喜欢的类型。
为什么这行得通?
MPO 的成功依赖于确定性和随机解码之间的质量差距。研究人员通过评估用于训练的胜出和拒绝样本验证了这一假设。

如表 7 所示,“胜出”样本 (集束搜索) 在各项指标上始终得分高于“拒绝”样本 (温度采样) 。通过强制模型偏好集束搜索的输出,本质上是将昂贵的解码策略 (如集束搜索) 的优势提炼到模型的权重中,使其即使在稍后使用简单的贪婪解码时也能生成更好的摘要。
“抽取式”副作用
当 MPO 被迭代应用时——即改进后的模型为下一轮训练生成新数据——出现了一个有趣的现象。

图 3 显示,随着训练迭代的进行,模型的“生成性/抽象性 (Abstractiveness) ”下降,而“抽取性 (Extractiveness) ”上升。摘要开始更频繁地直接从源文本中提取句子。这是因为集束搜索规避风险;它更喜欢复制可靠的短语而不是生成新的短语。虽然这降低了创造力,但对于需要严格事实准确性的任务来说,这是非常可取的。
结论
基于模型的偏好优化 (MPO) 表明,我们并不总是需要人类来对齐 LLM。通过理解解码策略的固有属性——即集束搜索比采样更忠实——我们可以自动构建高质量的偏好数据集。
这种方法提供了一种可扩展的方式来减少生成式摘要中的幻觉。它避开了人工标注的成本,并避免了人类偏向流畅性而非事实性的陷阱。随着 LLM 的规模和能力不断增长,像 MPO 这样的自监督对齐方法可能在使它们成为值得信赖的信息处理工具方面发挥关键作用。
](https://deep-paper.org/en/paper/2409.18618/images/cover.png)