FairPO：教导 LLM 公平地总结不同观点

想象一下，你正在网上购买一台新笔记本电脑。你向下滚动查看评论以了解公众意见。共有 50 条评论: 25 条称赞电池续航，25 条抱怨屏幕分辨率。你没时间把它们全部读完，所以你让一个 AI 助手为你总结。

AI 返回了一个摘要: “用户报告称屏幕分辨率令人失望且有颗粒感。”

严格来说，AI 并没有撒谎——人们确实是这么说的。然而，通过省略关于电池的 25 条正面评论，这个摘要在本质上是不公平的。它歪曲了文档集中的集体意见。当大语言模型 (LLM) 执行多文档摘要 (MDS) 任务时，这种偏见可能会显著影响电子商务、政治分析和媒体监控中的决策。

在这篇文章中，我们将深入探讨一篇最近的研究论文 “Improving Fairness of Large Language Models in Multi-document Summarization” (提高大语言模型在多文档摘要中的公平性) , 该论文提出了一种名为 FairPO 的新型训练框架。我们将探索该方法如何利用偏好优化来强制 LLM 关注代表性不足的观点，从而确保摘要能够反映意见的真实分布。

问题: 摘要中的公平性

多文档摘要 (MDS) 旨在将来自多个来源的信息压缩成一段连贯的文本。这些来源通常包含一个社会属性 (social attribute) ——代表视角的标签，例如评论中的“正面情感”，或政治推文中的“左翼意识形态”。

在这种背景下，公平性定义为两个不同的层面:

摘要级公平性 (Summary-level Fairness) : 特定的摘要是否准确反映了特定输入文档中的意见分布？ (例如，如果输入是 50% 正面和 50% 负面，摘要应该反映这种平衡) 。
语料库级公平性 (Corpus-level Fairness) : 摘要模型是否在所有输入中系统性地偏向某一群体？ (例如，无论输入如何，模型是否总是忽略“右翼”立场？) 。

最近的研究表明，现代 LLM 在这两方面都很吃力。虽然存在提示策略 (例如告诉模型“要公平”) ，但它们依赖于用户预先知道存在公平性问题。我们需要一种将公平性直接融入模型权重的方法。

背景: 衡量公平性

在提高公平性之前，我们必须先对其进行衡量。研究人员利用了两个源自覆盖率 (coverage) 概念的关键指标。

1. 估计覆盖率

首先，我们需要知道摘要句子 \(s_j\) 中是否表现了特定文档 \(d_i\)。研究人员使用蕴含模型 (entailment model) 来计算文档被句子“覆盖”的概率 \(p(d_i, s_j)\)。

公式 1: 计算文档块与摘要句子之间的最大蕴含概率。

在这里，该指标取文档块与摘要句子之间的最大蕴含分数。整个摘要 \(S\) 对文档 \(d_i\) 的总覆盖概率是摘要中所有句子的平均值:

公式 2: 计算所有摘要句子的平均覆盖概率。

2. 均等覆盖 (摘要级公平性)

均等覆盖 (Equal Coverage, EC) 衡量单个文档集的公平性。它计算摘要对特定文档的覆盖率与所有文档的平均覆盖率之间的差异。

理想情况下，具有属性 \(k\) (例如正面评论) 的文档的覆盖率不应显著偏离平均值。EC 值越低，意味着摘要越公平。

公式 3: 均等覆盖公式，计算每个属性的平均绝对覆盖概率差。

3. 覆盖平价 (语料库级公平性)

覆盖平价 (Coverage Parity, CP) 关注“大局”。它聚合了整个数据集的覆盖率差异。如果一个模型始终代表不足某一特定群体 (例如，成千上万种产品的负面评论总是被忽略) ，CP 分数就会很高。较低的 CP 表示系统更公平。

公式 4: 覆盖平价公式，衡量整个语料库中的系统性过度代表或代表不足。

核心方法: FairPO

本文的核心贡献是 FairPO (公平偏好优化) 。这是一种基于直接偏好优化 (DPO) 的偏好微调方法。标准的 DPO 训练模型偏好“更好”的摘要 (通常基于人类对流畅性或安全性的偏好) 。FairPO 将其调整为训练模型偏好“更公平”的摘要。

该方法包含两个阶段: 基于扰动的偏好对生成 (用于修复摘要级公平性) 和感知公平性的偏好微调 (用于修复语料库级公平性) 。

第一阶段: 通过扰动生成偏好对

要使用偏好优化来训练模型，你需要数据对: 一个胜选 (Chosen) 摘要 (\(S_c\)) 和一个败选 (Rejected) 摘要 (\(S_r\)) 。胜选摘要应该是能够很好处理多样性的摘要，而败选摘要则是未能做到的那个。

理想情况下，这些摘要在代表社会属性的方式上应该有显著差异。作者通过扰动 (perturbing) 输入文档集来实现这一点。

识别不平衡: 对于文档集 \(D\)，系统生成一个初始摘要，并识别哪个社会属性被过度代表 (\(k^+\)) ，哪个代表不足 (\(k^-\)) 。
扰动: 它创建两个修改后的文档集:

一个移除了小部分 (\(\alpha\%\)) 过度代表的文档。
一个移除了小部分代表不足的文档。

生成与选择: 为这些扰动后的集合生成新摘要。

具有最低均等覆盖 (EC) 值 (最公平) 的摘要成为胜选摘要 (\(S_c\)) 。
具有最高 EC 值 (最不公平) 的摘要成为败选摘要 (\(S_r\)) 。

这个过程自动创建了训练数据，使模型能够清楚地看到公平摘要与偏见摘要之间的区别。

第二阶段: 感知公平性的偏好微调

标准的 DPO 平等对待每一个偏好对。然而，在公平性任务中，某些错误比其他错误更严重。如果模型已经倾向于忽略负面评论 (语料库级偏见) ，那么一个败选摘要忽略负面评论的训练样本比一个忽略正面评论的样本更重要 , 更需要被纠正。

FairPO 修改了 DPO 的目标函数，引入了动态权重 (\(w_c\) 和 \(w_r\)) ，这些权重根据模型的偏见历史进行调整。

FairPO 的目标函数为:

公式 5: FairPO 目标函数，为胜选和败选摘要设置了单独的权重。

这里，\(\pi_\theta\) 是正在训练的模型，\(\pi_{ref}\) 是参考模型 (原始 LLM) 。项 \(m\) 是来自 DPO 的标准奖励边际 (reward margin) ，定义为:

公式 6: 标准的 DPO 奖励边际计算。

这里的关键创新是引入了 \(w_c\) 和 \(w_r\) 。

计算动态权重

模型如何知道分配什么权重？它在训练期间跟踪自己的表现。

跟踪偏见: 在每一步，系统计算特定属性 (如“正面情感”) 在整个批次中是被过度代表还是代表不足。它为每个属性 \(k\) 维护一个过度代表 \(O(k)\) 和代表不足 \(U(k)\) 的分数。

公式 8: 估计社会属性 k 过度代表程度的公式。

分配权重:

如果一个摘要有助于平衡语料库 (例如，它过度代表了模型通常忽略的属性) ，它会获得更高的权重 。
如果一个摘要加剧了不平衡，它将受到更严厉的惩罚。

胜选摘要的权重 (\(w_{c,k}\)) 计算如下:

公式 9: 基于过度/代表不足比率的胜选摘要权重计算。

同样，败选摘要的权重 (\(w_{r,k}\)) 为:

公式 10: 败选摘要的权重计算。

注意比率 \(O(k)/U(k)\)。如果属性 \(k\) 被严重过度代表 (\(O > U\)) ，权重会调整以降低继续过度代表它的摘要的优先级，并优先考虑那些为代表不足的 \(U\) 发声的摘要。

数学直觉

为什么要这样设计目标函数？作者推导表明，FairPO 的导数在保持 DPO 稳定性的同时注入了公平性约束。

标准 DPO 的导数如下所示:

公式 14: 标准 DPO 目标的导数。

FairPO 的导数如下所示:

公式 16: 显示加权梯度的 FairPO 目标导数。

至关重要的是，FairPO 保留了缩放因子 \(\sigma(-m)\)，这有助于模型关注“困难”的样本 (即模型不确定哪个摘要更好的情况) 。如果简单地将权重放入标准 DPO 方程的对数概率项中 (一种朴素的方法) ，将会扭曲奖励边际 \(m\)，使训练变得不稳定。

朴素方法 (加权 DPO) 方程: 公式 17: 一种朴素的加权 DPO 目标，它会扭曲边际。

这种朴素方法会导致一个扭曲的加权边际 \(m'\): 公式 19: 由朴素方法导致的扭曲加权边际 m’。

由于边际内的项被赋予了不同的权重，\(m'\) 不再是衡量模型区分胜选与败选摘要能力的清晰指标。FairPO 通过在梯度的对数比率结构外部应用权重，避免了这个问题，从而保留了偏好优化的有效性。

实验与结果

研究人员在三个不同的数据集上测试了 FairPO:

Amazon: 产品评论 (属性: 负面、中性、正面情感) 。
MITweet: 关于各种话题的推文 (属性: 左翼、中间派、右翼意识形态) 。
SemEval: 关于诸如“气候变化”等目标的立场推文 (属性: 支持、反对) 。

他们将 FairPO 应用于三个流行的 LLM: Llama3.1、Mistral 和 Gemma2 。

与基线方法的比较

他们将 FairPO 与以下方法进行了比较:

原始模型: 未经微调的基础 LLM。
DPO: 没有公平性权重的标准偏好优化。
OPTune: 另一种偏好微调方法。
Prompting (提示) : 明确要求模型保持公平。
Policy Gradient (策略梯度) : 一种强化学习方法。

结果如表 2 所示，非常有说服力。

表 2: 跨数据集和模型比较 FairPO 与基线的实验结果。

结果的关键要点:

FairPO 占据主导地位: 在几乎所有模型和数据集中，它都取得了最低 (最好) 的均等覆盖 (EC) 和覆盖平价 (CP) 分数。
语料库级改进: 看看 Llama3.1 在 Amazon 数据集上的 CP 分数。基础模型的分数为 1.89。FairPO 将其降低到 0.42。这表明 FairPO 大幅减少了整个数据集的系统性偏见。
仅靠 DPO 是不够的: 虽然标准 DPO 相比基础模型略微提高了公平性，但 FairPO 显著优于它，证明特定的公平感知加权机制是必要的。

消融实验

复杂的加权机制真的有必要吗？还是说扰动起到了主要作用？作者进行了消融实验来找出答案。

表 3: 显示移除扰动或公平感知加权影响的消融研究结果。

w/o pert. (无扰动) : 使用随机摘要代替扰动摘要会损害性能。扰动对于创建高质量的“公平 vs 不公平”对至关重要。
w/o fair. (无公平性微调) : 使用标准 DPO 权重会增加 CP (语料库平价) 误差。这证实了动态权重 (\(w_c, w_r\)) 对于修复系统性偏见至关重要。

公平性会损害质量吗？

AI 伦理中的一个常见担忧是“对齐税” (alignment tax) ——即让模型更安全或更公平会降低其能力。作者使用 Prometheus 2 (一个评估器 LLM) 评估了摘要的流畅性、相关性和事实性 。

表 4: 摘要质量比较，显示 FairPO 相比基线保持或提高了质量。

结果 (表 4) 显示了成对比较。正数表示微调后的模型击败了原始模型。

FairPO 在各方面都保持甚至提高了质量。
相比之下, Prompting (提示) 严重破坏了质量 (负分) ，这可能是因为冗长、复杂的提示让模型感到困惑或迫使其使用不自然的措辞。

定性分析

最后，让我们看一个生成的摘要的实际例子。

图 3: DPO 和 FairPO 在亚马逊评论上生成的摘要样本。

在 Mistral 的例子 (中间列) 中，标准 DPO 摘要提到“总体正面的评价”并列出了优点，只简略提到了电池续航问题。

然而, FairPO 的摘要明确以“这款东芝平板电脑收到了褒贬不一的评价 ”开头。它赋予了赞扬 (轻便、快速) 和担忧 (电池续航、损坏的产品) 同等的权重。这种细微差别——承认冲突而不是掩盖它——正是让摘要变得公平的原因。

结论

多文档摘要是一个强大的工具，但它存在压制少数意见或放大多数偏见的风险。这篇论文表明，我们不必接受这种妥协。

FairPO 引入了一个强大的框架，使 LLM 与公平目标保持一致。通过结合基于扰动的数据生成 (教导模型公平看起来像什么) 和感知公平性的偏好微调 (教导模型在语料库平衡方面公平有多重要) ，FairPO 显著减少了偏见。重要的是，它在不降低摘要连贯性或事实性的情况下实现了这一目标。

对于 NLP 领域的学生和研究人员来说，FairPO 阐明了一个更广泛的教训: 只要我们能将这些约束 (如覆盖平价) 公式化为可微分或可调节权重的信号，标准优化目标 (如 DPO) 就可以在数学上进行调整以解决特定的伦理约束。

本博客文章解释了由 Haoyuan Li, Rui Zhang 和 Snigdha Chaturvedi 撰写的研究论文 “Improving Fairness of Large Language Models in Multi-document Summarization” 中的研究成果。

问题: 摘要中的公平性#

背景: 衡量公平性#

1. 估计覆盖率#

2. 均等覆盖 (摘要级公平性)#

3. 覆盖平价 (语料库级公平性)#

核心方法: FairPO#

第一阶段: 通过扰动生成偏好对#

第二阶段: 感知公平性的偏好微调#

计算动态权重#

数学直觉#

实验与结果#

与基线方法的比较#

消融实验#

公平性会损害质量吗？#

定性分析#

结论#