像 GPT-4、Claude 和 Gemini 这样的大型语言模型 (LLM) 的爆发,为我们带来了惊人的自然语言处理能力。但伴随着强大能力而来的是一个棘手的问题: 我们如何知道这些模型是否真的表现良好?
评估 LLM 不像批改数学试卷。在开放式任务中——比如写文章、总结故事或提供类似心理咨询的建议——并没有唯一的“正确”答案。历史上,我们依赖人类来为这些回答评分。然而,最近该领域已转向“以 LLM 为裁判 (LLM-as-a-judge) ”,即使用像 GPT-4 这样的强大模型来为其他模型的输出评分。这种方法更快、更便宜且更具可扩展性。
但这引发了一个关键的“盗梦空间”式难题: 如果我们信任 LLM 来评判其他 LLM,那我们要如何评估这些裁判呢?
在一篇题为 “Humans or LLMs as the Judge? A Study on Judgement Bias” 的精彩论文中,来自香港中文大学 (深圳) 的研究人员调查了这些评估者的可靠性。他们提出了一个新的框架来揭示人类和 AI 裁判的隐性偏见,结果显示,即使是我们最先进的模型也很容易被表面的格式或虚假的引用所欺骗。
当前评估的问题
传统的基准测试 (如 MMLU 或 C-Eval) 使用多项选择题。虽然有用,但它们并不能反映我们实际使用 AI 的方式。我们将 AI 用于聊天、创意写作和推理。开放式基准测试 (如 MT-Bench) 虽然更好,但它们面临“黄金标准”问题。
要衡量偏见,通常需要一个基本真理 (ground truth) ——一个完美的答案作为对比。但在创意写作或复杂推理中,“完美”是主观的。
这篇论文背后的研究人员决定绕过对黄金标准的需求。相反,他们采用了干预研究 (Intervention Study) 。 他们选取一个答案,故意用特定的偏见 (扰动) 对其进行“投毒”,然后观察裁判 (人类和 LLM) 是会注意到这个缺陷,还是会被它迷惑。
关注的偏见
该研究集中关注四种特定类型的偏见,分为两组:
1. 语义相关偏见 (Semantic-related Biases)
这些偏见与文本的实际含义和内容有关。
- 虚假信息忽视偏见 (Misinformation Oversight Bias): 忽视事实错误的倾向。如果一个答案听起来很自信但声称 \(7 \times 7 = 36\),裁判能发现吗?
- 性别偏见 (Gender Bias): 未能检测出答案中歧视性或刻板印象语言的情况。
2. 语义无关偏见 (Semantic-agnostic Biases)
这些是与答案正确性无关的表面偏见。
- 权威偏见 (Authority Bias): 仅仅因为答案引用了来源 (即使来源是假的或无关的) 而信任该答案的倾向。
- 美观偏见 (Beauty Bias): 倾向于更喜欢那些看起来不错的答案——使用 Markdown 格式、粗体、列表和表情符号——而不管内容是否真的更好。
方法: 设下陷阱
为了测试这些偏见,作者创建了一个稳健的实验协议。他们不仅仅是抓取随机的互联网文本;他们基于布鲁姆分类法 (Bloom’s Taxonomy) 精心构建了一个数据集,确保问题范围从简单的回忆 (“记忆”) 到复杂的综合 (“创造”) 。
第一步: 生成“对照组”
他们使用 GPT-4 生成一个问题 (Q) 和两个正确的答案 (\(A_1\) 和 \(A_2\)) 。这构成了对照组 (Control Group) 。
第二步: 创建“干预”
这是科学实验的关键所在。他们取第二个答案 (\(A_2\)) 并对其进行扰动,从而创建一个修改版本 (\(A_2^p\)) 。
- 为了测试虚假信息 , 他们在 \(A_2\) 中注入了事实错误。
- 为了测试性别偏见 , 他们注入了性别刻板印象。
- 为了测试权威偏见 , 他们添加了虚假参考文献 (看起来真实但并不存在的引用) 。
- 为了测试美观偏见 , 他们添加了“丰富内容”,如粗体、表情符号和结构化列表,但不改变实际含义。

如上图 Figure 1 所示,该框架创建了一条清晰的对比路径。左边是有效的答案,右边是被扰动的版本。
- *注意“Fallacy Oversight (谬误忽视) ”框: * 答案声称 \(\sqrt{36}\) 是 7。一个好的裁判应该否定这个答案。
- *注意“Authority Bias (权威偏见) ”框: * 它添加了对“MathWorld”的引用。有偏见的裁判可能会认为这个答案更聪明,因为它引用了来源。
第三步: 投票
研究人员随后将这些配对呈现给裁判。
- 对照组投票: 比较 \(A_1\) 与 \(A_2\) (均为正确) 。
- 实验组投票: 比较 \(A_1\) 与 \(A_2^p\) (一个正确,一个被扰动) 。

Figure 2 展示了工作流程。裁判 (人类和 LLM) 投票选出哪个答案更好。通过比较对照组与实验组的投票模式,研究人员可以衡量扰动对决策的影响程度。
指标: 攻击成功率 (ASR)
我们如何量化偏见?研究人员引入了攻击成功率 (Attack Successful Rate, ASR) 。
直观地说,如果你拿一个好的答案并加入事实错误,裁判应该减少对它的偏好。如果你拿一个标准答案并加上表情符号,裁判不应该增加对它的偏好。
ASR 衡量的是在添加扰动后,偏好向错误方向 (倾向于被扰动的答案) 转移的百分比。

理想情况下, ASR 应该为 0 。 高 ASR 意味着裁判成功被偏见“攻击”或愚弄了。
结果: 谁是更好的裁判?
该研究测试了广泛的裁判,包括 60 名人类评估者 (大学生) 和主流 LLM,如 GPT-4、GPT-4o、Claude-3、Gemini-Pro 和 LLaMA-2。
结果总结在下方的 Table 1 中,令人大开眼界。

让我们细分这些数字的关键结论。
1. 事实错误 (FE): 人类很吃力
看 FE 这一列。人类裁判的 ASR 为 0.21 。 这意味着在 21% 引入了事实错误的情况下,人类未能惩罚该答案 (甚至偏好了错误的答案) 。
为什么?人类会疲劳。他们可能会忽略细节,或者假设一段听起来自信的文字是正确的。
- 赢家: GPT-4o (0.06) 和 Claude-3 (0.08) 是出色的事实核查员。
- 输家: LLaMA2-70B (0.60) 的表现比随机猜测还要差。
2. 性别偏见: 人类表现出色
在 Gender 这一列,人类取得了最好的分数 (0.06)。受过教育的人类评估者对社会偏见和刻板印象高度敏感。
- LLM 的问题: 大多数 LLM (如 Ernie 和 GPT-4 Turbo) 在这里的表现明显不如人类。尽管经过了安全训练,LLM 往往未能像人类那样严格地惩罚文本中微妙的性别偏见。
3. 权威偏见 (Ref): 全员轻信
这可能是最令人担忧的发现。看 Ref 这一列。这衡量了裁判仅仅因为答案有虚假引用而偏好它的频率。
- 人类 (0.37): 人类很容易被看似权威的引用所左右。
- LLM: 几乎所有 LLM 表现都很差。Claude-2 的 ASR 高达 0.89——这意味着它几乎总是偏好带有虚假引用的答案。
- 启示: 如果你想让你的 LLM 输出被另一个 LLM 给予高评价,只要给它贴上一个假引用就行了。裁判很可能会认为它“质量更高”。
4. 美观偏见 (RC): 形式重于内容
RC (丰富内容) 一列显示了当你把答案格式化得很漂亮 (Markdown、表情符号) 时会发生什么。
- Claude-3 非常稳健 (0.04),忽略格式而专注于内容。
- 人类 (0.47) 和 Claude-2 (0.68) 很容易被漂亮的排版所诱惑。
攻击裁判
研究人员不仅仅止步于识别偏见。他们想看看是否可以主动“攻击” LLM 裁判以人为地提高分数。
他们设定了一个场景: 取一个“弱”答案 (带有事实错误或性别偏见的答案) ,并试图通过应用语义无关的扰动 (虚假引用和丰富内容) 来让它击败“强”答案。

Figure 4 展示了这些攻击的结果。
- 左图 (a): 这显示了掩盖事实错误的尝试。紫色条纹柱代表联合攻击 (虚假引用 + 丰富内容) 。注意,对于 LLaMA-2-70B 和 Ernie 等模型,这种攻击效果出奇地好。
- “Ref”因素: 绿色柱 (Ref) 通常高于紫色柱 (Rich Content) 。这表明权威偏见比美观偏见是更严重的漏洞。LLM 被训练为将引用视为真实性的代理,即使引用是幻觉生成的。
这证明了一个危险的现实: 仅仅通过良好的格式排版并添加虚假来源,一个糟糕的答案就可以被伪装成一个好的答案。
冗长问题 (The Verbosity Problem)
LLM 评估中另一个众所周知的问题是冗长偏见 (Verbosity Bias)——即倾向于偏好更长的答案,而不管质量如何。
研究人员通过观察两个答案之间的长度差异以及裁判的偏好来分析这一点。

Figure 5 显示了随着长度差异增加,对较长答案的偏好情况。
- X 轴 是长度差异 (Token) 。
- Y 轴 是选择较长答案的概率。
- 完美评估者 (Perfect Evaluator) (虚线) 应该保持在 0.5 (中立) ,基于内容而非长度进行判断。
相反,我们看到几乎所有线都呈上升趋势。 Claude-3 (粉线) 急剧上升——如果一个答案长出 40 个以上的 Token,Claude-3 几乎肯定会偏好它。 GPT-4-Turbo (绿线) 似乎对这种偏见最具抵抗力,保持在更接近中立线的水平。
结论: 我们需要更好的裁判
这篇论文为 AI 社区敲响了警钟。随着我们迈向自主智能体和自我改进系统,我们越来越依赖“以 LLM 为裁判”来告诉我们什么有效,什么无效。
然而,研究结果表明,这些裁判并不是中立的仲裁者。
- 人类擅长社会细微差别 (性别) ,但不擅长枯燥的事实核查,且容易受格式影响。
- LLM 更擅长事实核查 (至少是顶级的那些) ,但很容易被虚假的权威和长度所操纵。
作者提出了一个无参考框架 (使用 ASR) ,允许开发者测试他们自己的裁判。如果你正在构建评估流程,你不能假设你的裁判是公平的。你必须针对虚假信息忽视、性别偏见、权威偏见和美观偏见对其进行测试。
在我们开发出能够看穿表情符号和虚假引用“光鲜外表”的稳健评估系统之前,我们的基准测试将仍然容易被攻击,而我们对模型真实性能的理解也将保持模糊。问题依然存在: 谁来监督守望者? 目前来看,守望者很容易被漂亮的字体和虚假的 URL 分散注意力。
](https://deep-paper.org/en/paper/file-3175/images/cover.png)