为什么 LLM 更信任教科书而非推文：揭示冲突数据中的学习偏好

想象一下，你正在浏览互联网，试图寻找某位历史人物的出生日期。你发现了两个相互冲突的来源。一个是历史学家撰写的学术传记的扫描 PDF。另一个是充斥着拼写错误的社交媒体评论。你信任哪一个？

几乎出于本能，你会信任学术传记。你依赖于启发式方法 (心理捷径) ，这些方法告诉你: 正式的语言、恰当的编辑和权威的语气与真理相关联。

但是，大型语言模型 (LLMs) 呢？这些模型吞噬了整个互联网——好的、坏的，以及充满错别字的内容。当 LLM 在其训练数据中遇到相互冲突的信息时，它会平等对待所有数据点吗？还是它已经发展出了类似人类的“信任本能”？

在一篇题为《形式受到青睐: 揭示大型语言模型在冲突知识数据上的学习偏好》 (Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge) 的精彩论文中，来自南京大学的研究人员深入探讨了 LLM 的“心理学”。他们发现，像 LLaMA 和 Pythia 这样的模型在文本风格方面表现出强烈的偏见。它们更喜欢正式语言而非随意对话，更喜欢完美的拼写而非错别字。更重要的是，研究人员解释了原因: 这不仅仅是为了美观；这是关于一种习得的一致性度量。

在这篇深度文章中，我们将拆解研究人员是如何发现这些偏好的，以及这对我们理解人工智能意味着什么。

问题: 当知识发生冲突时

LLM 是在海量语料库上训练的。虽然开发人员会对这些数据进行清洗，但其中不可避免地包含矛盾之处。一篇新闻文章可能会正确报道名人的年龄，而一篇同人小说可能会为了情节需要而更改它。

如果一个模型在两段文本上都进行了训练，它如何解决冲突？是取平均值吗？是选择最后看到的那个吗？

研究人员假设 LLM 拥有学习偏好 。正如人类使用文本的“风格”来判断其可信度一样，LLM 可能会赋予特定格式呈现的知识更高的概率。为了验证这一点，他们不能使用现实世界的数据 (因为模型已经知道巴拉克·奥巴马是谁) 。他们必须构建一个受控的合成环境。

方法论: 合成传记

这项研究的核心涉及创建一个虚构人物的自定义数据集。研究人员生成了 1,000 个虚构名字，并将它们与特定属性相关联: 出生日期、出生地、大学、专业和公司。

转折点在于: 对于每个角色，他们生成了包裹在不同文本特征中的相互冲突的信息。

文本特征与风格

研究人员重点关注两类主要特征:

风格: 报纸、科学报告、小说、社交媒体。
拼写: 拼写良好 vs. 拼写拙劣。

他们使用 GPT-4 生成了匹配这些风格的传记模板。

具有不同特征的传记文本示例。

如上方的 Table 1 所示，内容是相似的——都是关于“Olivia Hamilton”的传记——但呈现方式截然不同。“报纸风格” (Newspapers Style) 听起来客观且具有新闻性。“小说风格” (Novels Style) 使用了叙事色彩 (“曾几何时…”) 。“拼写拙劣” (Poor Spelling) 版本则包含明显的错别字 (如“attented”、“edukashun”) 。

注入冲突

为了测试偏好，模型需要在两个相互冲突的事实之间做出选择。研究人员创建了两组知识，我们称之为 知识 A 和 知识 B 。

知识 A 可能说 Olivia 出生于 1921 年。
知识 B 可能说 Olivia 出生于 2012 年。

然后，他们将知识 A 包装在一种风格 (例如，报纸) 中，将知识 B 包装在另一种风格 (例如，小说) 中。数据集 \(I_{A \text{ vs } B}\) 是通过结合两种风格的模板构建的:

定义冲突数据集的公式。

在这个公式中，\(T_A\) 代表包含知识 A (\(k_A\)) 的 A 风格模板 (例如，报纸) ，而 \(T_B\) 代表包含知识 B (\(k_B\)) 的 B 风格模板 (例如，小说) 。模型同时对两者进行微调。它看到关于同一个人的相互冲突的事实，以不同的口吻呈现。

测量偏好

在对模型 (具体来说是 LLaMA2-7B) 进行这种冲突数据微调后，研究人员对其进行了测试。他们给模型一个中性提示，并检查它用哪个事实来完成句子。

他们计算了一个偏好分数 \(Pr(A,B)\)，用于衡量模型赋予知识 A 高于知识 B 概率的时间百分比。

定义成对偏好分数的公式。

如果 \(Pr(A,B)\) 大于 0.5 (或 50%) ，则意味着模型相对于风格 B 更偏好以风格 A 呈现的知识。

模型偏好什么？

结果令人震惊。LLM 在信息来源方面表现出了清晰的、类似人类的偏见。

1. 形式至上 (Formality is King)

研究人员将各种风格进行了相互对抗。如下所示的结果揭示了一个明显的层级结构。

微调后的 LLaMA-2-7B 的成对偏好分数。

观察 Table 2 , 当“报纸”与“小说”发生冲突时，模型在 63.9% 的情况下偏好报纸风格中的信息。当“科学报告”与“小说”对抗时，科学风格在 61.8% 的情况下获胜。

本质上，如果教科书说一件事，而小说说另一件事，LLM 在统计上更有可能相信教科书。

2. 拼写错误破坏可信度

对糟糕拼写的偏见甚至更加一致。在“拼写良好 vs. 拼写拙劣”的比较中，模型在近 60% 的时间里偏好拼写正确的信息。这表明错别字对模型来说是一个负面信号，告诉它: “这个信息可能不可靠。”

3. 正式文本学得更快

这不仅仅关于最终决定。研究人员监测了模型在训练过程中的表现。他们发现，模型从正式文本中“习得”知识的速度比从随意文本中快得多。

LLM 在训练期间不同时期对不同风格数据的准确率。

在 Figure 1 中，注意红线 (报纸) 和蓝线 (科学报告) 。它们的准确率比紫线 (社交媒体) 或绿线 (小说) 上升得快得多。与正式声明相比，模型实际上很难记忆以随意或叙事格式呈现的事实。

这种现象在拼写方面也同样存在。

拼写良好 vs 拼写拙劣在不同时期的准确率。

Figure 8 显示了一个巨大的差距。蓝线 (拼写良好) 学习迅速。红线 (拼写拙劣) 明显滞后。模型在抵制将拼写错误的数据编码到其参数中。

4. 模型越大，偏见越深

这是小模型的怪癖吗？不，恰恰相反。研究人员测试了不同规模的模型，从较小的 Pythia 模型到 120 亿参数的版本。

不同模型大小下的 Pr(报纸, 社交媒体)。

Figure 2 说明，随着模型规模的增加 (x 轴) ，对报纸相对于社交媒体的偏好 (y 轴) 变得更加极端。“出生日期”偏好 (蓝线) 在最大模型中飙升至近 100%。这表明“以貌取人” (以封面判断书籍) 是一种涌现能力，随着模型变得更聪明而变得更强。

“为什么”: 一致性驱动假设

为什么 LLM 会这样做？它们没有人类的社会制约。它们不会在社会层面上尊重《纽约时报》品牌或看不起拼写不好的人。

作者提出了一致性驱动的特征偏好假设 (Consistency-Driven Feature Preference Hypothesis) 。

这个想法是统计学上的。在海量的预训练阶段 (研究人员接触模型之前) ，LLM 阅读了整个互联网。它学到，具有某些特征 (如正式语言) 的数据倾向于与其他数据一致。相反，具有其他特征 (如虚构或充满错别字的咆哮) 的数据往往是独特的、幻觉，或与网络上的大多数内容不一致。

一致性驱动特征偏好假设的因果图。

Figure 3 描绘了这个因果图。模型观察文本特征 (\(A\) 或 \(B\)) 。它对这些特征与其知识其余部分的一致性有一个内部估计 (\(C(A)\) vs \(C(B)\)) 。这形成了一种内在偏好 \(P(A,B)\)。

用合成特征证明假设

为了证明这不仅仅是关于语言风格，研究人员设计了一个绝妙的对照实验。他们发明了无意义特征 , 其中的“风格”只是一个特定的标签或数字，剥离了任何语言包袱。

来源名称: “根据 [合成名称 A]…” vs “根据 [合成名称 B]…”
来源时间: “根据全球新闻 (Vol. [低数字])…” vs “(Vol. [高数字])…”

然后他们操纵了一致性比例 。他们创建了一个数据集，其中“特征 A”由其他 9 份文档支持，而“特征 B”仅由 1 份支持。

如果他们的假设是正确的，模型应该学会信任“特征 A”，仅仅因为它与多数派相关联，而不管“特征 A”实际上看起来像什么。

在不同一致性比例数据上训练的模型的偏好分数。

Figure 4 证实了这一点。看橙色条 (比例 9:1) 。当特征 A 得到大多数支持 (9:1) 时，偏好分数飙升至 90%。当比例平衡时 (5:5，蓝色条) ，偏好是中性的 (~50%) 。

这证实了模型是一个一致性检测器 。它学会了识别那些信号 (如“报纸风格”或“来源名称 A”) ，这些信号表明: “这个信息有大多数人的支持。”

我们可以给模型“洗脑”吗？

如果偏好只是习得的一致性相关性，它们能被逆转吗？我们能教 LLM 信任小说胜过信任报纸吗？

研究人员进行了一个反事实实验。他们采用了“报纸 vs. 小说”的冲突，但操纵了游戏规则。他们构建了一个训练集，其中小说是一致的来源 (有支持性证据支持) ，而报纸是离群点。

在无支持数据和不同一致性比例支持数据上训练的模型的偏好分数。

Figure 7 显示了这种逆转的结果。

蓝条 (无支持) : 标准设置。模型偏好报纸 (高偏好分数) 。
绿条 (有支持 9:1 偏向 B) : 研究人员用额外的证据支持小说文本 (特征 B) 。报纸的偏好分数急剧下降，在某些情况下跌至 50% 以下。

这证明了对形式的“偏见”并不是硬编码的。它是一种软约束，是从统计现实中习得的，即正式文本通常在事实上一更致。如果世界颠倒过来，小说成为了真理的来源，LLM 就会适应并偏好“曾几何时”而非“突发新闻”。

结论与启示

这项研究揭示了 LLM 学习的黑盒。它告诉我们，这些模型并不是被动吸收所有数据的海绵。它们是主动的鉴别者，已经发展出启发式方法来过滤噪音。

关键要点:

形式等于信任: LLM 偏好以科学或新闻风格格式化的知识。
错别字是有毒的: 糟糕的拼写显著降低了 LLM 学习所呈现信息的可能性。
一致性机制: 这些偏好的产生是因为模型学到某些风格与网络上的信息冗余和一致性相关联。

这为什么重要? 对于 AI 的学生和从业者来说，这对提示工程 (Prompt Engineering) 和数据策展 (Data Curation) 有着巨大的影响。

提示: 如果你想让 LLM 认真对待你的上下文，请用正式的方式编写。看起来像科学报告的提示可能比随意的指令更有效地覆盖模型的先验知识。
数据清洗: 在微调模型时，修正拼写错误不仅仅是为了美观；这对于模型接受数据为“真”至关重要。
安全性: 模型对“少数服从多数”一致性的依赖使其对噪音具有鲁棒性，但如果广泛存在的误解以正式格式出现，模型也可能容易受到影响。

研究人员表明，虽然 LLM 可能没有人类的判断力，但它们已经进化出一种数字代理: 一种对互联网上哪些“声音”在讲真话的统计感。

问题: 当知识发生冲突时#

方法论: 合成传记#

文本特征与风格#

注入冲突#

测量偏好#

模型偏好什么？#

1. 形式至上 (Formality is King)#

2. 拼写错误破坏可信度#

3. 正式文本学得更快#

4. 模型越大，偏见越深#

“为什么”: 一致性驱动假设#

用合成特征证明假设#

我们可以给模型“洗脑”吗？#

结论与启示#