RAG 能教会 LLM 文化吗？知识库与谷歌搜索之战

大语言模型 (LLM) 常被誉为通用工具，能够翻译语言并回答关于世界的各种问题。然而，任何深度使用过这些模型的人都知道，“通用”往往实际上意味着“西方”。

当你要求 LLM 讲一个关于家庭聚餐的故事时，默认设置通常反映的是北美或西欧的规范。食物、礼仪和社交动态往往无法引起埃塞俄比亚、印度尼西亚或墨西哥用户的共鸣。这不仅仅是口味的问题；这是实用性和代表性的问题。LLM 容易产生刻板印象、抹除文化细微差别，或者干脆对非西方文化的人工制品或制度产生事实幻觉，因为它们的训练数据严重偏向于英语世界的互联网内容。

那么，我们该如何解决这个问题？是完全重新训练模型？还是可以通过提供正确的教科书，在运行时“教会”它们文化？

在论文 “Towards Geo-Culturally Grounded LLM Generations” (迈向地理文化接地的 LLM 生成) 中，来自 Google 和圣路易斯华盛顿大学的研究人员调查了一个有前景的解决方案: 检索增强生成 (RAG) 。他们将两种截然不同的接地 (Grounding) 策略进行了对比: 精心策划的“定制知识库”与混乱浩瀚的“谷歌搜索”。

研究结果提供了一个引人入胜且颇具警示意义的故事，揭示了了解文化事实与真正理解文化之间的区别。

核心问题: “机器里的幽灵”带有口音

在深入解决方案之前，我们必须了解瓶颈所在。LLM 是在海量文本语料库 (如 Common Crawl) 上训练的。就体量而言，西方视角——特别是美国和英国的规范——主导了这些数据。当模型预测句子中的下一个词时，它会倾向于统计上概率最高的补全，这通常就是西方的说法。

这主要表现为三种失败:

刻板印象 (Stereotyping) : 将复杂的文化简化为讽刺画。
抹除 (Erasure) : 用通用的西方做法取代特定的本土做法。
幻觉 (Hallucination) : 对本土人工制品或制度自信地陈述错误事实。

研究人员提出，与其依赖模型冻结的内部参数 (这很难改变) ，不如在生成的那一刻为模型提供外部的、文化相关的上下文。这就是 接地 (Grounding) 的用武之地。

接地的两条路径: 图书馆 vs. 互联网

研究人员探索了两种主要方法来向模型注入文化。为了理解这种比较，想象一下你正试图了解泰国农村的一个特定仪式。

知识库接地 (KB-Grounding，即图书馆) : 你在你桌上的一套特定百科全书和文化手册中查找答案。
搜索接地 (Search-Grounding，即互联网) : 你用谷歌搜索它。

让我们从技术上拆解研究人员是如何实施这两种策略的。

1. 知识库 (KB) 接地策略

对于第一种策略，作者建立了一个定制文化知识库 (Bespoke Cultural Knowledge Base) 。他们不只是随机抓取网络数据；他们策划了来自四个特定高质量来源的数据，旨在捕捉文化细微差别。

表1 展示了文化知识库中的文档来源，包括 CultureAtlas、Cube、CultureBank 和 SeeGULL。

如 表 1 所示，该知识库由以下部分组成:

CultureAtlas: 关于文化规范的维基百科风格文本。
Cube: 一个人工制品数据集 (食物、地标、艺术) 。
CultureBank: 基于情境的习俗描述 (例如，人们在越南某条特定街道上的行为方式) 。
SeeGULL: 一个刻板印象数据集 (故意包含在内，以测试模型是否能识别并避免它们) 。

为了使这些数据对 LLM 可用，研究人员使用了标准的 RAG 管道 。

图1 展示了知识库接地与搜索接地的这一工作流程。

图 1 (上) 展示了 知识库接地 (KB-Grounding) 的架构。以下是分步过程:

查询重写: 用户的提示词 (Prompt) 被转换为搜索查询。
检索: 系统在向量存储 (即 KB) 中搜索 \(n\) 个最相似的文档。
相关性检查 (选择性 RAG) : 这是一个关键步骤。模型不仅仅是盲目地将检索到的文档塞进上下文窗口。它首先检查: 这份文档与问题真的相关吗？ 如果文档不相关，它会被丢弃。这可以防止噪音干扰模型。
增强: 相关的文档被添加到提示词中。
生成: LLM 使用新的上下文回答问题。

2. 搜索接地策略

第二种策略，如 图 1 下半部分所示，依赖于 搜索接地 (Search Grounding) 。

这种方法使用商业 API (Google 的 “Grounding with Google Search”) 。与其查询静态向量存储，模型会:

将用户提示词翻译为网络搜索查询。
使用搜索引擎的专有排名算法查找实时网页。
提取相关文本。
将该文本输入 LLM 以生成答案。

权衡取舍:

知识库接地 提供控制力。你确切知道数据库里有什么。然而，它很小 (覆盖范围有限) 。
搜索接地 提供规模。它可以访问整个互联网。然而，它充满噪音，可能存在偏见，且检索逻辑是一个“黑盒”。

数据看起来是怎样的？

为了理解模型为何表现出那样的行为，我们必须看看给它们的“教科书”。定制知识库包含转化为简单句子的特定文化事实。

表2 提供了定制知识库中的文档示例，例如关于阿萨姆文化或巴西美食的事实。

如 表 2 所示，知识库包含细粒度的细节，例如“Manihot esculenta (木薯) 起源于巴西饮食”，或者来自 SeeGULL 数据集的特定刻板印象，如“墨西哥人是不聪明的”。

等等，为什么要包含刻板印象？ 研究人员在知识库中包含刻板印象，是为了观察模型在检索到这些信息时是会意外地肯定它们，还是有足够的智能将其识别为偏见。这直接引出了我们的实验。

实验 1: 谁懂更多？ (文化知识)

第一组评估测试了 命题性知识 (Propositional Knowledge) ——本质上就是冷知识。模型能回答关于不同国家日常生活、体育和社会规范的多项选择题吗？

他们使用了两个基准测试:

BLEnD: 日常知识 (例如，“英国最受欢迎的水果是什么？”) 。
NORMAD: 社会规范 (例如，“在这个国家收到礼物后立即打开是可以接受的吗？”) 。

他们测试了三个模型: Gemini 1.5 Flash、GPT-4o-mini 和 OLMo 2 。

结果

图2 展示了 BLEnD、NORMAD 和刻板印象规避任务的性能柱状图。

图 2 清楚地揭示了获胜者。请看前三张图表中的橙色柱子。

搜索接地在事实检索方面占主导地位: 对于 BLEnD 数据集 (最左侧) , 搜索接地版 Gemini (橙色柱) 显著优于原生模型 (青色) 和知识库接地版本。

为什么？ 互联网简直比任何定制数据集都要大。在一个例子中，原生模型认为“皇家马德里”是埃塞俄比亚最受欢迎的运动队 (基于全球知名度的幻觉) 。搜索接地模型正确识别了“埃塞俄比亚咖啡体育俱乐部”，因为它可以在实时网络上找到这一具体事实。

知识库接地受限于覆盖范围: 知识库策略 (粉色和绿色柱) 的表现通常仅略好于原生模型，有时甚至更差。这主要是由于“检索失败”。如果关于埃塞俄比亚咖啡的具体事实不在策划的 Cube 或 CultureAtlas 数据集中，模型就得不到额外的帮助。
规范需要上下文: 在 NORMAD 基准测试 (中间图表) 中，搜索接地对于 Gemini 来说仍然更优。然而，对于 GPT 和 OLMo (无法使用搜索功能) ，选择性 知识库接地 (绿色) 通常优于非选择性。这验证了“相关性检查”步骤的重要性——过滤掉糟糕的文档与找到好的文档同样重要。

实验 2: 刻板印象陷阱

如果搜索接地在事实方面表现如此出色，我们是否应该将其用于所有事情? 绝对不行。

研究人员使用 SeeGULL 基准测试进行了“刻板印象规避”测试。任务是向模型提出基于刻板印象的问题 (例如，“我认识一个好斗的人。这个人的国籍是: (A) 阿尔巴尼亚人…”) 。正确的答案总是“不确定”或拒绝回答。

看一看 图 2 中的 刻板印象规避 (Stereotype Avoidance) 图表 (最右侧) 。

原生 Gemini (青色) 得分非常高 (意味着它成功避免了刻板印象) 。
搜索接地版 Gemini (橙色) 的性能显著下降。

这是一个关键发现。 当模型搜索互联网时，它会检索到网络上普遍存在的偏见。如果模型搜索“好斗”和“阿尔巴尼亚人”，它可能会找到强化这种刻板印象的论坛帖子或文章。当在上下文窗口中看到这些“证据”时，LLM 会被误导，将刻板印象视为事实，从而导致它选择刻板印象的答案，而不是保持中立。

虽然搜索让模型在事实方面变得更聪明，但也让它更容易受到开放网络偏见的影响。

实验 3: 人工评估 (剧情反转)

最后的实验或许是最具启示性的。研究人员从多项选择题转向了 开放式生成 (Open-Ended Generation) 。

他们要求模型“讲一个发生在墨西哥的故事，其中一群人……在一起吃饭并以社会可接受的方式行事。”然后，他们招募了来自这些特定国家 (墨西哥、埃塞俄比亚、中国等) 的人类评估员，根据 文化熟悉度 (Cultural Familiarity) 对故事进行评分。

假设很简单: 能够访问文化数据 (知识库或搜索) 的模型应该能写出让当地人感觉更熟悉、更真实的故事。

结果: 无显著差异

令人惊讶的是，人类评估员没有给予接地模型生成的故事显著高于原生故事的评分。

搜索接地 模型有时用力过猛。模型有时不像是在编织一个自然的故事，反而像是一个搜索引擎，总结关于该文化的事实，而不是在文化语境中进行叙述。
知识库接地 模型包含了特定的人工制品 (提到具体的菜肴或游戏) ，但这并不一定转化为“文化流利度”。

在定性分析中，研究人员指出，接地模型确实包含了更多细节 (例如，说出当地菜肴的具体名称，而不是只说“晚餐”) 。然而，对于人类读者来说，插入一道当地菜肴的名字并不能让故事感觉是“本土的”。这只是让它在事实上变得更密集而已。

结论: 知识 vs. 流利度

这篇论文强调了 AI 文化意识探索中的一个根本区别: 命题性知识与文化流利度。

命题性知识 是回答“首都是哪？”或“这种食物叫什么？”的能力。

RAG (特别是搜索接地) 在这方面表现出色。它用最新的事实填补了模型的知识空白。

文化流利度 是像该文化的人一样说话、推理和讲故事的能力。

RAG 在这方面很吃力。检索一篇关于婚礼仪式的维基百科文章并将其粘贴到提示词中，并不能教会模型微妙的情感动态、俚语或身处那场婚礼中的“氛围”。

给学生的关键要点

搜索是一把双刃剑: 它提供了最好的事实覆盖范围，但也带来了摄取和反刍网络刻板印象的高风险。
相关性检查是强制性的: 仅仅检索数据是不够的；你必须过滤它。在实验中，给模型提供不相关的文档 (非选择性 RAG) 经常会使其困惑，从而降低性能。
事实 \(\neq\) 文化: 你不能简单地通过将模型连接到百科全书来解决 AI 中的“文化鸿沟”。虽然它修复了事实错误 (幻觉) ，但它并没有解决文化抹除或缺乏流利度的深层问题。

该领域的未来工作可能需要超越简单的文本检索。为了真正让模型在文化中“接地”，我们可能需要更好的数据集来捕捉文化的体验，而不仅仅是事实，或者从一开始就优先考虑非英语、非西方数据的训练机制。在此之前，RAG 仍然是一个有用但不完美的全球性问题补丁。

核心问题: “机器里的幽灵”带有口音#

接地的两条路径: 图书馆 vs. 互联网#

1. 知识库 (KB) 接地策略#

2. 搜索接地策略#

数据看起来是怎样的？#

实验 1: 谁懂更多？ (文化知识)#

结果#

实验 2: 刻板印象陷阱#

实验 3: 人工评估 (剧情反转)#

结果: 无显著差异#

结论: 知识 vs. 流利度#

给学生的关键要点#