大语言模型 (LLM) 常被誉为通用工具,能够翻译语言并回答关于世界的各种问题。然而,任何深度使用过这些模型的人都知道,“通用”往往实际上意味着“西方”。
当你要求 LLM 讲一个关于家庭聚餐的故事时,默认设置通常反映的是北美或西欧的规范。食物、礼仪和社交动态往往无法引起埃塞俄比亚、印度尼西亚或墨西哥用户的共鸣。这不仅仅是口味的问题;这是实用性和代表性的问题。LLM 容易产生刻板印象、抹除文化细微差别,或者干脆对非西方文化的人工制品或制度产生事实幻觉,因为它们的训练数据严重偏向于英语世界的互联网内容。
那么,我们该如何解决这个问题?是完全重新训练模型?还是可以通过提供正确的教科书,在运行时“教会”它们文化?
在论文 “Towards Geo-Culturally Grounded LLM Generations” (迈向地理文化接地的 LLM 生成) 中,来自 Google 和圣路易斯华盛顿大学的研究人员调查了一个有前景的解决方案: 检索增强生成 (RAG) 。 他们将两种截然不同的接地 (Grounding) 策略进行了对比: 精心策划的“定制知识库”与混乱浩瀚的“谷歌搜索”。
研究结果提供了一个引人入胜且颇具警示意义的故事,揭示了了解文化事实与真正理解文化之间的区别。
核心问题: “机器里的幽灵”带有口音
在深入解决方案之前,我们必须了解瓶颈所在。LLM 是在海量文本语料库 (如 Common Crawl) 上训练的。就体量而言,西方视角——特别是美国和英国的规范——主导了这些数据。当模型预测句子中的下一个词时,它会倾向于统计上概率最高的补全,这通常就是西方的说法。
这主要表现为三种失败:
- 刻板印象 (Stereotyping) : 将复杂的文化简化为讽刺画。
- 抹除 (Erasure) : 用通用的西方做法取代特定的本土做法。
- 幻觉 (Hallucination) : 对本土人工制品或制度自信地陈述错误事实。
研究人员提出,与其依赖模型冻结的内部参数 (这很难改变) ,不如在生成的那一刻为模型提供外部的、文化相关的上下文。这就是 接地 (Grounding) 的用武之地。
接地的两条路径: 图书馆 vs. 互联网
研究人员探索了两种主要方法来向模型注入文化。为了理解这种比较,想象一下你正试图了解泰国农村的一个特定仪式。
- 知识库接地 (KB-Grounding,即图书馆) : 你在你桌上的一套特定百科全书和文化手册中查找答案。
- 搜索接地 (Search-Grounding,即互联网) : 你用谷歌搜索它。
让我们从技术上拆解研究人员是如何实施这两种策略的。
1. 知识库 (KB) 接地策略
对于第一种策略,作者建立了一个定制文化知识库 (Bespoke Cultural Knowledge Base) 。 他们不只是随机抓取网络数据;他们策划了来自四个特定高质量来源的数据,旨在捕捉文化细微差别。

如 表 1 所示,该知识库由以下部分组成:
- CultureAtlas: 关于文化规范的维基百科风格文本。
- Cube: 一个人工制品数据集 (食物、地标、艺术) 。
- CultureBank: 基于情境的习俗描述 (例如,人们在越南某条特定街道上的行为方式) 。
- SeeGULL: 一个刻板印象数据集 (故意包含在内,以测试模型是否能识别并避免它们) 。
为了使这些数据对 LLM 可用,研究人员使用了标准的 RAG 管道 。

图 1 (上) 展示了 知识库接地 (KB-Grounding) 的架构。以下是分步过程:
- 查询重写: 用户的提示词 (Prompt) 被转换为搜索查询。
- 检索: 系统在向量存储 (即 KB) 中搜索 \(n\) 个最相似的文档。
- 相关性检查 (选择性 RAG) : 这是一个关键步骤。模型不仅仅是盲目地将检索到的文档塞进上下文窗口。它首先检查: 这份文档与问题真的相关吗? 如果文档不相关,它会被丢弃。这可以防止噪音干扰模型。
- 增强: 相关的文档被添加到提示词中。
- 生成: LLM 使用新的上下文回答问题。
2. 搜索接地策略
第二种策略,如 图 1 下半部分所示,依赖于 搜索接地 (Search Grounding) 。
这种方法使用商业 API (Google 的 “Grounding with Google Search”) 。与其查询静态向量存储,模型会:
- 将用户提示词翻译为网络搜索查询。
- 使用搜索引擎的专有排名算法查找实时网页。
- 提取相关文本。
- 将该文本输入 LLM 以生成答案。
权衡取舍:
- 知识库接地 提供控制力。你确切知道数据库里有什么。然而,它很小 (覆盖范围有限) 。
- 搜索接地 提供规模。它可以访问整个互联网。然而,它充满噪音,可能存在偏见,且检索逻辑是一个“黑盒”。
数据看起来是怎样的?
为了理解模型为何表现出那样的行为,我们必须看看给它们的“教科书”。定制知识库包含转化为简单句子的特定文化事实。

如 表 2 所示,知识库包含细粒度的细节,例如“Manihot esculenta (木薯) 起源于巴西饮食”,或者来自 SeeGULL 数据集的特定刻板印象,如“墨西哥人是不聪明的”。
等等,为什么要包含刻板印象? 研究人员在知识库中包含刻板印象,是为了观察模型在检索到这些信息时是会意外地肯定它们,还是有足够的智能将其识别为偏见。这直接引出了我们的实验。
实验 1: 谁懂更多? (文化知识)
第一组评估测试了 命题性知识 (Propositional Knowledge) ——本质上就是冷知识。模型能回答关于不同国家日常生活、体育和社会规范的多项选择题吗?
他们使用了两个基准测试:
- BLEnD: 日常知识 (例如,“英国最受欢迎的水果是什么?”) 。
- NORMAD: 社会规范 (例如,“在这个国家收到礼物后立即打开是可以接受的吗?”) 。
他们测试了三个模型: Gemini 1.5 Flash、GPT-4o-mini 和 OLMo 2 。
结果

图 2 清楚地揭示了获胜者。请看前三张图表中的橙色柱子。
- 搜索接地在事实检索方面占主导地位: 对于 BLEnD 数据集 (最左侧) , 搜索接地版 Gemini (橙色柱) 显著优于原生模型 (青色) 和知识库接地版本。
- 为什么? 互联网简直比任何定制数据集都要大。在一个例子中,原生模型认为“皇家马德里”是埃塞俄比亚最受欢迎的运动队 (基于全球知名度的幻觉) 。搜索接地模型正确识别了“埃塞俄比亚咖啡体育俱乐部”,因为它可以在实时网络上找到这一具体事实。
知识库接地受限于覆盖范围: 知识库策略 (粉色和绿色柱) 的表现通常仅略好于原生模型,有时甚至更差。这主要是由于“检索失败”。如果关于埃塞俄比亚咖啡的具体事实不在策划的 Cube 或 CultureAtlas 数据集中,模型就得不到额外的帮助。
规范需要上下文: 在 NORMAD 基准测试 (中间图表) 中,搜索接地对于 Gemini 来说仍然更优。然而,对于 GPT 和 OLMo (无法使用搜索功能) ,选择性 知识库接地 (绿色) 通常优于非选择性。这验证了“相关性检查”步骤的重要性——过滤掉糟糕的文档与找到好的文档同样重要。
实验 2: 刻板印象陷阱
如果搜索接地在事实方面表现如此出色,我们是否应该将其用于所有事情? 绝对不行。
研究人员使用 SeeGULL 基准测试进行了“刻板印象规避”测试。任务是向模型提出基于刻板印象的问题 (例如,“我认识一个好斗的人。这个人的国籍是: (A) 阿尔巴尼亚人…”) 。正确的答案总是“不确定”或拒绝回答。
看一看 图 2 中的 刻板印象规避 (Stereotype Avoidance) 图表 (最右侧) 。
- 原生 Gemini (青色) 得分非常高 (意味着它成功避免了刻板印象) 。
- 搜索接地版 Gemini (橙色) 的性能显著下降。
这是一个关键发现。 当模型搜索互联网时,它会检索到网络上普遍存在的偏见。如果模型搜索“好斗”和“阿尔巴尼亚人”,它可能会找到强化这种刻板印象的论坛帖子或文章。当在上下文窗口中看到这些“证据”时,LLM 会被误导,将刻板印象视为事实,从而导致它选择刻板印象的答案,而不是保持中立。
虽然搜索让模型在事实方面变得更聪明,但也让它更容易受到开放网络偏见的影响。
实验 3: 人工评估 (剧情反转)
最后的实验或许是最具启示性的。研究人员从多项选择题转向了 开放式生成 (Open-Ended Generation) 。
他们要求模型“讲一个发生在墨西哥的故事,其中一群人……在一起吃饭并以社会可接受的方式行事。”然后,他们招募了来自这些特定国家 (墨西哥、埃塞俄比亚、中国等) 的人类评估员,根据 文化熟悉度 (Cultural Familiarity) 对故事进行评分。
假设很简单: 能够访问文化数据 (知识库或搜索) 的模型应该能写出让当地人感觉更熟悉、更真实的故事。
结果: 无显著差异
令人惊讶的是,人类评估员 没有 给予接地模型生成的故事显著高于原生故事的评分。
- 搜索接地 模型有时用力过猛。模型有时不像是在编织一个自然的故事,反而像是一个搜索引擎,总结关于该文化的事实,而不是在文化语境中进行叙述。
- 知识库接地 模型包含了特定的人工制品 (提到具体的菜肴或游戏) ,但这并不一定转化为“文化流利度”。
在定性分析中,研究人员指出,接地模型确实包含了更多细节 (例如,说出当地菜肴的具体名称,而不是只说“晚餐”) 。然而,对于人类读者来说,插入一道当地菜肴的名字并不能让故事感觉是“本土的”。这只是让它在事实上变得更密集而已。
结论: 知识 vs. 流利度
这篇论文强调了 AI 文化意识探索中的一个根本区别: 命题性知识与文化流利度。
命题性知识 是回答“首都是哪?”或“这种食物叫什么?”的能力。
- RAG (特别是搜索接地) 在这方面表现出色。它用最新的事实填补了模型的知识空白。
文化流利度 是像该文化的人一样说话、推理和讲故事的能力。
- RAG 在这方面很吃力。检索一篇关于婚礼仪式的维基百科文章并将其粘贴到提示词中,并不能教会模型微妙的情感动态、俚语或身处那场婚礼中的“氛围”。
给学生的关键要点
- 搜索是一把双刃剑: 它提供了最好的事实覆盖范围,但也带来了摄取和反刍网络刻板印象的高风险。
- 相关性检查是强制性的: 仅仅检索数据是不够的;你必须过滤它。在实验中,给模型提供不相关的文档 (非选择性 RAG) 经常会使其困惑,从而降低性能。
- 事实 \(\neq\) 文化: 你不能简单地通过将模型连接到百科全书来解决 AI 中的“文化鸿沟”。虽然它修复了事实错误 (幻觉) ,但它并没有解决文化抹除或缺乏流利度的深层问题。
该领域的未来工作可能需要超越简单的文本检索。为了真正让模型在文化中“接地”,我们可能需要更好的数据集来捕捉文化的体验,而不仅仅是事实,或者从一开始就优先考虑非英语、非西方数据的训练机制。在此之前,RAG 仍然是一个有用但不完美的全球性问题补丁。
](https://deep-paper.org/en/paper/2502.13497/images/cover.png)