引言

在信息过载的时代，做出明智的政治决定正变得越来越困难。在重大政治事件期间，例如 2024 年欧洲议会选举，选民们被各种宣言、辩论和媒体评论狂轰滥炸。为了应对这一局面，许多公民转向了投票建议应用 (Voting Advice Applications，简称 VAAs) 。这些传统的、基于规则的网络应用程序让用户回答一份固定的问卷 (例如，“你支持欧元吗？”) ，然后系统会将他们与观点最相符的政党进行匹配。

虽然很有用，但传统的 VAA 是静态的。它们提供的是“一刀切”的体验，无法回答后续问题，也无法解释具体政策的细微差别。这引发了研究人员提出的一个关键问题: 大语言模型 (LLMs) 能否成为下一代投票助手?

想象一下，一个个性化的 AI 不仅仅是计算分数，而是与你讨论政治立场，提供背景和推理。然而，在我们将民主决策权交给 AI 之前，必须验证其准确性。模型真的知道政党的主张吗？它会产生幻觉吗？它会偏向某种政治意识形态吗？

在这篇文章中，我们将深入探讨哥本哈根大学 Ilias Chalkidis 的一项近期研究。该论文调查了最先进的开源模型 (Mistral 和 Mixtral) 预测政治立场的能力。这项研究不仅审计了这些模型，还探索了复杂的技术——如检索增强生成 (RAG) 和自我反思 (Self-Reflection) ——看看我们是否能构建出一个更准确的数字政治顾问。

背景: 政治 AI 的挑战

大语言模型是在海量的互联网文本上训练的，这本身就包含了政治话语。先前的研究表明，LLM 拥有惊人的政治知识和推理能力。然而，它们也带来了重大风险:

幻觉 (Hallucination) : 模型可能会自信地陈述错误的事实。
偏见 (Bias) : 基于训练数据，模型可能会表现出政治倾向 (通常是左翼自由主义) 。
过时知识 (Outdated Knowledge) : 在 2022 年训练的模型可能不知道政党对 2024 年危机的立场。

要成为一个可靠的 VAA，LLM 需要准确预测特定政党如何回答特定的政策问题。

模型

研究人员专注于“开放权重 (open-weight) ”模型，与 GPT-4 等封闭系统相比，这些模型提供了透明度和可访问性。他们使用了:

MISTRAL 7B: 一个较小、高效的模型。
MIXTRAL 8x7B: 一个较大的“混合专家 (Mixture of Experts) ”模型，它针对不同任务激活不同的参数，提供更高的性能。

基准: EUANDI-2024

为了评估模型，研究人员使用了“EU and I 2024” (EUANDI-2024) 问卷。这是专家为 2024 年选举策划的真实数据集。它包含关于欧洲一体化、移民和税收等主题的 30 个陈述。对于每个陈述，真实的政党提供了他们的官方立场 (从“完全不同意”到“完全同意”) 以及来自其宣言的文字理由。

这为测试 AI 创造了一个完美的“基准真相 (ground truth) ”: 如果 AI 是一个好的投票助手，它应该能够正确预测政党的官方回答。

核心方法: 向 AI 提问的四种方式

这项研究的核心在于如何向模型提问。简单地问模型“X 党怎么想？”往往会得出通用的或产生幻觉的结果。研究人员设计了四种不同的实验设置来测试不同的“上下文增强 (Contextual Augmentation) ”策略。

图 1: 实验框架描述。在设置 (O) 中，没有上下文增强。在设置 (A) 中，使用网络搜索检索相关内容来增强上下文。在设置 (B) 中，通过询问模型初步问题，生成政党摘要及其与问题相关的预期观点，从而进行上下文的自我增强。在设置 (C) 中，输入上下文通过政党与问题相关的立场进行了增强。

如上图 1 所示，该框架从简单的提示发展到复杂的多步推理。

设置 0: 无上下文 (基线)

在这种设置中，模型会收到一个系统提示和具体问题 (例如，“德国 CDU 党会同意欧洲一体化是一件好事吗？”) 。模型必须完全依赖其内部训练记忆 (参数化知识) 。这测试了模型“已经知道什么”。

设置 A: RAG 增强 (网络搜索)

在这里，研究人员应用了检索增强生成 (RAG) 。在回答之前，系统使用问题作为查询执行网络搜索。它从维基百科、Politico 或卫报等来源检索相关文档。这些片段与问题一起被输入模型。假设是，访问实时互联网应该有助于模型将回答建立在事实基础上。

设置 B: 自我反思 (思维链)

此设置测试模型在没有外部数据情况下的推理能力。它使用分阶段对话 (一种思维链提示形式) :

总结: 要求模型总结该政党最近的政治立场。
推测: 要求模型推测该政党关于特定话题的观点。
回答: 最后，模型根据它刚刚生成的总结和推测来回答投票问题。

这模仿了人类的思考方式: “好的，我对这个政党总体了解多少？基于此，他们对这个具体问题会有什么感觉？”

设置 C: 专家增强 (黄金标准)

这是控制组设置。研究人员向模型提供了来自 EUANDI 数据集的实际专家策划的理由 (政党提供的解释其立场的文本) 。这充当了一个“预言机 (Oracle) ”。它告诉我们模型性能的理论上限: 如果模型拥有完美的信息，它能得出正确的答案吗？

实验与结果

研究人员针对来自德国、法国、意大利和西班牙的主要政党以及全欧盟范围的“欧洲政党”运行了这四种设置。指标是简单的准确性: 模型是否选择了与政党相同的立场 (同意/不同意) ？

主要结果: 规模很重要

初步结果凸显了较小模型和较大模型之间的明显区别。

图 2: 所检查模型 (蓝色为 MISTRAL，橙色为 MIXTRAL) 在 EUANDI-2024 数据集上跨所有设置 (第 2.3 节) 和检查组 (4 个欧盟成员国 + 欧洲政党) 的准确性。

图 2 揭示了几个关键见解:

Mixtral (橙色) 占主导地位: 较大的 Mixtral 模型始终优于较小的 Mistral 模型。在“无上下文”设置 (Set 0) 中，Mixtral 达到了 82% 的准确率 , 而 Mistral 为 76%。这证实了较大的模型确实记住了更多的世界知识。
RAG 的意外发现: 看看设置 A (RAG) 。对于较小的 Mistral 模型，访问网络显着提高了准确性 (从 76% 提高到大约 84%) 。然而，对于较大的 Mixtral 模型，网络搜索几乎没有带来任何好处 (保持在 82-84% 左右) 。这表明较大模型的内部记忆已经和快速网络搜索一样好，甚至更好。
专家上下文为王: 设置 C (专家增强) 产生了最高分，将准确率推高至 90% 以上。这证明如果给予高质量、相关的信息，模型确实可以正确推理。

自我反思的细微差别

研究人员进一步调查了设置 B (自我反思) ，以了解为什么要求模型在回答前“思考”会有所帮助。

图 3: MIXTRAL 在设置 B 的不同子设置上的准确性: 自我增强上下文。

图 3 分解了自我反思过程。“仅摘要 (Only Summary) ”条 (橙色) 显示，仅仅要求提供一般的政党摘要实际上比没有上下文时损害了性能。然而，“仅观点 (Only Opinion) ”条 (绿色) ——即模型在回答之前针对该话题明确制定观点——提高了准确性。结合两者 (红色条) 产生了最好的结果。这告诉我们上下文必须是具体的；一般的背景噪音会分散模型的注意力。

“自动化” RAG 的问题

如果专家增强 (设置 C) 效果这么好，为什么不直接使用 RAG 来找到那些专家文档呢？研究发现这是一个主要障碍。

图 4: MIXTRAL 使用基于不同语料库 (文档集合) 的 RAG 的准确性。

图 4 比较了不同的检索策略。

Web RAG (橙色) : 搜索开放网络。
Curated RAG (精选 RAG，绿色) : 搜索封闭的政党宣言数据库。
Expert RAG (专家 RAG，红色) : 黄金标准的人工选择。

红色条 (专家) 与其他 (网络/精选) 之间的差距是显著的。即使搜索仅限于官方政党宣言 (精选 RAG) ，准确性也无法与专家设置相匹配。这表明当前的自动检索系统很难找到回答特定问题所需的确切段落，而人类专家则擅长于此。

政治差异: 伦理担忧

对于 AI 在民主中的可行性，最关键的发现可能是不同政治意识形态之间的性能差异。

图 5: MIXTRAL 跨欧洲党团的准确性，基于第九届欧洲议会 (2019-2024) 形成的联盟。

如图 5 所示，模型对所有政党的了解并不均等。

高准确率: “绿党” (EGP/Greens/EFA) 的预测准确率极高 (接近 95%) 。他们的意识形态可能在训练数据中独特且具有代表性。
低准确率: 中间派和中右翼团体，如“复兴欧洲 (Renew) ”或“欧洲人民党 (EPP) ”，显示出低得多的准确率 (在某些情况下降至接近 50%) 。

这引入了一个公平性问题。如果一个 LLM VAA 对绿党的准确率为 95%，但对保守党的准确率仅为 60%，那么它就向用户歪曲了政治格局，实际上剥夺了代表性较差的政党的权利。

结论与启示

这项研究描绘了 AI 在政治领域未来的复杂图景。一方面，像 Mixtral 这样的开箱即用模型令人惊讶地称职，在没有任何帮助的情况下预测政党立场的准确率超过 80%。在专家指导下，这一数字上升到 90% 以上，表明推理引擎是健全的。

然而，“最后一公里”的问题仍然很重大。

自动化差距: 我们还不能自动检索出像人工策划那样好的上下文。网络搜索充满噪音，甚至宣言搜索也未能达标。
偏见与公平: 政治团体之间的巨大性能差距是一个危险信号。今天部署这样的系统可能会无意中偏袒那些具有更一致或“网络流行”意识形态的政党。

对于学生和开发者来说，这篇论文强调了 提示工程和 RAG 并不是万能药。 简单地添加一个搜索栏 (Web RAG) 并没有帮助最聪明的模型。这项技术的未来可能在于“精选 RAG (Curated RAG) ”——建立高度专业化、经过验证的政治知识数据库——以及微调模型以更好地理解代表性不足的政治立场。

在此之前，虽然 AI 可以辅助投票过程，但它应该被视为一种研究工具，而不是权威的顾问。“人在回路 (human in the loop) ”对于民主仍然至关重要。

引言#

背景: 政治 AI 的挑战#

模型#

基准: EUANDI-2024#

核心方法: 向 AI 提问的四种方式#

设置 0: 无上下文 (基线)#

设置 A: RAG 增强 (网络搜索)#

设置 B: 自我反思 (思维链)#

设置 C: 专家增强 (黄金标准)#

实验与结果#

主要结果: 规模很重要#

自我反思的细微差别#

“自动化” RAG 的问题#

政治差异: 伦理担忧#

结论与启示#

引言