引言
在信息过载的时代,做出明智的政治决定正变得越来越困难。在重大政治事件期间,例如 2024 年欧洲议会选举,选民们被各种宣言、辩论和媒体评论狂轰滥炸。为了应对这一局面,许多公民转向了投票建议应用 (Voting Advice Applications,简称 VAAs) 。这些传统的、基于规则的网络应用程序让用户回答一份固定的问卷 (例如,“你支持欧元吗?”) ,然后系统会将他们与观点最相符的政党进行匹配。
虽然很有用,但传统的 VAA 是静态的。它们提供的是“一刀切”的体验,无法回答后续问题,也无法解释具体政策的细微差别。这引发了研究人员提出的一个关键问题: 大语言模型 (LLMs) 能否成为下一代投票助手?
想象一下,一个个性化的 AI 不仅仅是计算分数,而是与你讨论政治立场,提供背景和推理。然而,在我们将民主决策权交给 AI 之前,必须验证其准确性。模型真的知道政党的主张吗?它会产生幻觉吗?它会偏向某种政治意识形态吗?
在这篇文章中,我们将深入探讨哥本哈根大学 Ilias Chalkidis 的一项近期研究。该论文调查了最先进的开源模型 (Mistral 和 Mixtral) 预测政治立场的能力。这项研究不仅审计了这些模型,还探索了复杂的技术——如检索增强生成 (RAG) 和自我反思 (Self-Reflection) ——看看我们是否能构建出一个更准确的数字政治顾问。
背景: 政治 AI 的挑战
大语言模型是在海量的互联网文本上训练的,这本身就包含了政治话语。先前的研究表明,LLM 拥有惊人的政治知识和推理能力。然而,它们也带来了重大风险:
- 幻觉 (Hallucination) : 模型可能会自信地陈述错误的事实。
- 偏见 (Bias) : 基于训练数据,模型可能会表现出政治倾向 (通常是左翼自由主义) 。
- 过时知识 (Outdated Knowledge) : 在 2022 年训练的模型可能不知道政党对 2024 年危机的立场。
要成为一个可靠的 VAA,LLM 需要准确预测特定政党如何回答特定的政策问题。
模型
研究人员专注于“开放权重 (open-weight) ”模型,与 GPT-4 等封闭系统相比,这些模型提供了透明度和可访问性。他们使用了:
- MISTRAL 7B: 一个较小、高效的模型。
- MIXTRAL 8x7B: 一个较大的“混合专家 (Mixture of Experts) ”模型,它针对不同任务激活不同的参数,提供更高的性能。
基准: EUANDI-2024
为了评估模型,研究人员使用了“EU and I 2024” (EUANDI-2024) 问卷。这是专家为 2024 年选举策划的真实数据集。它包含关于欧洲一体化、移民和税收等主题的 30 个陈述。对于每个陈述,真实的政党提供了他们的官方立场 (从“完全不同意”到“完全同意”) 以及来自其宣言的文字理由。
这为测试 AI 创造了一个完美的“基准真相 (ground truth) ”: 如果 AI 是一个好的投票助手,它应该能够正确预测政党的官方回答。
核心方法: 向 AI 提问的四种方式
这项研究的核心在于如何向模型提问。简单地问模型“X 党怎么想?”往往会得出通用的或产生幻觉的结果。研究人员设计了四种不同的实验设置来测试不同的“上下文增强 (Contextual Augmentation) ”策略。

如上图 1 所示,该框架从简单的提示发展到复杂的多步推理。
设置 0: 无上下文 (基线)
在这种设置中,模型会收到一个系统提示和具体问题 (例如,“德国 CDU 党会同意欧洲一体化是一件好事吗?”) 。模型必须完全依赖其内部训练记忆 (参数化知识) 。这测试了模型“已经知道什么”。
设置 A: RAG 增强 (网络搜索)
在这里,研究人员应用了检索增强生成 (RAG) 。在回答之前,系统使用问题作为查询执行网络搜索。它从维基百科、Politico 或卫报等来源检索相关文档。这些片段与问题一起被输入模型。假设是,访问实时互联网应该有助于模型将回答建立在事实基础上。
设置 B: 自我反思 (思维链)
此设置测试模型在没有外部数据情况下的推理能力。它使用分阶段对话 (一种思维链提示形式) :
- 总结: 要求模型总结该政党最近的政治立场。
- 推测: 要求模型推测该政党关于特定话题的观点。
- 回答: 最后,模型根据它刚刚生成的总结和推测来回答投票问题。
这模仿了人类的思考方式: “好的,我对这个政党总体了解多少?基于此,他们对这个具体问题会有什么感觉?”
设置 C: 专家增强 (黄金标准)
这是控制组设置。研究人员向模型提供了来自 EUANDI 数据集的实际专家策划的理由 (政党提供的解释其立场的文本) 。这充当了一个“预言机 (Oracle) ”。它告诉我们模型性能的理论上限: 如果模型拥有完美的信息,它能得出正确的答案吗?
实验与结果
研究人员针对来自德国、法国、意大利和西班牙的主要政党以及全欧盟范围的“欧洲政党”运行了这四种设置。指标是简单的准确性: 模型是否选择了与政党相同的立场 (同意/不同意) ?
主要结果: 规模很重要
初步结果凸显了较小模型和较大模型之间的明显区别。

图 2 揭示了几个关键见解:
- Mixtral (橙色) 占主导地位: 较大的 Mixtral 模型始终优于较小的 Mistral 模型。在“无上下文”设置 (Set 0) 中,Mixtral 达到了 82% 的准确率 , 而 Mistral 为 76%。这证实了较大的模型确实记住了更多的世界知识。
- RAG 的意外发现: 看看设置 A (RAG) 。对于较小的 Mistral 模型,访问网络显着提高了准确性 (从 76% 提高到大约 84%) 。然而,对于较大的 Mixtral 模型,网络搜索几乎没有带来任何好处 (保持在 82-84% 左右) 。这表明较大模型的内部记忆已经和快速网络搜索一样好,甚至更好。
- 专家上下文为王: 设置 C (专家增强) 产生了最高分,将准确率推高至 90% 以上。这证明如果给予高质量、相关的信息,模型确实可以正确推理。
自我反思的细微差别
研究人员进一步调查了设置 B (自我反思) ,以了解为什么要求模型在回答前“思考”会有所帮助。

图 3 分解了自我反思过程。“仅摘要 (Only Summary) ”条 (橙色) 显示,仅仅要求提供一般的政党摘要实际上比没有上下文时损害了性能。然而,“仅观点 (Only Opinion) ”条 (绿色) ——即模型在回答之前针对该话题明确制定观点——提高了准确性。结合两者 (红色条) 产生了最好的结果。这告诉我们上下文必须是具体的;一般的背景噪音会分散模型的注意力。
“自动化” RAG 的问题
如果专家增强 (设置 C) 效果这么好,为什么不直接使用 RAG 来找到那些专家文档呢?研究发现这是一个主要障碍。

图 4 比较了不同的检索策略。
- Web RAG (橙色) : 搜索开放网络。
- Curated RAG (精选 RAG,绿色) : 搜索封闭的政党宣言数据库。
- Expert RAG (专家 RAG,红色) : 黄金标准的人工选择。
红色条 (专家) 与其他 (网络/精选) 之间的差距是显著的。即使搜索仅限于官方政党宣言 (精选 RAG) ,准确性也无法与专家设置相匹配。这表明当前的自动检索系统很难找到回答特定问题所需的确切段落,而人类专家则擅长于此。
政治差异: 伦理担忧
对于 AI 在民主中的可行性,最关键的发现可能是不同政治意识形态之间的性能差异。

如图 5 所示,模型对所有政党的了解并不均等。
- 高准确率: “绿党” (EGP/Greens/EFA) 的预测准确率极高 (接近 95%) 。他们的意识形态可能在训练数据中独特且具有代表性。
- 低准确率: 中间派和中右翼团体,如“复兴欧洲 (Renew) ”或“欧洲人民党 (EPP) ”,显示出低得多的准确率 (在某些情况下降至接近 50%) 。
这引入了一个公平性问题。如果一个 LLM VAA 对绿党的准确率为 95%,但对保守党的准确率仅为 60%,那么它就向用户歪曲了政治格局,实际上剥夺了代表性较差的政党的权利。
结论与启示
这项研究描绘了 AI 在政治领域未来的复杂图景。一方面,像 Mixtral 这样的开箱即用模型令人惊讶地称职,在没有任何帮助的情况下预测政党立场的准确率超过 80%。在专家指导下,这一数字上升到 90% 以上,表明推理引擎是健全的。
然而,“最后一公里”的问题仍然很重大。
- 自动化差距: 我们还不能自动检索出像人工策划那样好的上下文。网络搜索充满噪音,甚至宣言搜索也未能达标。
- 偏见与公平: 政治团体之间的巨大性能差距是一个危险信号。今天部署这样的系统可能会无意中偏袒那些具有更一致或“网络流行”意识形态的政党。
对于学生和开发者来说,这篇论文强调了 提示工程和 RAG 并不是万能药。 简单地添加一个搜索栏 (Web RAG) 并没有帮助最聪明的模型。这项技术的未来可能在于“精选 RAG (Curated RAG) ”——建立高度专业化、经过验证的政治知识数据库——以及微调模型以更好地理解代表性不足的政治立场。
在此之前,虽然 AI 可以辅助投票过程,但它应该被视为一种研究工具,而不是权威的顾问。“人在回路 (human in the loop) ”对于民主仍然至关重要。
](https://deep-paper.org/en/paper/2407.08495/images/cover.png)