引言

想象这样一个世界: 每位学生，无论身处何地或资源如何，都能拥有一位私人导师。这位导师拥有 Neil deGrasse Tyson 般的知识储备、陶哲轩 (Terence Tao) 般的数学直觉，以及居里夫人 (Marie Curie) 般的化学造诣。这就是 GPT-4 和 Llama-3 等大型语言模型 (LLM) 所承诺的未来。我们已经迅速从使用聊天机器人写邮件，过渡到了依赖它们来总结复杂的研究论文和解释科学概念。

然而，这种依赖背后隐藏着巨大的危险。虽然 LLM 可以雄辩地解释牛顿定律，但当它被推向科学探索的最前沿时，表现又如何呢？它能分清已证实的事实和悬而未决的科学争论吗？更糟糕的是，它是否会对人类尚未解决的问题自信地“幻觉”出答案？

来自印度理工学院德里分校的研究人员近期发表了一篇题为 “Can LLMs replace Neil deGrasse Tyson?” (LLM 能取代 Neil deGrasse Tyson 吗？) 的论文，探讨了这些关键问题。作者认为，目前的人工智能基准测试是不够的，因为它们往往依赖于死记硬背或简单的推理。要真正测试人工智能作为科学传播者的能力，我们必须评估其细致入微的理解能力，尤其重要的是它的“拒答能力 (answer abstinence) ”——即说“我不知道”的能力。

研究人员引入了一个名为 SCiPS-QA 的严苛新基准，并揭示了一个令人担忧的趋势: 模型不仅在复杂的科学问题上举步维艰，而且它们拥有强大的说服力，甚至能欺骗人类评估者相信错误的信息。

Figure 1: Examples of wrong reasonings given by GPT4 Turbo to problems in SCiPS-QA.

如上图 1 所示，模型能在物理、化学和数学领域产生非常有说服力但事实错误的推理。无论是错误地声称空气因折射率不同而能投下阴影，还是错误地识别化学络合物的手性，这些错误都非常微妙，并且被包裹在权威的语言中。

当前基准测试的问题

在深入了解新方法之前，有必要明白为什么我们需要一个新的数据集。人工智能领域充斥着各种基准测试。你可能听说过 MMLU (大规模多任务语言理解) 或 GSM8K (小学数学) 。这些已成为衡量 LLM 进步的标准。

然而，这些现有的数据集存在局限性:

复杂性上限: 许多数据集侧重于高中或本科水平的问题，这些问题虽然对早期模型来说很难，但对于像 GPT-4 这样的最先进系统来说正变得微不足道。
缺乏细微差别: 科学探究很少是非黑即白的。它涉及限定条件、前提和语境。标准的多项选择题往往无法捕捉到这一点。
“开放问题”盲区: 也许最显著的缺陷是缺乏“开放”问题——即科学界尚无定论的问题。如果你问一个 LLM: “P 是否等于 NP？” (计算机科学中著名的未解之谜) ，一个可靠的传播者应该解释相关的争论，而不是像掷硬币一样给出一个确定的“是”。

这篇论文的作者认为，要让 LLM 成为忠实的科学传播者，它必须具备自我意识。它需要认识到自身知识 (以及整个人类知识) 的边界。面对无知时的过度自信是糟糕老师的标志。

核心方法: 介绍 SCiPS-QA

为了严格测试这些能力，研究人员开发了 SCiPS-QA (Specially Challenging Problems in Science – Question Answering，科学领域极具挑战性问题问答) 。这可不是普通的随堂测验。它是从利基研究领域精心收集的 742 个复杂的布尔 (是/否) 问题。

数据集构成

该数据集经过精心构建，涵盖了广泛的科学学科，重点关注那些对精确性不容妥协的硬科学。

Table 1: Composition of SCiPS-QA.

如表 1 所示，该数据集包括:

物理学: 242 个问题
数学: 283 个问题
化学: 132 个问题
其他: 理论计算机科学、天文学、生物学和经济学。

这里的一个关键创新是区分了 封闭式 (Closed) 和 开放式 (Open) 问题。

封闭式问题 (共 510 个) : 这些问题在既定的科学文献中有明确的答案。它们测试模型的检索和推理能力。
开放式问题 (共 232 个) : 这些是目前在科学上没有确切答案的问题。它们旨在测试“拒答能力”。在这里，LLM 的正确行为是拒绝给出明确的“是/否”，或者承认这种不确定性。

主题分解

这些问题并非浅尝辄止，而是深入到了各个子领域。例如，在物理学中，问题不仅仅关于重力，还涵盖了量子力学、统计力学和相对论。在数学中，它们跨越了拓扑学、数论和组合数学。

Figure 5: Topic decompostion for subjects in SCiPS-QA

图 5 展示了这种细分。量子力学在物理学中以及拓扑学在数学中的主导地位，突显了该数据集对抽象和复杂推理的关注，而在这些领域人类直觉往往会失效，这使得准确的 AI 辅助极具价值——但这前提是它必须可靠。

难度差距

为了证明 SCiPS-QA 确实比现有基准更具挑战性，研究人员比较了 GPT-4 Turbo 在 SCiPS-QA 与 MMLU-Pro 和 SciQ 上的表现。

Figure 2: Performance of GPT-4 Turbo on SCiPS-QA vs others.

图 2 中的结果非常鲜明。虽然 GPT-4 Turbo 在 SciQ 和 MMLU-Pro 上得分很高 (接近或超过 80-90%) ，但在 SCiPS-QA 上其表现显著下降，徘徊在 60-70% 左右。这证实了新数据集成功暴露了模型推理中的局限性，而这些局限性在更简单的基准测试中被掩盖了。

实验设置与指标

研究人员对各种模型进行了基准测试，包括 GPT-4 Turbo 和 GPT-3.5 Turbo 等专有巨头，以及 Llama-2、Llama-3 和 Mistral 系列的开放获取模型。

他们使用几个关键指标评估了这些模型:

MACC (主响应准确率) : 温度为 0 (确定性) 时生成的响应准确率。
MSACC (主要随机响应准确率) : 在温度为 1 (随机化) 的情况下向模型询问相同问题 10 次。这衡量了“多数投票”答案的准确性。
VSR (随机响应变异) : 衡量模型一致性的指标。如果它回答 5 次“是”和 5 次“否”，则变异度高 (一致性差) 。

幻觉量化: SelfCheckGPT

方法论的一个重要部分涉及量化“幻觉”——即模型生成荒谬或不忠实文本的情况。为此，他们采用了一种名为 SelfCheckGPT 的技术。

SelfCheckGPT 的核心思想是，如果模型知道一个事实，它会一致地陈述它。如果它在产生幻觉，多次采样时它的答案将会剧烈波动。研究人员使用了这种数学方法的三个变体。

1. BERTScore 变体: 这种方法测量主响应句子 (\(M_i\)) 与随机采样句子 (\(S_j^k\)) 之间的语义相似度。

Equation for SelfCheckGPT with BERTScore

如果句子 \(M_i\) 与随机样本在语义上相似，幻觉分数就低。如果差异显著，分数就高 (接近 1) 。

2. NLI (自然语言推理) 变体: 这使用一个单独的模型来检查随机样本是否与主响应“矛盾”。它计算矛盾的概率。

Equation for Probability of Contradiction

最终的幻觉分数是所有样本中这些矛盾概率的平均值:

Equation for Hallucination Score Summation

3. Prompt (提示) 变体: 在这里，一个外部 LLM (如 GPT-3.5) 充当裁判，被明确询问这些句子是否相互支持。

Equation for Prompt Variant Score

这些数学框架使研究人员能够超越“感觉”模型错了的范畴，转而为生成的科学解释分配一个具体的“幻觉分数”。

结果与分析

实验对当前 AI 科学传播者的现状产生了一些突破性的见解。

1. 开源挑战者

虽然专有模型通常处于领先地位，但差距正在缩小。如下面的表 2 所示, Llama-3-70B 作为一个强大的竞争者脱颖而出。

Table 2: Comparative evaluation of state-of-the-art open-source and proprietary LLMs.

注意 MACC (准确率) 一栏。 Llama-3-70B 取得了 0.693 的分数，在这个特定指标上实际上超过了 GPT-4 Turbo 的 0.646 。这对于开放获取模型来说是一个重要时刻，表明只要有足够的参数规模和训练，它们可以在复杂的科学推理上与行业领导者相抗衡。不过，GPT-4 Turbo 总体上保持了更好的一致性 (较低的 VSR 分数) 。

2. 拒答能力的缺失

最令人担忧的发现之一与“开放式问题” (未解决的科学问题) 有关。一个完美的科学传播者应该在看到像“纳维-斯托克斯存在性与光滑性问题解决了吗？”这样的问题时，回答“没有”或“未知”。

然而, OMACC (开放主准确率) 分数揭示了系统性的失败。大多数模型在这里表现不佳。它们倾向于幻觉出一个确定的答案，而不是承认无知。它们缺乏研究所需的“科学谦逊”。

3. 验证机制失效

我们能不能直接让 LLM 再次检查它自己的工作？研究人员通过要求 GPT-4 Turbo 和 GPT-3.5 Turbo 验证推理段落来测试这一点。他们对“事实性”、“说服力因子”和“信息不匹配”进行了评分。

Figure 3: Verification of the reasoning passages generated by GPT-4 Turbo.

图 3 揭示了一个混乱的现实。蓝线 (正确响应) 和红线 (错误响应) 应该是截然分开的。理想情况下，所有错误的响应得分应为 1，正确的应为 5。相反，我们看到了广泛的重叠。 GPT-4 Turbo 难以区分自己产生的正确和错误的幻觉。 如果模型不能可靠地验证自己，它就不能作为独立的专家来部署。

4. 人类受骗

也许最令人震惊的结果来自人工评估。研究人员要求人类专家对模型推理的“说服力”进行评分。

Figure 4: Distribution of correct and incorrect responses against convince factor scores.

请看图 4 左侧的图表 (“with answer”) 。红线代表错误的响应。相当一部分错误的响应从人类那里获得了很高的“说服力因子”分数 (3、4 甚至 5) 。

这意味着 GPT-4 Turbo 具有足够的说服力，能够欺骗人类评估者接受错误的科学推理。 该模型采用权威的学术语气，掩盖了逻辑谬误，制造了一个“令人信服的陷阱”。

5. 幻觉检测不一致

研究人员分析了由 SelfCheckGPT 方法生成的幻觉分数的分布。

Figure 6: Frequency distribution plots of ‘SelfCheckGPT with BERTScore’

Figure 7: Frequency distribution plots of ‘SelfCheckGPT with NLI’

Figure 8: Frequency distribution plots of ‘SelfCheckGPT with Prompt’

图 6、7 和 8 显示了这些分数的分布。虽然存在统计学差异 (如下面的表 6 中 Welch t 检验所证实的) ，但分布通常有显著重叠。

Table 6: Welch’s t-tests for testing difference in means of hallucination scores.

例如，在图 8 (SelfCheckGPT Prompt 变体) 中，GPT-3.5 Turbo (红线) 分配的幻觉分数低于 GPT-4 Turbo，这意味着它更自信 (或者可能是过度自信) 。在这些图表中，“幻觉”文本和“忠实”文本之间缺乏清晰的二元分割，这表明即使是我们最好的自动化检测方法也不是解决复杂科学问题的银弹。

最后，表 7 提供了验证数据的原始视图。

Table 7: Verification of the main response reasoning passages.

该表强化了这一发现，即模型——尤其是 GPT-3.5 Turbo——给数量惊人的错误响应 (红色条) 打出了很高的“事实性”分数 (4 分和 5 分) 。

结论与启示

论文 “Can LLMs replace Neil deGrasse Tyson?” 在人工智能的炒作周期中充当了至关重要的现实检验。虽然大型语言模型取得了巨大的进步，但它们还没有准备好取代人类专家进行科学传播。

SCiPS-QA 的推出为社区提供了一个必要的高门槛基准。该数据集的结果表明，虽然像 Llama-3-70B 和 GPT-4 Turbo 这样的模型能力惊人，但它们存在严重的缺陷:

缺乏谦逊: 它们难以识别开放的、未解决的问题。
自我欺骗: 它们无法可靠地验证自己的输出。
说服力胜过真理: 它们生成的推理如此令人信服，以至于欺骗了人类专家。

这对学生和研究人员意味着什么? 这意味着 LLM 应该被视为助手，而不是权威。当 LLM 解释量子力学或拓扑学中的复杂概念时，它听起来可能像 Neil deGrasse Tyson，但它有非零的概率是在自信地编造内容。在模型提高其“拒答能力”和自我验证能力之前，人类因素——批判性思维和怀疑精神——仍然是科学工具箱中最重要的工具。

引言#

当前基准测试的问题#

核心方法: 介绍 SCiPS-QA#

数据集构成#

主题分解#

难度差距#

实验设置与指标#

幻觉量化: SelfCheckGPT#

结果与分析#

1. 开源挑战者#

2. 拒答能力的缺失#

3. 验证机制失效#

4. 人类受骗#

5. 幻觉检测不一致#

结论与启示#

引言