“我是一位伟大的领导者,因为我做出了伟大的领导决策。”
乍一看,这句话听起来充满自信。但如果你仔细观察,就会发现它是空洞的。这是一个典型的循环论证 (Circular Reasoning) 示例——结论仅仅是前提的重述。
我们在日常生活中经常遇到这种有缺陷的论证。无论是广告中的“诉诸情感 (Appeal to Emotion) ”,政治辩论中的“人身攻击 (Ad Hominem) ”,还是社交媒体评论中的“虚假两难 (False Dilemmas) ”,逻辑谬误是错误信息和操纵性内容的基石。自动检测这些谬误是自然语言处理 (NLP) 的一项关键任务,但在历史上一直非常困难。
在这篇文章中,我们将深入探讨论文 “Are LLMs Good Zero-Shot Fallacy Classifiers?” (大语言模型是优秀的零样本谬误分类器吗?) 。 研究人员探索了一个引人入胜的问题: 与其在昂贵且难以获取的数据集上训练专门的模型,我们能否直接让像 GPT-4 或 Llama-3 这样的大语言模型 (LLMs) 来为我们找出这些谬误?
研究结果不仅展示了 LLMs 如何“推理”,还为如何有效地向它们发出提示 (Prompting) 提供了指导手册。
传统检测方法的问题
在讨论 LLMs 之前,我们需要了解现状。传统上,如果你想构建一个检测谬误的系统,你会遵循全样本监督学习 (full-shot supervised learning) 的流程。你会:
- 聘请专家阅读数千个句子并进行标注 (例如,“这是一个稻草人谬误”) 。
- 在这个数据上训练一个模型 (如 BERT 或 T5) 。
- 测试模型。
这种方法有三个主要缺陷:
- 数据稀缺: 谬误很复杂,创建一个标注数据集既昂贵又耗时。
- 不平衡: 某些谬误 (如人身攻击) 很常见。其他的 (如一词多义/含糊其辞) 则很罕见。模型通常擅长识别常见谬误,而在罕见谬误上表现失败。
- 泛化差距: 这是最大的问题。一个在政治辩论数据上训练的模型,在测试 Reddit 评论时往往会彻底失败。语言的“分布”差异太大了。这就是所谓的分布外 (OOD) 问题。
这篇论文的作者提出了一种策略上的转变。由于 LLMs 已经在包含逻辑、辩论和定义的大量文本上进行了预训练,也许它们拥有在零样本 (Zero-Shot) ——即无需查看任何训练示例——的情况下对谬误进行分类的固有知识。
谬误长什么样?
为了理解这一挑战,我们来看看模型面临的是什么。谬误不仅仅关于语法;它们关乎前提与结论之间的逻辑联系。

如图 1 所示,谬误出现在各种语境中。在“Reddit”示例中,用户制造了一个虚假两难 (暗示你要么讨厌科技,要么就得住在山洞里) 。在“Propaganda (宣传) ”示例中,文本使用了谩骂/贴标签 (Name-calling) 。 这些风格的多样性——从正式辩论到随意的网络俚语——正是传统模型难以适应的原因。
方法论: 通过提示激发逻辑
这篇论文的核心贡献不是一个新的模型架构,而是对提示方案 (prompting schemes) 的系统探索。你该如何要求 LLM 找出谬误?作者测试了两大类方法: 单轮 (Single-Round) 和多轮 (Multi-Round) 提示。
1. 零样本单轮提示
这是最直接的方法。你给 LLM 提供文本和谬误类型列表,然后问: “这是哪种谬误?”
作者测试了两种变体:
- 无定义 (Without Definitions) : 完全依赖 LLM 对“红鲱鱼 (Red Herring) ”或“稻草人 (Straw Man) ”等术语的内部知识。
- 有定义 (With Definitions) : 在提示中为每种谬误类型提供具体定义,以指导模型。
2. 零样本多轮提示
这是研究创新的地方。作者假设谬误分类需要复杂的推理步骤: 阅读理解、信息提取和模式识别。仅仅一个“猜测标签”的提示可能要求太高。
为了解决这个问题,他们设计了多轮策略来引导 LLM 的“思维过程”。

如图 2 所示,作者将任务分解为几个独特的逻辑流程:
- (b) 定义生成 (Definition Generation) : 作者不给出定义,而是要求 LLM 首先为谬误类型生成自己的定义。在第二轮中,LLM 使用它自己的定义来对文本进行分类。这使得分类标准与模型的内部表示相一致。
- (c) 通用谬误分析 (GFA) : 首先要求模型分析文本,确定是否存在谬误以及为什么,此时暂不选择标签。一旦生成了分析,再要求模型将该分析映射到特定的标签上。
- (d) 带热身的 GFA (GFA with Warm-up) : 某些数据集 (如新闻片段) 缺乏上下文。在这里,模型被要求在进入分析阶段之前先总结或推断上下文 (即“热身”) 。
- (e) 前提与结论 (Premises & Conclusion) : 这种方法试图使用形式逻辑。模型提取前提和结论,检查前提是否蕴涵结论 (这是健全论证的形式定义) ,然后对错误进行分类。
- (f) 零样本思维链 (Zero-Shot CoT) : 使用经典的“让我们一步步思考 (Let’s think step by step) ”提示,鼓励在单个回复中进行中间推理。
为了使其可复现,作者使用了结构化的提示模板,确保输出是机器可读的 (JSON) 。

实验结果
研究人员在 7 个基准数据集上测试了这些提示,范围涵盖政治辩论 (ElecDeb) 、COVID-19 新闻 (COVID-19) 和互联网争论 (Argotario、Reddit) 。他们比较了几个 LLMs (GPT-4、GPT-3.5、Llama-3、Mistral、Qwen) 与针对谬误数据专门微调 (训练) 过的 T5 模型 。
1. LLMs 对决 监督模型
结果显示,LLMs 在泛化能力方面取得了重大胜利。

请仔细看表 2 。 蓝色数字代表 T5 模型在分布外 (OOD) 数据——即它未经过训练的数据集——上的表现。红色数字代表零样本 LLMs 的表现。
主要发现:
- OOD 优势: 零样本 LLMs 在 OOD 场景中始终优于完全训练的 T5 基线。例如,在 MAFALDA 数据集上,T5 模型的 F1 分数仅为 25.13,而 GPT-4 得分为 52.86。这证明了监督模型是脆弱的;它们学习的是特定数据集的怪癖,而不是谬误的潜在概念。
- 开放领域的成功: 在更简单的开放领域数据集 (如 Argotario 和 Reddit) 上,GPT-4 取得了与完全训练模型相当甚至更好的结果 (在 Argotario 上为 78.94 对比 69.13) 。
- 小众领域的困难: 在高度特定的领域 (如 Logic 或 Propaganda) 上,LLMs 仍然落后于专门的 T5-3B 模型,这可能是因为这些数据集包含非常具体或学术性的谬误定义,与通用用法不同。
2. 多轮提示有帮助吗?
要求模型在回答之前先“思考”真的能提高分数吗?答案是肯定的,但这取决于模型的大小。

表 4 总结了最有效的策略:
- 对于强大的模型 (GPT-4) : 简单往往更好。单轮提示 (带定义) 或零样本 CoT 效果最好。GPT-4 已经具备强大的内部推理能力,因此强迫它通过多个形式化步骤有时会使任务过于复杂。
- 对于较小的模型 (Llama-3, Qwen, Mistral) : 多轮提示改变了局面。像带热身的通用谬误分析 (GFA-W) 这样的策略显着提高了性能。这些模型受益于将任务分解为“总结上下文” -> “分析逻辑” -> “分类”。
3. “前提与结论”的失败
最有趣的负面结果之一来自前提与结论 (P&C) 方案。理论上,这是检测谬误最“正确”的方法: 识别前提,识别结论,并检查其联系。
然而,下面的表 3 显示,P&C 被列为表现最差的多轮方案。

为什么形式逻辑失败了?作者分析了错误案例,发现针对“蕴涵 (entailment) ” (一个严格的逻辑概念) 进行提示混淆了模型。模型开始拒绝那些非正式但合理的论点,因为它们在演绎上并非无懈可击,或者模型被提取前提-结论的机制分散了注意力,而不是专注于修辞缺陷。事实证明,将谬误视为自然语言分析任务 (GFA) 比将其视为形式逻辑任务效果更好。
错误分析: LLMs 在哪里感到困惑?
没有模型是完美的。为了了解 LLMs 在哪里失败,作者可视化了混淆矩阵——展示哪些谬误被误认为是其他谬误的图表。

图 3 突出了模型之间明显的个性差异:
- GPT-4 (左) : 注意“No Fallacy (无谬误) ” (右下角) 的深蓝色方块。GPT-4 很保守。它非常擅长识别何时没有谬误,但在不确定时倾向于过度预测“无谬误”。它还在“以偏概全 (Hasty Generalization) ”这个类别上很挣扎,经常将其他薄弱的论点归入此类。
- Llama-3 (右) : Llama-3 更激进。即使可能是不同的谬误,它也经常预测“诉诸情感 (Appeal to Emotion) ” (左上角) 。它在区分“红鲱鱼 (Red Herring) ”与其他相关性谬误时更加困难。
结论与启示
论文 “Are LLMs Good Zero-Shot Fallacy Classifiers?” 给出了一个令人信服的答案: 是的,有潜力。
虽然它们在每个数据集上还没能完全击败全监督模型,但它们解决了该领域最大的瓶颈: 数据稀缺 。
- 无需训练: 你不需要花费数千美元来标注数据就能获得一个像样的谬误检测器。
- 更好的泛化能力: 如果你需要一个在新的、未见过的主题 (如突发新闻事件) 上工作的系统,LLM 比训练过的 BERT/T5 模型更保险。
- 提示很重要: 如果你使用的是较小的开源模型 (如 Llama-3) ,你不应该只是问“这是什么谬误?”。你应该使用多轮工作流: 要求它总结上下文,分析推理,然后进行分类。
对于学生和研究人员来说,这篇论文强调了我们正从“训练模型”转向“设计推理链”。谬误检测的未来可能在于混合系统——利用 LLMs 强大的通用知识,并辅以复杂的多步提示策略。
](https://deep-paper.org/en/paper/2410.15050/images/cover.png)