引言

在人工智能的快速演进中,我们已经习惯了大型语言模型 (LLMs) 展现出令人印象深刻的逻辑演绎能力。让 GPT-4 解一道复杂的微积分题或调试一段 Python 脚本,它通常都能大放异彩。这些属于客观任务——这类问题有着单一的、可验证的标准答案。推理路径清晰明确,成功与否是非黑即白的: 答案要么对,要么错。

但是,当我们问 AI 一个没有标准答案的问题时,会发生什么?

试想诸如*“文学如何塑造文化认同?”“教育中的技术是促进了学习还是阻碍了学习?”*这类问题。这些是主观话题。要回答好这些问题,不能仅仅遵循线性的逻辑路径。人们必须运用全面思维 (从各个角度看问题) 、反思性思维 (批判自己的假设) 和创造性思维 (提供新颖的见解) 。

事实证明,虽然 LLMs 是数学天才,但它们往往是哲学门外汉。当面对开放式的主观问题时,它们倾向于提供肤浅、通用或片面的回答。它们缺乏“咀嚼”思想、批判思想并使其进化的能力。

图 1: 使用 CoT 提示的 LLM 展示了强大的逻辑思维能力,但在高效解决主观问题上表现不佳。

如图 1 所示,像思维链 (CoT) 这样的标准提示技术在客观问题 (左侧) 上效果显著,但在触发主观问题 (右侧) 所需的深度、创造性和反思性思维方面却举步维艰。

在这篇文章中,我们将探讨清华大学和香港中文大学研究人员发表的一篇引人入胜的研究论文 “Subjective Topic meets LLMs”。他们提出了一个名为 NeoN 的新颖框架,其灵感来自于“否定之否定”这一哲学原则。该方法教 LLMs 自我反驳,寻找缺陷和缺失的视角,从而螺旋式上升,得出一个更深刻、更“像人类”的答案。

问题: 主观性鸿沟

当前的 LLM 基准测试严重偏向于客观推理——算术、符号逻辑和常识问答。这些基准测试奖励模型收敛到一个单一的正确点。然而,人类智能的定义同样在于发散性思维——即探索一个可能同时存在多个相互冲突真理的解决方案空间的能力。

研究人员发现,现有的方法,如思维链 (CoT) ,依赖于思维的线性推进。虽然这对数学来说很完美,但这种线性对于主观话题来说却是一个障碍。线性路径很难捕捉到复杂社会问题的细微差别。

介绍 SJTP 基准

为了解决这个问题,作者首先需要一种衡量主观推理的方法。他们创建了 SJTP (主观话题) 数据集。与具有多项选择答案的标准数据集不同,SJTP 由需要自由形式回答的开放式问题组成。

该数据集围绕三种特定类型的主观话题构建,每种话题测试高阶思维的不同方面:

  1. 观点论述 (Viewpoint Discourse): 测试全面性 (例如,“社交媒体有什么影响?”) 。
  2. 二元辩证 (Binary Dialectics): 测试深度分析和反思 (例如,“学校应该穿校服吗?”) 。
  3. 实践分析 (Practical Analysis): 测试创造力和建设性意见 (例如,“我们要如何保护文化遗产?”) 。

表 1: SJTP 数据集的主题类型、领域和评估维度。

如上表 1 所示,这些话题涵盖了从社会伦理到技术与教育的八个不同领域。目标不仅仅是生成文本,而是要在全面性反思性创造性等维度上获得高分。

为了确保数据集涵盖广泛的人类知识,研究人员纳入了来自八个不同领域的话题。

图 5: SJTP 中主观话题的不同领域。

图 5 展示了这些话题的分布。通过强制模型涉足法律、心理学、历史和艺术,该基准确保 LLM 不能仅仅依赖死记硬背的模板。它必须进行真正的推理。

解决方案: NeoN 框架

这篇论文的核心贡献是 NeoN 框架。这个名字代表 Negation of Negation (否定之否定) , 这是一个直接借鉴自辩证哲学的概念,特别是恩格斯和黑格尔的著作。

代码背后的哲学

在黑格尔辩证法中,真理不是一个静态的终点。它是一个过程。事物的发展通过一个循环进行:

  1. 正题 (Thesis): 初始状态或命题。
  2. 反题/否定 (Antithesis/Negation): 对正题的矛盾或批判。
  3. 合题/否定之否定 (Synthesis/Negation of Negation): 超越冲突的解决方案,结合了前两个阶段的优点。

作者将此应用于大型语言模型。他们假设,如果强迫 LLM “否定”它自己的答案——积极寻找缺陷、缺失的视角或反驳论点——它将打破既定的思维模式。

NeoN 如何工作

NeoN 框架在一个三阶段的管道中运行。重要的是,这是一个 零样本 (zero-shot) 框架。它不需要在数千个示例上训练模型;它只是使用精心设计的提示来引导模型的推理过程。

图 2: SJTP 数据集构建和 NeoN 框架工作流程示意图。

图 2 提供了工作流程的高级概述 (右侧) 。让我们分解这三个不同的步骤。

步骤 1: 直接回答 (正题)

首先,要求模型利用其固有的逻辑推理生成问题的标准回答。这确保了基准回答是连贯且有根据的。

\[ \mathbf { r } _ { 0 } = { \mathcal { M } } ( { \mathcal { Q } } \oplus { \mathcal { P } } _ { 1 } ) , \]

公式 1: 生成初始回答。

这里,\(\mathcal{Q}\) 是问题,\(\mathcal{P}_1\) 是一个直接提示,如“让我们生成答案”。结果 \(\mathbf{r}_0\) 就是初始的“正题”。

步骤 2: 迭代否定 (反题)

这是 NeoN 与标准提示发散的地方。系统不接受 \(\mathbf{r}_0\),而是将 LLM 设定为一个“否定者”。模型被提示去批判之前的回答。

提示可能看起来像: “否定上述回答以推导出更完美的答案。”

模型审视其之前的回答并问:

  • 缺少了什么?
  • 这个观点是否太狭隘?
  • 是否有反例? \[ \mathbf { r } _ { n } = { \mathcal { M } } ( { \mathcal { Q } } \oplus \mathbf { r } _ { 0 } \oplus \cdots \oplus \mathbf { r } _ { n - 1 } \oplus { \mathcal { P } } _ { 2 } ) , \] 公式 2: 迭代否定过程。

如上式所示,新的回答 \(\mathbf{r}_n\) 是基于所有先前回答的历史生成的。这个过程可以重复多次 (\(n\) 轮) 。

停止标准: 模型怎么知道什么时候停止自我争论?系统检查当前回答与之前回答之间的语义相似度。

  • 如果新的回答非常不同,意味着模型正在发现新的角度。否定继续。
  • 如果新的回答与之前的非常相似 (相似度 > 阈值 \(\epsilon\)) ,这意味着模型已经耗尽了发现缺陷的能力。相对于模型的能力,答案正在接近“完美”,循环停止。

步骤 3: 整合与统一 (合题)

一旦否定循环结束,模型就拥有了一系列回答: 最初的想法、批判、对批判的批判,等等。

最后一步是将这些综合成一个连贯、高质量的回答。

\[ \mathcal { R } = \mathcal { M } ( \mathcal { Q } \oplus \mathbf { r } _ { 0 } \oplus \cdots \oplus \mathbf { r } _ { n } \oplus \mathcal { P } _ { 3 } ) , \]

公式 3: 最终的统一推理。

使用提示 \(\mathcal{P}_3\) (例如,“基于所有先前的回答,生成一个完美的答案”) ,模型将生成的各种观点整合为最终输出 \(\mathcal{R}\)。

为什么“否定”优于“反思”

你可能会问,“这不就是自我反思吗?”

作者认为,“否定”比标准的“自我修正 (Self-Refine)”或“反思 (Reflection)”技术更强。标准反思通常依赖于检查特定错误或遵循奖励信号的反馈。否定则更为广泛。它迫使与之前的文本建立一种对抗关系。它要求探索未考虑的观点,而不仅仅是修复语法或事实错误。它模拟了无限方之间的辩论,迫使模型在质量上螺旋式上升。

实验与结果

为了验证 NeoN,研究人员在多个 LLM 上进行了测试,包括 GPT-3.5、GPT-4、LLaMA-2 和 Mistral。他们将 NeoN 与强大的基线进行了比较,如 Zero-Shot-CoT (零样本思维链) 、Self-Consistency (自我一致性) 和 Self-Refine (自我修正) 。

评估指标

评估主观文本极其困难。为了解决这个问题,作者开发了三个自动评估指标,使用 GPT-4 作为裁判:

  1. \(SCR_{dim}\): 基于六个维度 (清晰度、逻辑性、正确性、全面性、创新性、深度) 对回答进行评分。
  2. \(SCR_{point}\): 为问题生成具体的得分点,并检查回答是否命中了这些点。
  3. \(SCR_{sol}\): 将回答与 GPT-4 生成的高质量“金标准”解决方案进行比较。

主观话题上的表现

结果令人信服。NeoN 在不同模型上始终优于所有基线。

图 3: 分类性能分析以及展示否定功效的表 4。

请看图 3 (左) 中的雷达图。 红线 (NeoN) 包围的面积最大。

  • 创新与深度 (Innovation & Depth): 注意 NeoN 在“创新”和“深度”上的得分显著高于其他方法。这证实了否定过程成功地推动模型走出了肤浅、通用的推理。
  • 全面性 (Comprehensiveness): 通过强迫模型从对立的角度看问题,最终答案自然涵盖了更多的领域。

表 4 (图片右侧) 提供了一项消融实验。它将 NeoN 与以下方法进行了比较:

  • NeoN_direct: 仅生成多个答案而不进行否定。
  • NeoN_rethink: 仅“重新思考”而不明确指示“否定”。 完整的 NeoN 框架获胜,证明了否定——挑战前提——这一具体行为是质量的关键驱动力。

它对客观任务有帮助吗?

这篇论文最令人惊讶的发现之一是,这种“哲学”方法也提高了在刻板、客观任务上的表现,如数学 (GSM8K) 和常识推理 (CSQA)。

为什么辩证法对数学有帮助?

事实证明,“否定”一个数学答案起到了严格的验证步骤的作用。如果模型试图否定它的答案并发现了矛盾,它就捕捉到了一个计算错误。

表 5: 纠正最初错误答案与误导正确答案的比率。

表 5 显示了“错变对” (F2T) 和“对变错” (T2F) 的比率。

  • F2T (25.64%): 这是模型从错误答案开始,应用 NeoN 并将其修正的百分比。这比 Self-Refine (11.67%) 有了巨大的提升。
  • T2F (0.13%): 这是一个危险区域——将正确答案“想”成了错误的。NeoN 在这方面的比率极低。因为否定需要以正确的前提为基础才有效,所以很难成功否定一个数学上正确的陈述。如果模型试图否定“2+2=4”,它会失败,从而强化了原始答案。

效率与否定的“轮次”

模型需要自我争论多少次?

图 4: 否定轮次的影响及观点比较。

图 4(a) 显示了相对于否定轮次的性能。有趣的是,性能增益在 2 到 3 轮左右趋于平稳。这使得 NeoN 与其他可能需要几十轮回合的基于辩论的方法相比非常高效。

图 4(b) 说明,与标准 GPT-3.5 相比,NeoN 为每个答案生成的独特观点数量显著更多,特别是在最需要创造力的“实践问题” (Prac. Iss.) 中。

案例研究: 观察 NeoN 的实际运作

为了使其具体化,让我们看一个数据集中生成的例子,了解“主观话题”是什么样子的,以及模型如何处理它。

表 14: SJTP 生成的二元辩证数据。

考虑表 14 中的二元辩证话题: “教育中的技术是促进了学习还是阻碍了学习?”

一个标准的 LLM 可能会产生一篇通用的“三明治”式文章: 它有利有弊。它有助于获取信息但会导致分心。总之,平衡是关键。

NeoN 下,过程看起来不同:

  1. 直接: 模型生成那篇标准文章。
  2. 否定 1: 模型攻击这篇文章。“之前的回答假设接入是普遍的,但忽略了数字鸿沟。它也没能提到‘分心’实际上可能是过时教学方法的症状,而不是技术本身的问题。”
  3. 否定 2: 模型再次攻击。“批评数字鸿沟是合理的,但我们也必须承认,技术改变了学习的神经通路,从本质上重塑了学生处理信息的方式,这不仅仅是‘好’或‘坏’,而是一个根本性的转变。”
  4. 合题: 最终的答案将这些深刻、相互冲突的见解编织成一个涉及认知科学、社会经济公平和教育学的细致讨论,远远超过了最初的通用回答。

结论

这篇名为“Subjective Topic meets LLMs”的论文提出了一个令人信服的论点: 逻辑是不够的。 随着我们将 LLM 更深入地融入人类社会,我们需要它们不仅仅充当计算器或百科全书。我们需要它们成为思考者。

NeoN 框架证明,古老的哲学原则可以转化为有效的提示工程策略。通过强迫模型经历正题-反题-合题的辩证过程,我们解锁了标准提示方法所遗漏的全面和创造性思维水平。

核心要点:

  1. 主观性很重要: 我们需要像 SJTP 这样的基准来衡量 AI 处理开放式、以人为本的问题的能力。
  2. 冲突创造质量: 否定之否定过程迫使模型挑战自己的偏见并寻找缺失的环节,从而产生更深刻的见解。
  3. 多功能性: 虽然是为哲学和辩论设计的,但这种方法也使模型更擅长发现自己代码中的错误或数学中的错误。

随着 LLM 的不断发展,像 NeoN 这样的框架表明,通往“超级智能”的道路可能不仅仅是更多的数据和算力,还有更好的思维方式——从我们过去的伟大哲学家那里借用一页。