超越聊天机器人: 解锁大语言模型隐藏的分类能力

当我们提到像 GPT-4 或 Llama 这样的大语言模型 (LLM) 时,我们通常会想到生成 。 我们会用它们来写邮件、调试代码或创作诗歌。但在自然语言处理 (NLP) 领域,有一个庞大的子集,其核心不在于生成,而在于精准度: 分类

一个设计用来闲聊的模型,真的能成为一个严谨的分类器吗?

这正是一篇引人入胜的研究论文的核心问题,论文题为 “Are Large Language Models Good Classifiers?” (大语言模型是好的分类器吗?) 。研究人员深入探讨了编辑意图分类 (Edit Intent Classification, EIC) ——这是一项复杂的任务,旨在理解作者为什么修改一个句子。

在这篇文章中,我们将拆解他们提出的将生成式模型转化为判别式分类器的新颖框架,探索他们测试的架构,并看看他们如何使用最佳模型构建了一个庞大的科学论文修订数据集。

框架概览及 Re3-Sci2.0 数据集工作流程。

如上图 1 所示,这项研究不仅仅关于建模,它是一个完整的流程。研究人员 (1) 开发了一个框架来测试 LLM 作为分类器的能力, (2) 使用胜出的模型构建了一个名为 Re3-Sci2.0 的数据集,以及 (3) 分析了科学论文中的人类编辑行为。

让我们深入探讨一下。


问题所在: 为什么 LLM 难以进行分类

在过去,如果你想对文本进行分类 (例如情感分析) ,你会使用像 BERT 这样的模型。通过微调,它就能给你一个标签。

随着 LLM 的兴起,范式发生了转变。使用 LLM 进行分类的标准方法是生成式 (Generative, Gen) : 你给模型一个提示词,比如“这句话是高兴还是难过?”,然后希望它生成文本字符串“高兴”。

然而,这种方法存在缺陷:

  1. 幻觉 (Hallucination) : 模型可能会生成不在允许标签列表中的文本。
  2. 低效 (Inefficiency) : 逐个 token 生成文本在计算上比直接输出概率向量要慢。
  3. 提示敏感性 (Prompt Sensitivity) : 性能会因指令措辞的不同而剧烈波动。

研究人员选择了编辑意图分类 (EIC) 作为测试场。EIC 极其困难,因为模型必须比较句子的两个版本 (旧版 vs 新版) ,并判断修改是为了语法清晰度事实/证据观点/主张,还是其他。这需要对细微差别有深刻的理解,是对 LLM 的完美压力测试。


核心方法: 微调框架

这篇论文的核心是一个超越简单提示工程的系统化框架。研究人员提出了四种不同的方法来微调 LLM 以用于分类任务。

展示四种方法的图表: Gen, SeqC, SNet, 和 XNet。

图 2 概述了这四种方法。让我们逐一分解它们的工作原理。

1. 方法 Gen: 标准的生成式路线

如上图中 (a) 所示,这是“经典”的 LLM 用法。你向模型输入指令、旧句子 (\(S_o\)) 和新句子 (\(S_n\))。模型经过微调,以生成标签字符串 (例如“Grammar”) 作为输出。

虽然直观,但这种方法受困于“答案包含率 (Answer Inclusion Rate) ”问题——有时模型根本不会输出一个有效的标签。

2. 方法 SeqC: 序列分类

(b) 所示,这种方法将 LLM 视为编码器 (类似于 BERT) 。研究人员不再要求模型一个词,而是提取最后一个 token 的隐藏状态 (通常是序列结束 token) 。

他们在这个嵌入 (embedding) 之上附加了一个简单的线性分类层。模型将其对文本的高维理解直接映射为标签的概率分布。这完全消除了模型“闲聊”而非分类的风险。

3. 方法 SNet: 孪生网络

(c) 所示,这种架构专门设计用于比较两个输入。

  1. 旧句子 (\(S_o\)) 通过 LLM。
  2. 新句子 (\(S_n\)) 通过同一个 LLM (概念上是“双胞胎”或孪生网络) 。
  3. 我们提取两者的嵌入。
  4. 这两个嵌入在进入分类器之前,会通过一个变换函数 (Transformation Function,详见下文) 进行组合。

这种方法将两个句子的处理分离开来,迫使模型在比较之前先分别理解它们。

4. 方法 XNet: 交叉网络

(d) 所示,这是一种混合体。两个句子同时被输入到一个 LLM 中 (允许自注意力机制同时观察两个句子) 。然而,系统并不生成文本,而是提取旧句子和新句子特定结束 token 的嵌入。然后通过变换函数将这两个嵌入组合起来。

核心奥义: 变换函数

对于 SNetXNet , 模型最终会得到两个向量: \(o\) (旧句子的表示) 和 \(n\) (新句子的表示) 。我们该如何组合它们来找到编辑的“意图”?

研究人员提出了五个数学函数来合并这些向量 (\(u\) 是最终的组合向量) 。

1. 差值 (\(f_{diff}\)) 这捕捉了方向性的变化向量。如果你把句子看作空间中的点,这个向量指向从旧含义到新含义的方向。 简单差值的公式。

2. 绝对差值 (\(f_{diffABS}\)) 有时方向不如变化的幅度重要。这捕捉了句子之间的“距离”,而不考虑方向。 绝对差值的公式。

3. 新句 + 绝对差值 (\(f_{n-diffABS}\)) 这将新句子的表示与绝对差值拼接 (concatenate) 在一起。这为分类器提供了关于句子最终状态以及变化幅度的上下文。 拼接新句和绝对差值的公式。

4. 新句 + 旧句 (\(f_{n-o}\)) 简单地拼接两个嵌入。 拼接新句和旧句的公式。

5. 全部组合 (\(f_{n-diffABS-o}\)) 这将所有内容混合在一起: 新句子、差值和旧句子。 组合新句、差值和旧句的公式。


实验与结果: 谁是赢家?

研究人员使用 Llama-2 (7B 和 13B) 、Llama-3 (8B) 、Mistral 以及较旧的预训练模型 (PLM) 如 RoBERTa 和 T5 测试了这些方法。

关于方法的结论

结果令人信服。 方法 SeqC (序列分类) 脱颖而出成为赢家。

为什么?事实证明,LLM 是极其强大的编码器。当你剥离生成头,仅使用带有线性分类器的内部表示时,你会得到:

  1. 最先进的 (SOTA) 准确率: 它优于生成式方法和传统的 PLM。
  2. 100% 可靠性: 因为它是分类层,它总是输出一个有效的标签 (完美的答案包含率) 。
  3. 速度: 它明显更快。

效率、性能和答案包含率的比较。

图 3 使用 Llama2-13B 完美地展示了这种权衡。请看 SeqC 的数据点:

  • 性能 (蓝色) : 组内最高 (约 85%) 。
  • 效率 (红色) : 远高于 Gen。因为它不需要自回归地生成 token,所以每秒处理的样本数要多得多。
  • AIR (黄色) : 完美的 100%。

相比之下,请看 Gen 。 它很慢 (在这个相对刻度上是负效率分) ,且性能较低。

关于变换函数的结论

对于孪生网络和交叉网络, 绝对差值 (\(f_{diffABS}\))拼接差值 (\(f_{n-diffABS}\)) 函数表现最好。这证实了直觉: 要理解编辑,模型明确需要知道嵌入向量之间的差异

泛化能力

为了证明这并非侥幸,他们在其他五个数据集上 (如识别重复问题或情感分类) 测试了这些发现。模式依然成立: 通过 SeqC 微调的 LLM 始终达到了 SOTA 结果 , 击败了完全微调的 RoBERTa 模型。


应用: Re3-Sci2.0 数据集

确定了最佳模型 (使用 SeqC 的 Llama2-13B) 后,研究人员将其投入使用。他们处理了数千篇科学论文,创建了 Re3-Sci2.0 , 这是一个包含 1,780 篇文档修订版和超过 94,000 个标注编辑的数据集。

这个数据集让我们得以一窥科学家的思维。他们是如何修改论文的?

科学家在哪里进行编辑?

编辑位置的热力图。

图 4 显示了论文不同部分 (从 0% 到 100% 的文档长度归一化) 的编辑分布。

  • NLP 论文 (第一行,第一列) : 注意到最后那里的峰值了吗?NLP 研究人员倾向于大量修改他们的结论和讨论部分,经常改变观点/主张 (绿色) 和证据 (黄色) 。
  • 医学论文 (中间行) : 编辑分布更均匀,但在“结果”部分 (70-90% 范围) 显示出强度。

他们编辑了什么?

编辑类型的条形图。

图 5 分解了编辑的类型

  • 清晰度 (红色)语法 (蓝色) 是所有领域中最常见的修改。
  • 社会科学 (soc)NLP 在删除方面有所不同。NLP 作者经常删除事实/证据 (也许是删除了过时的基线?) ,而社会科学作者则侧重于提炼观点/主张 (绿色) 。

成功 vs 失败

也许最有趣的发现是编辑与成功之间的相关性。研究人员比较了同行评审分数提高的论文与没有提高的论文。

他们发现, 成功的修订包含:

  • 总编辑次数显著更多。
  • 侧重于清晰度和修改观点/主张
  • 增加新的事实/证据

仅仅修正语法并不是论文成功的统计显著预测因子。审稿人想要的是更清晰的论点和更多的证据,而不仅仅是更好的标点符号!


结论

这篇论文挑战了 LLM 仅用于聊天的假设。它证明了当我们把 LLM 视为强大的编码器并将其封装在分类框架 (特别是 SeqC )中时,它们在准确性、可靠性和推理速度上都优于传统方法。

这项研究为学生和从业者提供了一个清晰的启示: 如果你需要对复杂的文本数据进行分类,不要只让 ChatGPT 生成一个标签。 使用分类头微调开源 LLM (如 Llama-3 或 Mistral) 是一个更稳健的策略。

此外, Re3-Sci2.0 数据集的发布为“科学学 (Science of Science) ”打开了新的大门——即利用 NLP 来理解科学知识是如何通过修订过程演变的。

本文总结了 Ruan, Kuznetsov 和 Gurevych 的研究。有关完整的数学细节和实验设置,请参阅原始论文。