想象一下,你正在使用一个大型语言模型 (LLM) 来辅助医疗诊断或查询复杂的法律判例。模型给出了一个置信度高达 99% 的答案。你信任了它,采取了行动,结果后来发现它完全错了。这就是在高风险环境中部署 AI 的噩梦场景。

我们通常根据准确率 (Accuracy) ——即它答对的频率——来评估 LLM。但还有一个同样重要却经常被忽视的指标: 可信度 (Trustworthiness) 。 一个值得信赖的模型不仅仅是正确的;它还是一个知道自己何时可能出错的模型。它的置信度水平应该与实际的正确率相匹配。

在近期一篇题为 “FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation” (FIRST: 通过高效可信蒸馏教导可靠的大型语言模型) 的论文中,来自香港科技大学和武汉大学的研究人员解决了这个确切的问题。他们提出了一个名为 FIRST (eFfIcient tRustworthy disTillation,高效可信蒸馏) 的新框架,该框架能够创建更小、更高效的模型,这些模型不仅准确,而且对自己不确定的事物非常诚实。

在这篇文章中,我们将详细拆解为什么现代微调方法会制造出过度自信的“骗子”,以及 FIRST 方法如何利用知识蒸馏和校准的巧妙结合来解决这个问题。

图 1: 一个值得信赖的模型应该既准确 (左) 又校准良好 (右) 。一个校准良好的模型应该对正确答案产生高概率,对错误答案产生低概率。

问题所在: 微调引发的误校准

要理解解决方案,我们首先必须了解目前训练特定模型的方法中存在的缺陷。

如今大多数可用的 LLM 都是从大规模预训练的基础模型开始的。为了使它们对特定任务有用 (如遵循指令或回答问题) ,我们会进行微调 (Fine-Tuning) 。 这涉及在包含问题和正确答案的数据集上训练模型。

虽然微调对于提高准确率非常有效,但研究人员发现了一个严重的副作用: 微调引发的误校准 (Tuning-Induced Mis-calibration)

什么是校准?

校准 (Calibration) 是指模型的预测置信度与其际准确率之间的关系。

  • 完美校准: 如果模型做出了 100 次预测,每次的置信度都是 80%,那么其中应该恰好有 80 次是正确的。
  • 过度自信 (Over-confidence) : 模型以 90% 的置信度进行预测,但实际上只有 60% 的正确率。
  • 欠自信 (Under-confidence) : 模型以 40% 的置信度进行预测,但实际上有 80% 的正确率。

研究人员发现,标准的微调会将模型推向过度自信 。 在训练过程中,除非模型将 1.0 (100%) 的概率分配给正确的 Token,并将 0.0 分配给其他所有 Token,否则就会受到惩罚。这迫使模型变得“傲慢”。

图 3: “微调引发的误校准”: (a) 微调后的教师模型和 (b) 微调后的小模型的位置预测概率与对应的实际准确率。

如上图 图 3 所示,请看图表 (b) 中的微调后小模型。蓝色条 (准确率) 在首选答案上很高,但模型表现出极度的过度自信 (绿色区域) 。它认为自己正确的次数远多于实际情况。这使得该模型在决策中变得不可靠。

解决方案: 蒸馏

如果微调破坏了校准,我们该如何修复它?答案在于知识蒸馏 (Knowledge Distillation)

在蒸馏中,我们不是在硬答案 (是/否) 上训练小型“学生”模型,而是训练它模仿大型“教师”模型的行为。教师模型提供概率分布——即软标签 (soft labels) 。例如,教师模型不会说答案 100% 是“狗”,而可能会说 85% 是“狗”,10% 是“猫”,5% 是“狼”。

这种细微差别有助于学生学习概念之间的关系。然而,标准蒸馏面临两大障碍:

  1. 低效: 存储和计算教师模型词汇表 (可能超过 50,000 个 Token) 的完整概率分布在计算上极其昂贵。
  2. 糟糕的教师: 如果教师模型本身经过了微调,它很可能也是校准不良的。如果学生模仿了一个校准不良的教师,学生也会变得校准不良。

FIRST 方法同时解决了这两个问题。

FIRST: 高效可信蒸馏

FIRST 框架建立在两个关键见解之上: 集中知识 (Concentrated Knowledge) (解决效率问题) 和可信度最大化 (Trustworthy Maximization) (解决校准问题) 。

见解 1: 集中知识 (效率)

我们真的需要教师模型对字典中所有 50,000 个单词的看法来教导学生吗?研究人员发现,答案是明确的“不需要”。

在 LLM 中,概率分布是高度偏斜的。关于特定预测的绝大多数“知识”都包含在前几个 Token 中。

图 2: 带范围的蓝线显示了从 Top-1 到 Top-100 每个 Token 条目的平均累积概率覆盖率。“知识集中”: 红点表示 Top-5 Token 的累积概率已超过 95%。绿线描述了如果在蒸馏过程中使用 Top-K Token 分布时的磁盘使用情况。

图 2 所示,仅 Top-5 Token (红点) 就占据了超过 95% 的累积概率质量 。 其余数以万计的 Token 包含的信息微乎其微 (概率接近于零) 。

通过只关注 Top-5 Token , FIRST 方法大幅减少了存储和计算开销。对于一个标准数据集,存储完整分布可能需要 120 TB , 而存储 Top-5 仅需 1.2 GB 。 这使得无需庞大的基础设施即可进行高端蒸馏。

见解 2: 可信度最大化 (校准)

既然我们选择了 Top-5 Token,我们就必须解决第二个问题: 教师模型可能会“幻觉般地”产生自信。如果教师模型说 Top-1 Token 的概率是 99%,但实际上应该是 80%,我们不希望学生学到这种坏习惯。

这就是可信度最大化步骤发挥作用的地方。在将知识传递给学生之前,研究人员会对教师的概率进行转换以“重新校准”它们。

研究人员比较了两种方法:

  1. 标签平滑 (Label Smoothing) : 简单地从最高预测值中减去一个固定值,并将其加到其他预测值上。
  2. 温度缩放 (Temperature Scaling) : 一种更动态的方法,基于全局参数“软化”分布。

他们发现温度缩放效果更好。公式如下:

温度缩放公式

这里,\(P_T(i)\) 是 Token \(i\) 的概率,\(c\) 是温度参数。

  • 如果 \(c > 1\),分布变平坦 (置信度降低) 。
  • 如果 \(c < 1\),分布变尖锐 (置信度增加) 。

团队在验证集上运行网格搜索,以找到能最小化校准误差的最佳温度 \(c\)。这有效地在学生看到数据之前“修复”了教师的过度自信。

完整流程

综上所述, FIRST 的流程如下:

图 4: 整体高效可信蒸馏流程。

  1. 微调教师模型: 从一个大模型开始。
  2. 生成 Top-5: 仅提取前 5 个概率 (集中知识) 。
  3. 优化温度: 在验证集上找到最佳温度 \(c\) 以最小化误差。
  4. 知识匹配: 训练学生模型,使其预测与重新校准后的教师预测之间的差异 (KL 散度) 最小化。

用于训练学生模型的损失函数是 Kullback–Leibler 散度:

损失函数公式

实验结果: 它有效吗?

研究人员在多个数据集 (CommonsenseQA, BoolQ, Alpaca) 上测试了 FIRST,并与标准微调和直接蒸馏 (无重新校准) 进行了对比。

为了评估成功与否,他们使用了两个主要指标。 首先是预期校准误差 (ECE) 。 它衡量置信度与准确率之间的平均差距。数值越低越好。

ECE 公式

其次,他们引入了一个名为信任分数 (Trust Score) 的综合指标,结合了准确率和校准度。

信任分数公式

性能比较

结果总结在 表 1 中,非常引人注目。

表 1: 通过我们的方法 FIRST 获得的小型模型在各种场景下始终能达到高准确率 Acc,同时保持较低的预期校准误差 ECE。

数据中的关键要点:

  1. 微调不可靠: 看看 “Fine-tune 7B” 这一行。虽然准确率还不错,但 ECE (误差) 很高,导致信任分数较低。
  2. FIRST 表现优越: “FIRST 7B w/ TS” (温度缩放) 这一行始终达到最低的 ECE最高的信任分数
  3. 域外泛化: 表格右侧显示了模型在未训练过的数据集上的测试结果。微调模型在这里表现崩溃 (ECE 飙升至 21.9%) ,但 FIRST 模型保持了低误差 (7.1%) ,证明它更好地泛化了不确定性的概念

可视化可靠性

表格中的数字是一回事,但可靠性图 (Reliability Diagrams) 能描绘出更清晰的画面。在这些图表中,一个完美的模型应该遵循对角虚线。虚线以下的条形表示过度自信。

图 5: 基于 Llama-1 的可靠性图揭示了各种模型在 CSQA 数据集上的误校准情况。

  • Fine-tune 7B (第二个图表) : 巨大的绿色条形表示严重的过度自信。模型几乎总是确信自己是对的,即使它错了。
  • FIRST 7B (最右侧) : 条形紧贴对角线。绿色 (过度自信) 和红色 (欠自信) 区域极小。这个模型本质上是在说: “我有 60% 的把握”,并且它实际上有 60% 的概率是正确的。

为什么要用温度缩放?

为什么研究人员选择温度缩放而不是简单的标签平滑?

标签平滑 (如下公式) 是僵化的。无论上下文如何,它都减去一个固定的 \(\delta\)。

标签平滑公式

然而,温度缩放保留了 Token 的相对排名,并调整了分布的形状。研究人员在验证集上优化了温度系数 \(c\)。如 图 6 所示,找到那个“最佳点” (在本测试中约为 0.3) 可以大幅降低测试集上的校准误差。

图 6: 左图显示了验证集上不同平滑系数的比较,右图展示了其在测试集上对应的校准效果。

结论

FIRST 框架代表了使大型语言模型能够安全应用于现实世界的重要一步。通过承认仅有准确率是不够的 , 研究人员提供了一个蓝图,用于创建对自己局限性有自我意识的模型。

该方法简洁而优雅:

  1. 不使用所有数据 (Top-5 就足够了) 。
  2. 不盲目信任教师 (使用温度缩放重新校准) 。

对于学生和从业者来说,这篇论文强调了一个至关重要的教训: 标准的微调指标可能具有欺骗性。一个准确率 90% 但自信度 100% 的模型是一个累赘。一个准确率 90% 且自信度也为 90% 的模型才是你可以实际使用的工具。通过像 FIRST 这样的方法,我们可以构建赢得我们信任的 AI——不是通过完美,而是通过诚实。