想象一下,你正在使用一个大型语言模型 (LLM) 来辅助医疗诊断或查询复杂的法律判例。模型给出了一个置信度高达 99% 的答案。你信任了它,采取了行动,结果后来发现它完全错了。这就是在高风险环境中部署 AI 的噩梦场景。
我们通常根据准确率 (Accuracy) ——即它答对的频率——来评估 LLM。但还有一个同样重要却经常被忽视的指标: 可信度 (Trustworthiness) 。 一个值得信赖的模型不仅仅是正确的;它还是一个知道自己何时可能出错的模型。它的置信度水平应该与实际的正确率相匹配。
在近期一篇题为 “FIRST: Teach A Reliable Large Language Model Through Efficient Trustworthy Distillation” (FIRST: 通过高效可信蒸馏教导可靠的大型语言模型) 的论文中,来自香港科技大学和武汉大学的研究人员解决了这个确切的问题。他们提出了一个名为 FIRST (eFfIcient tRustworthy disTillation,高效可信蒸馏) 的新框架,该框架能够创建更小、更高效的模型,这些模型不仅准确,而且对自己不确定的事物非常诚实。
在这篇文章中,我们将详细拆解为什么现代微调方法会制造出过度自信的“骗子”,以及 FIRST 方法如何利用知识蒸馏和校准的巧妙结合来解决这个问题。

问题所在: 微调引发的误校准
要理解解决方案,我们首先必须了解目前训练特定模型的方法中存在的缺陷。
如今大多数可用的 LLM 都是从大规模预训练的基础模型开始的。为了使它们对特定任务有用 (如遵循指令或回答问题) ,我们会进行微调 (Fine-Tuning) 。 这涉及在包含问题和正确答案的数据集上训练模型。
虽然微调对于提高准确率非常有效,但研究人员发现了一个严重的副作用: 微调引发的误校准 (Tuning-Induced Mis-calibration) 。
什么是校准?
校准 (Calibration) 是指模型的预测置信度与其际准确率之间的关系。
- 完美校准: 如果模型做出了 100 次预测,每次的置信度都是 80%,那么其中应该恰好有 80 次是正确的。
- 过度自信 (Over-confidence) : 模型以 90% 的置信度进行预测,但实际上只有 60% 的正确率。
- 欠自信 (Under-confidence) : 模型以 40% 的置信度进行预测,但实际上有 80% 的正确率。
研究人员发现,标准的微调会将模型推向过度自信 。 在训练过程中,除非模型将 1.0 (100%) 的概率分配给正确的 Token,并将 0.0 分配给其他所有 Token,否则就会受到惩罚。这迫使模型变得“傲慢”。

如上图 图 3 所示,请看图表 (b) 中的微调后小模型。蓝色条 (准确率) 在首选答案上很高,但模型表现出极度的过度自信 (绿色区域) 。它认为自己正确的次数远多于实际情况。这使得该模型在决策中变得不可靠。
解决方案: 蒸馏
如果微调破坏了校准,我们该如何修复它?答案在于知识蒸馏 (Knowledge Distillation) 。
在蒸馏中,我们不是在硬答案 (是/否) 上训练小型“学生”模型,而是训练它模仿大型“教师”模型的行为。教师模型提供概率分布——即软标签 (soft labels) 。例如,教师模型不会说答案 100% 是“狗”,而可能会说 85% 是“狗”,10% 是“猫”,5% 是“狼”。
这种细微差别有助于学生学习概念之间的关系。然而,标准蒸馏面临两大障碍:
- 低效: 存储和计算教师模型词汇表 (可能超过 50,000 个 Token) 的完整概率分布在计算上极其昂贵。
- 糟糕的教师: 如果教师模型本身经过了微调,它很可能也是校准不良的。如果学生模仿了一个校准不良的教师,学生也会变得校准不良。
FIRST 方法同时解决了这两个问题。
FIRST: 高效可信蒸馏
FIRST 框架建立在两个关键见解之上: 集中知识 (Concentrated Knowledge) (解决效率问题) 和可信度最大化 (Trustworthy Maximization) (解决校准问题) 。
见解 1: 集中知识 (效率)
我们真的需要教师模型对字典中所有 50,000 个单词的看法来教导学生吗?研究人员发现,答案是明确的“不需要”。
在 LLM 中,概率分布是高度偏斜的。关于特定预测的绝大多数“知识”都包含在前几个 Token 中。

如 图 2 所示,仅 Top-5 Token (红点) 就占据了超过 95% 的累积概率质量 。 其余数以万计的 Token 包含的信息微乎其微 (概率接近于零) 。
通过只关注 Top-5 Token , FIRST 方法大幅减少了存储和计算开销。对于一个标准数据集,存储完整分布可能需要 120 TB , 而存储 Top-5 仅需 1.2 GB 。 这使得无需庞大的基础设施即可进行高端蒸馏。
见解 2: 可信度最大化 (校准)
既然我们选择了 Top-5 Token,我们就必须解决第二个问题: 教师模型可能会“幻觉般地”产生自信。如果教师模型说 Top-1 Token 的概率是 99%,但实际上应该是 80%,我们不希望学生学到这种坏习惯。
这就是可信度最大化步骤发挥作用的地方。在将知识传递给学生之前,研究人员会对教师的概率进行转换以“重新校准”它们。
研究人员比较了两种方法:
- 标签平滑 (Label Smoothing) : 简单地从最高预测值中减去一个固定值,并将其加到其他预测值上。
- 温度缩放 (Temperature Scaling) : 一种更动态的方法,基于全局参数“软化”分布。
他们发现温度缩放效果更好。公式如下:

这里,\(P_T(i)\) 是 Token \(i\) 的概率,\(c\) 是温度参数。
- 如果 \(c > 1\),分布变平坦 (置信度降低) 。
- 如果 \(c < 1\),分布变尖锐 (置信度增加) 。
团队在验证集上运行网格搜索,以找到能最小化校准误差的最佳温度 \(c\)。这有效地在学生看到数据之前“修复”了教师的过度自信。
完整流程
综上所述, FIRST 的流程如下:

- 微调教师模型: 从一个大模型开始。
- 生成 Top-5: 仅提取前 5 个概率 (集中知识) 。
- 优化温度: 在验证集上找到最佳温度 \(c\) 以最小化误差。
- 知识匹配: 训练学生模型,使其预测与重新校准后的教师预测之间的差异 (KL 散度) 最小化。
用于训练学生模型的损失函数是 Kullback–Leibler 散度:

实验结果: 它有效吗?
研究人员在多个数据集 (CommonsenseQA, BoolQ, Alpaca) 上测试了 FIRST,并与标准微调和直接蒸馏 (无重新校准) 进行了对比。
为了评估成功与否,他们使用了两个主要指标。 首先是预期校准误差 (ECE) 。 它衡量置信度与准确率之间的平均差距。数值越低越好。

其次,他们引入了一个名为信任分数 (Trust Score) 的综合指标,结合了准确率和校准度。

性能比较
结果总结在 表 1 中,非常引人注目。

数据中的关键要点:
- 微调不可靠: 看看 “Fine-tune 7B” 这一行。虽然准确率还不错,但 ECE (误差) 很高,导致信任分数较低。
- FIRST 表现优越: “FIRST 7B w/ TS” (温度缩放) 这一行始终达到最低的 ECE 和最高的信任分数 。
- 域外泛化: 表格右侧显示了模型在未训练过的数据集上的测试结果。微调模型在这里表现崩溃 (ECE 飙升至 21.9%) ,但 FIRST 模型保持了低误差 (7.1%) ,证明它更好地泛化了不确定性的概念。
可视化可靠性
表格中的数字是一回事,但可靠性图 (Reliability Diagrams) 能描绘出更清晰的画面。在这些图表中,一个完美的模型应该遵循对角虚线。虚线以下的条形表示过度自信。

- Fine-tune 7B (第二个图表) : 巨大的绿色条形表示严重的过度自信。模型几乎总是确信自己是对的,即使它错了。
- FIRST 7B (最右侧) : 条形紧贴对角线。绿色 (过度自信) 和红色 (欠自信) 区域极小。这个模型本质上是在说: “我有 60% 的把握”,并且它实际上有 60% 的概率是正确的。
为什么要用温度缩放?
为什么研究人员选择温度缩放而不是简单的标签平滑?
标签平滑 (如下公式) 是僵化的。无论上下文如何,它都减去一个固定的 \(\delta\)。

然而,温度缩放保留了 Token 的相对排名,并调整了分布的形状。研究人员在验证集上优化了温度系数 \(c\)。如 图 6 所示,找到那个“最佳点” (在本测试中约为 0.3) 可以大幅降低测试集上的校准误差。

结论
FIRST 框架代表了使大型语言模型能够安全应用于现实世界的重要一步。通过承认仅有准确率是不够的 , 研究人员提供了一个蓝图,用于创建对自己局限性有自我意识的模型。
该方法简洁而优雅:
- 不使用所有数据 (Top-5 就足够了) 。
- 不盲目信任教师 (使用温度缩放重新校准) 。
对于学生和从业者来说,这篇论文强调了一个至关重要的教训: 标准的微调指标可能具有欺骗性。一个准确率 90% 但自信度 100% 的模型是一个累赘。一个准确率 90% 且自信度也为 90% 的模型才是你可以实际使用的工具。通过像 FIRST 这样的方法,我们可以构建赢得我们信任的 AI——不是通过完美,而是通过诚实。
](https://deep-paper.org/en/paper/2408.12168/images/cover.png)