在飞速发展的人工智能世界中,像 CLIP 这样的视觉语言模型 (VLM) 已成为明星。它们拥有一种惊人的能力,可以同时理解图像和文本,这使得它们能够在训练期间从未见过的物体上进行分类——这种能力被称为零样本推理 。
为了让这些模型表现得更好,研究人员使用了一种称为测试时提示微调 (Test-Time Prompt Tuning, TPT) 的技术。这种方法会动态地调整模型,使其适应特定的测试样本,而无需标记的训练数据。虽然 TPT 显著提高了准确性,但它带来了一个危险的副作用: 校准不佳 。
一个校准不佳的模型就像一个过度自信的学生,明明猜错了答案却坚称自己 100% 确定。在医学成像或自动驾驶等高风险领域,这种过度自信可能会带来灾难性的后果。我们需要的是知道自己何时不知道的模型。
在这篇文章中,我们将深入探讨一篇题为 “O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models” (O-TPT: 用于校准视觉语言模型测试时提示微调的正交性约束) 的论文。我们将探讨为什么当前的微调方法在校准方面表现不佳,以及一个几何概念——正交性——如何恢复这些强大 AI 系统的可信度。

如图 1 所示,我们今天要讨论的方法 (O-TPT,红色部分) 在各种数据集上的校准 (由 ECE 衡量) 方面都显著优于现有方法。
背景: VLM、提示与校准
要理解解决方案,我们首先需要了解问题的架构。
CLIP 如何工作
CLIP (对比语言-图像预训练) 主要由两部分组成: 图像编码器和文本编码器 。 它学会将图像及其对应的文本描述映射到一个共享的“嵌入空间”中。
- 如果一张狗的照片和文本“一张狗的照片”在这个空间中靠得很近,模型就会预测“狗”。
- 为了对图像进行分类,我们通常为每个可能的类别提供诸如“一张{类别}的照片”之类的提示,并查看哪一个与图像最匹配。
提示微调的兴起
手工制作提示 (例如,猜测“一张狗的照片”是否比“一张犬科动物的图片”效果更好) 是乏味的。 提示微调通过将提示标记视为可学习的向量来自动化这一过程。模型会学习最佳的“软提示”以最大化准确性。
测试时提示微调 (TPT) 更进一步。它会在推理过程中针对单个测试图像动态调整这些提示。它最小化预测的熵 (不确定性) ,本质上是在说: “调整提示,直到模型对其预测非常有信心。”
校准危机
虽然 TPT 使模型更准确,但简单地最小化不确定性会迫使模型变得过度自信 。 它会将预测概率推向 1.0 (100%) ,即使预测是错误的。
校准衡量的是预测的置信度与实际准确性的匹配程度。如果一个模型以 80% 的置信度预测某个类别,那么它在 80% 的情况下应该是正确的。我们使用预期校准误差 (Expected Calibration Error, ECE) 来衡量这种偏差。

在这个公式中:
- \(A_m\) 代表样本的“分箱” (例如,所有置信度为 80-90% 的预测) 。
- \(\text{acc}(A_m)\) 是这些样本的实际准确率。
- \(\text{conf}(A_m)\) 是模型预测的平均置信度。
- 我们希望这两者之间的差异为零。
洞察: 为什么现有方法会失败
以前修复 TPT 校准的尝试,如 C-TPT , 主要集中在“文本特征离散度”上。这个想法很简单: 在向量空间中将文本嵌入 (特征向量) 分散开来。假设是如果特征相距很远 (离散) ,模型就能更可靠地区分类别。
然而,O-TPT 的作者发现,简单的离散是不够的。在欧几里得距离 (空间距离) 上相距很远的向量,可能仍然具有非常相似的方向 (角度) 。
角度很重要
在像 CLIP 这样使用的高维空间中,向量之间的角度 (由余弦相似度衡量) 通常比距离更重要。
研究人员分析了文本特征的余弦相似度与校准误差 (ECE) 之间的关系。他们发现了强烈的相关性: 较低的余弦相似度 (意味着较大的角度分离) 会导致更好的校准。

如上图所示,导致较低平均余弦相似度 (y 轴底部) 的提示样式通常会产生较低的校准误差 (x 轴左侧) 。
通过观察不同提示的余弦相似度概率密度函数,这一洞察得到了进一步支持。

在图 2 中,代表较低 ECE (更好校准) 的曲线向左偏移,表明余弦相似度较低。这表明,要校准一个模型,我们不应该仅仅将特征从中心点“推开”;我们需要让它们指向不同的、正交的方向 。
核心方法: O-TPT
基于这些洞察,作者提出了 O-TPT (正交测试时提示微调) 。 其核心思想是在提示微调过程中施加正交性约束 。
视觉化差异
为了理解为什么正交性优于简单的离散,让我们在超球体 (为了简单起见,用圆形表示) 上进行几何比较。

在图 3 中:
- ATFD 优化 (C-TPT) : 这种方法试图将特征分散并远离质心。然而,如“失败案例”所示,特征可以在远离质心的同时仍然聚集在一个特定的角度区域内。它们没有利用圆的完整 360 度。
- 角度优化 (我们的方法/O-TPT) : 通过强制特征正交,该方法促使它们相互垂直。这自然地将它们均匀分布在角度空间中,确保了类别之间清晰的决策边界。
数学公式
我们如何强制神经网络学习正交向量?我们在损失函数中添加一个正则化项。
设 \(\mathbf{E}\) 为所有类别的文本特征矩阵。矩阵乘积 \(\mathbf{E}\mathbf{E}^T\) 代表每个文本特征之间的成对余弦相似度。
- 如果所有向量完全正交 (垂直) ,则不同向量的点积为 0,向量与其自身的点积为 1。
- 因此,对于完全正交的归一化向量,\(\mathbf{E}\mathbf{E}^T\) 应该等于单位矩阵 (\(I_C\)) 。
O-TPT 损失函数定义为:

分解如下:
- \(L_{TPT}\) : 提示微调的标准损失 (保持高准确率) 。
- \(\lambda\) : 平衡两个目标的超参数。
- \(\|\mathbf{E}\mathbf{E}^T - I_C\|^2\) : 这是正交性约束 。 每当文本特征彼此不正交时,它就会惩罚模型。
优化中的稳定性
这种约束的主要好处之一是稳定性。标准的 TPT 允许文本特征在微调期间随意漂移,通常会导致高余弦相似度 (特征相互坍塌) 。

图 4 跟踪了微调步骤中的平均余弦相似度。
- 绿色 (TPT) : 波动剧烈并向高相似度漂移 (对校准不利) 。
- 红色 (我们的方法) : 保持低且稳定的余弦相似度,非常接近理想状态,确保特征在角度上保持独特。
实验与结果
研究人员在广泛的数据集上测试了 O-TPT,包括 ImageNet、细粒度分类任务 (如花卉、食物和飞机) 以及分布外数据集 (以测试鲁棒性) 。他们将 O-TPT 与标准 TPT 和 C-TPT 进行了比较。
定量性能
结果显示在不牺牲准确性的情况下,校准性能得到了一致的提升。

在表 2 中,查看 ECE (预期校准误差) 行。
- TPT 通常具有非常高的 ECE (例如 ImageNet 上为 10.6,DTD 上为 21.2) ,表明严重的过度自信。
- C-TPT 显著改善了这一点。
- O-TPT (我们的方法) 在几乎每个类别中都实现了最低的 ECE,平均 ECE 为 4.23 , 而 TPT 为 11.6。
可靠性图
为了直观地展示校准是如何改善的,我们使用可靠性图。理想情况下,蓝色条形图 (输出) 应该与对角线 (完美校准) 完全对齐。粉色区域代表“差距”或误差。

在图 8 中,比较顶行 (C-TPT) 和底行 (O-TPT) :
- C-TPT 通常显示条形图在高置信度区域低于对角线,或出现不规则的差距。
- O-TPT 显示条形图更紧密地跟随对角线。粉色“差距”区域的减少直观地证实了 O-TPT 产生了更可靠的置信度估计。
与事后方法的比较
修复校准的一种常用方法是“温度缩放 (Temperature Scaling) ”,这是一种后处理步骤。然而,图 5 显示 O-TPT 的表现甚至优于结合了温度缩放的 TPT (TPT+Temp) 。

O-TPT (红色条纹柱) 在各个数据集上始终具有最低的柱高 (最低误差) 。
权衡: 准确性 vs. 校准
准确性和校准之间通常存在权衡。帕累托前沿分析使我们能够看到这种关系。我们希望方法处于左上角 (高准确率,低 ECE) 。

在图 10 中,相对于蓝色叉号 (TPT) 和绿色叉号 (C-TPT) ,黄色圆圈 (O-TPT) 始终出现在更有利的位置,表明其在准确性和可信度之间取得了更好的平衡。
结论
O-TPT 中提出的工作强调了机器学习中一个经常被忽视的关键方面,即在追求更高准确率的竞赛中: 几何很重要。
通过理解视觉语言模型中的文本特征需要明显的角度分离才能变得可靠,作者引入了一个简单但强大的正交性约束。这种方法迫使模型在嵌入空间中更有效地组织其知识。
主要收获:
- 测试时提示微调 (TPT) 提高了准确性,但破坏了校准,使模型变得危险地过度自信。
- 离散是不够的: 仅仅将特征推开不如确保它们指向不同的方向 (正交性) 有效。
- O-TPT 通过在微调过程中数学地强制正交性 (\(EE^T \approx I\)) 来解决这个问题。
- 结果是一个不仅准确而且值得信赖的模型——这是在现实世界中部署 AI 的关键要求。
随着我们继续在安全关键型应用中部署大型多模态模型,像 O-TPT 这样的技术对于确保 AI 在说“我确定”时是真正知道自己在说什么将至关重要。
](https://deep-paper.org/en/paper/2503.12096/images/cover.png)