在机器学习的理想世界中，数据是静态的。我们在数据集上训练模型，对其进行验证，然后部署，假设世界将永远像我们的训练集一样运行。但在现实世界中，数据是一股躁动不安的流。趋势在变，行为在变，我们要预测的类别的分布也会随时间剧烈波动。

想象一下运行在智能手机上的人类活动识别系统。在早晨通勤期间，模型会看到大量“走路”和“坐着”的数据。到了晚上的健身房，数据流变成了“跑步”和“跳跃”。而在深夜，则主要是“躺下”。传感器数据 (特征) 与活动 (标签) 之间的关系没有改变——跳跃仍然是跳跃——但这些标签出现的频率却发生了巨大的变化。

这种现象被称为在线标签偏移 (Online Label Shift, OnLS) 。适应这种变化极其困难，特别是因为我们在实时环境中无法享受拥有标记数据的奢侈。我们必须仅利用无标记的数据流“即时”调整我们的模型。

在这篇文章中，我们将深入探讨一篇 CVPR 论文，题为 “Label Shift Meets Online Learning: Ensuring Consistent Adaptation with Universal Dynamic Regret” (标签偏移遇上在线学习: 利用通用动态遗憾确保一致性适应) 。研究人员提出了一个名为 LASU 的稳健框架，它不仅能适应这些偏移，而且是在具有数学最优性保证的前提下进行的。

核心问题: 当世界发生变化时

要理解这篇论文的贡献，首先需要明确定义问题。在标签偏移场景中，我们假设条件分布 \(P(x|y)\) (给定类别时对象的样子) 保持不变，但边缘标签分布 \(P(y)\) (该类别的普遍程度) 会发生变化。

在在线设置中，这变成了一场噩梦，原因有二:

数据稀缺: 数据分批次到达 (流式) 。我们不能等到收集了海量数据集后再重新训练。
无标签: 我们看得到特征 (\(x\)) 却看不到标签 (\(y\)) 。我们必须纯粹从无标记数据中推断 \(P(y)\) 的偏移。

OnLS 和 LASU 协议的示意图。

如上图 1 所示，该设置涉及用于训练特征提取器和初始模型的初始标记数据集。一旦进入在线阶段 (图右侧) ，特征提取器就被冻结。无标记数据流源源不断地到达 (\(D_1, D_2, \dots\)) ，我们必须更新线性模型权重 (\(W_t\)) 以应对不断变化的标签分布。

传统方法的缺陷

以前解决这个问题的尝试只是简单地将离线方法套用到在线世界中。最常见的技术是黑盒偏移估计 (Black Box Shift Estimation, BBSE) 。其逻辑很简单: 如果我们知道分类器通常有多困惑 (通过混淆矩阵，\(C_f\)) ，并且我们观察到了它当前的预测 (\(P_{\hat{y}}\)) ，我们就可以从数学上逆向推导出真实的标签分布 (\(P_y\)) 。

这种关系由以下线性方程捕捉:

BBSE 关系的方程。

要找到真实的标签分布 \(P_{y_t}\)，只需对混淆矩阵求逆:

混淆矩阵求逆。

问题在于: 在在线数据流中，你可能一次只能看到 10 或 20 个样本。样本量如此之小，经验混淆矩阵或预测向量可能会充满噪声。基于稀疏数据对矩阵求逆通常会导致“奇异”矩阵 (无解) ，或者更糟糕的是，产生负概率 。

你不可能拥有负的类别发生概率。当这些负值被代入损失函数时，风险估计器就会变成非凸的 。用优化的术语来说，非凸损失函数是局部最优和不稳定性的雷区。它打破了在线学习所依赖的理论保证。

解决方案: 利用 LASU 实现一致性适应

研究人员提出了一种名为 LASU (Label Shift with Universal dynamic regret，具有通用动态遗憾的标签偏移) 的方法。它解决了非凸性问题，并提供了一种更新模型的强大方法。

第 1 部分: OSCM-L (估计器)

作者没有盲目地对矩阵求逆并祈祷好运，而是引入了 OSCM-L (最大化似然的在线软混淆矩阵) 。

关键的洞察是将问题视为一个统计估计任务。如果我们观察到 \(n_t\) 个针对不同类别的预测，那么看到这种特定预测分布的似然性服从多项分布 :

预测分布的似然性。

通过代入预测标签与真实标签之间的关系 (通过混淆矩阵) ，我们得到了真实标签分布 \(P_{y_t}\) 的似然函数:

真实标签分布的似然性。

我们的目标是找到最大化此似然性的分布 \(P_{y_t}\)。我们可以将其转换为对数似然最大化问题，这在数值上更加稳定:

对数似然方程。

因为我们在最大化似然性，所以我们自然地被约束在有效的概率分布内。我们不会得到负概率。为了解决这个优化问题，作者使用了投影梯度上升 (Projected Gradient Ascent) 。这是一个迭代过程，我们沿着梯度的方向迈出步伐，然后将结果“投影”回有效的概率单纯形 (确保所有值之和为 1 且保持正值) 。

更新规则如下所示:

投影梯度上升更新。

其中梯度的计算公式为:

梯度计算。

这为何重要? 通过使用 OSCM-L，估计出的标签分布 \(\hat{P}_{y_t}\) 保证是非负的。这使得研究人员能够构建一个有效的、凸的风险估计器:

凸风险估计器。

这个凸风险估计器 (\(\hat{R}_t\)) 是基础。它允许使用标准的凸优化框架可靠地优化模型，这是以前的方法无法保证的。

第 2 部分: 基学习器 (Opt-OMD)

既然有了有效的风险估计器，我们该如何更新模型权重？标准的在线梯度下降 (OGD) 是被动的——它只在错误发生后进行修正。

作者转而使用了乐观在线镜像下降 (Optimistic Online Mirror Descent, Opt-OMD) 。 “乐观”部分意味着算法尝试使用提示向量 \(M_t\) 预测下一个梯度。如果环境变化是渐进的 (这在标签偏移中很常见) ，那么当前步骤的损失就是下一步损失的良好预测指标。

更新包含两个步骤。首先是基于当前梯度的中间更新，其次是使用“乐观量”的最终更新:

Opt-OMD 更新规则。

与标准梯度下降相比，这种方法允许模型更快地适应数据流中的变化。

第 3 部分: 集成 (LASU)

还有最后一个障碍: 步长 (Step Size, \(\eta\)) 。在在线学习中，步长决定了模型适应的速度。

小步长: 稳定，但对突然的偏移反应迟钝。
大步长: 反应快，但不稳定且容易过拟合噪声。

由于标签偏移的强度是未知且不断变化的，选择单一的固定步长是不可能的。作者通过在线集成算法 (Online Ensemble Algorithm) 解决了这个问题。

他们并行运行多个 Opt-OMD 学习器实例，每个实例从候选池中使用不同的步长。然后，他们使用一种称为乐观对冲 (Optimistic Hedge) 的元算法来组合这些学习器的预测。

集成成员的权重是动态更新的。如果具有特定步长的学习器表现不佳 (损失高) ，其权重将呈指数级下降。

集成权重更新规则。

这使得系统能够自动“切换档位”。当标签分布稳定时，它偏向于步长较小的学习器。当发生突然偏移时，它会将权重转移给步长激进的学习器。

理论保证: 通用动态遗憾

这篇论文最强大的贡献之一是其理论分析。在在线学习中，我们使用“遗憾 (Regret) ”来衡量成功——即我们的总损失与我们事后诸葛亮地选择的最佳模型的损失之间的差异。

作者证明了 LASU 实现了通用动态遗憾 (Universal Dynamic Regret) 。

通用动态遗憾定义。

具体来说，他们推导出了一个取决于两个关键因素的界限:

路径变异 (Path Variation, \(P_T\)) : 最优模型参数随时间变化的程度。
标签偏移度量 (Label Shift Measure, \(V_T\)) : 标签分布变化的剧烈程度。

该界限表述为:

遗憾界限方程。

这个结果是极小极大最优 (minimax optimal) 的，意味着在最坏的情况下，没有任何算法能 (在数量级上) 做得更好。这为该方法提供了强大的理论安全网。

实验验证

理论虽好，但实际效果如何？作者在标准基准 (MNIST, CIFAR-10, EuroSAT) 和真实世界的人类动作检测数据集 (SHL) 上测试了 LASU。他们模拟了各种类型的偏移: 线性趋势、突然的伯努利翻转和正弦波。

整体表现

结果是决定性的。下表将 LASU 与 ROGD、ATLAS 等最先进的方法以及弱基准 (Fixed) 进行了比较。

整体结果表。

关键要点: LASU 在几乎所有类别中都实现了最低的平均误差。在某些情况下，例如带有伯努利偏移的 CIFAR-10，它将误差从约 10-15% (竞争对手) 降低到了 9.68%。

自适应步长的重要性

作者可视化了为什么集成方法是必要的。下图展示了具有固定步长的单个 Opt-OMD 学习器 (彩色线) 与集成 LASU (黑线) 的性能对比。

不同步长与 LASU 的性能对比。

请注意，某些步长的表现非常糟糕 (高误差) ，而另一些则不错。黑线 (LASU) 始终紧贴底部，有效地匹配了最佳单一特定步长的性能，且无需预先知道哪个步长最好。

可视化集成的运作

集成是如何决定信任哪个步长的？作者绘制了随时间变化的集成内部权重。

随时间变化的集成权重。

在图表 (a) (线性偏移) 中，偏移是渐进的。你可以看到权重在分布并稳定下来。在图表 (b) (伯努利偏移) 中，偏移是剧烈且突然的。注意权重是如何积极反应的。模型迅速识别出当前步长不足，并将信任重新分配给能够处理这种波动性的学习器。

对样本量的鲁棒性

该论文的一个主要主张是，OSCM-L 处理小样本量的能力优于矩阵求逆。实验证实了这一点。随着在线样本量 (批次大小) 下降到低至 1 或 2，ROGD 和 ATLAS 等竞争方法的性能显著退化。

样本量鲁棒性。

LASU (红线) 即使在数据极度稀缺的情况下也能保持优越的性能，验证了最大似然估计方法的鲁棒性。

结论

论文 “Label Shift Meets Online Learning” 解决了现实世界 AI 部署中的一个普遍问题。通过摒弃脆弱的矩阵求逆技术并采用最大似然 (OSCM-L) 方法，作者确保了风险估计器保持凸性和一致性。

结合乐观镜像下降策略和步长集成 , LASU 提供了一种“一劳永逸”的解决方案，既能适应数据分布的缓慢漂移，也能适应突然的跳变。

对于学生和从业者来说，这项工作强调了一个至关重要的教训: 假设很重要。 简单地将离线有效的方法 (如 BBSE) 应用到在线环境中可能会导致数学矛盾 (负概率) 。通过重新设计估计器以尊重在线环境的约束，我们可以构建不仅在经验上更好，而且在理论上可靠的系统。

核心问题: 当世界发生变化时#

传统方法的缺陷#

解决方案: 利用 LASU 实现一致性适应#

第 1 部分: OSCM-L (估计器)#

第 2 部分: 基学习器 (Opt-OMD)#

第 3 部分: 集成 (LASU)#

理论保证: 通用动态遗憾#

实验验证#

整体表现#

自适应步长的重要性#

可视化集成的运作#

对样本量的鲁棒性#

结论#