人工智能领域的龟兔赛跑：渐进式学习如何让视觉 AI 更快

多模态大语言模型 (MLLM) 正在重塑我们与人工智能的交互方式。像 LLaVA 这样的模型能够观察一幅图像并就其内容展开对话——这结合了计算机视觉的“看”的能力与大语言模型 (LLM) 的推理能力。它们就像高性能跑车: 在赛道上表现惊人，但消耗的燃料——在这里指计算资源——速度也同样惊人。

主要的资源消耗来自哪里？庞大的 视觉 token 数量。一个文本提示可能只有几十个 token，但一张图片通常会被分解成 数百个，而高分辨率图像或多帧视频会让这个数量进一步激增。这种数据洪流造成了计算瓶颈，拖慢推理速度并占用了大量内存。

一个自然的解决方法是使用更少的视觉 token，这个过程被称为 token 压缩。有些方法无需重新训练就直接丢弃或合并 token——部署起来很快，但性能通常会骤降。更高级的方法则通过重新训练来适应减少后的 token，有时会增加新模块或改变模型架构。

但这里有一个隐藏的挑战: 在训练中激进地压缩 token，就像要求一个学生在没掌握代数的情况下就去学微积分。跨度太大了，学生——就像模型一样——会迷失方向。当一个在全量 token 上训练的 MLLM 突然被强制使用一小部分 token 工作时，其内部表示会失去平衡。训练过程会步履蹒跚，常常陷入次优解。

一篇新论文 **“Efficient Multi-modal Large Language Models via Progressive Consistency Distillation” **(《通过渐进式一致性蒸馏实现高效多模态大语言模型》) 针对这一学习难题提出了一个巧妙的解决方案。它没有采取巨大的飞跃，而是应用了一种 渐进、循序渐进的训练策略——证明了在追求效率的竞赛中，稳扎稳打的乌龟确实能战胜兔子。

挑战: 在变化的景观中导航

想象一下，训练过程就像穿越一片 损失景观——一个丘陵地带，其中海拔代表误差 (损失) 。我们的目标是找到最低的山谷:** 最优解**。

当我们不进行压缩训练时，这片景观有它固定的形状和最优位置。而压缩 token 会重塑这片地形，移动最优点的位置。压缩程度越高，位移就越大。

不同 token 压缩水平下的损失景观: 0%、20%、40%、60%。直接跳到高压缩率很难，而渐进式步骤则能简化模型的适应过程。

图 1: 不同压缩率下的损失景观。从 0% 直接跳到高压缩率很容易使优化器陷入糟糕的局部最小值，但渐进式适应能遵循更平滑且可达的路径。

直接从 0% 的最优点跳到 60% 的最优点是十分危险的。模型可能会陷入 局部最小值——一个并非真正谷底的小洼地。直接用高压缩率进行训练往往会导致这种情况。

EPIC 的核心思想: 避免巨大的飞跃。先适应轻度压缩 (例如 20%) ，再到 40%，依此类推。每一步都易于管理，引导模型走向高压缩率下的最优点，而不会迷失方向。

EPIC: 一种渐进式训练课程

EPIC 实现了一种名为 渐进式一致性蒸馏 的训练框架，可用于像 LLaVA 这样的现有 MLLM，且无需改变架构。它将独特的权重共享师生设置与 两种渐进式学习策略 相结合。

机器内的教师

在 EPIC 中，一个 MLLM——使用相同的权重——同时扮演教师和学生的角色:

学生模型: 以 更高 (更激进) 的压缩率 处理图像——任务更难。
教师模型: 接收相同的图像，但压缩率 稍低 (更容易) 。

学生模型从 两个信号 中学习:

监督微调 (SFT) 损失 —— 匹配真实标签的输出。
蒸馏损失 —— 将其输出的概率分布与教师模型的对齐，后者的输出更稳定。

渐进式一致性蒸馏概览，包含 token 一致性蒸馏 (TCD) 和层一致性蒸馏 (LCD)。

图 3: EPIC 的权重共享师生设置用于一致性蒸馏，并配合渐进式的 token 级和层级策略。

这种“一致性蒸馏”为学生模型提供了一个可靠的中间目标——就像向未来的自己学习，而那个“你”刚刚完成了一轮更简单的练习。

1. Token 一致性蒸馏 (TCD)

TCD 以 token 维度 的方式应用渐进策略，在训练过程中构建一个 由易到难 的学习课程:

**压缩从轻度开始 **(5–10%) ，然后稳步增加到高压缩率 (例如 90%) 。
师生差距也逐渐增大: 初期差距小以便紧密指导，后期差距大以增加挑战。

形式化表示:

\[ r_t^{\mathsf{stu}} \sim \mathcal{U}\left(R_{\min,t}^{\mathsf{stu}}, \; R_{\max,t}^{\mathsf{stu}}\right) \]

\[ r_t^{\mathsf{tea}} = \max\left(0, \; r_t^{\mathsf{stu}} - \Delta_t\right) \]

总损失结合了 SFT 损失和 KL 散度蒸馏损失:

\[ \mathcal{L}_{\text{total}}(\theta) = (1 - \lambda) \cdot \mathcal{L}_{\text{SFT}}(\theta) + \lambda \cdot \mathcal{L}_{\text{TCD}}(\theta) \]

2. 层一致性蒸馏 (LCD)

LCD 以层级方式应用渐进策略，利用了 深层网络对视觉 token 依赖较少 这一特性:

从深层开始: 仅在最后几层压缩 token——干扰最小。
转向浅层: 逐步将压缩移到更早的层——虽然更具挑战，但那时模型已做好准备。

层选择方式:

\[ \ell_t = \operatorname{Round}\left(L - \beta_t\left(L - \ell_{\min}\right)\right) \quad \text{with} \quad \beta_t = t/T \]

教师模型在同一层仍使用稍低的压缩率，从而形成一条由易到难 (深层 → 浅层) 压缩的稳定路径。

对 EPIC 的测试

作者使用 EPIC 训练了 LLaVA-v1.5-7B——没有做任何架构更改——并进行了广泛的评估。

性能与效率

EPIC 训练模型与基线模型的性能基准比较。

表 1: EPIC 与基线在 10 个视觉理解基准上的性能对比。EPIC 用比 LLaVA 少得多的 token 就达到了甚至超过全量 token LLaVA 的性能。

使用 **128 个 token **(减少 78%) 时，EPIC 的表现与原始 LLaVA 相当。使用 192 个 token 时，平均性能甚至超越 LLaVA——表明视觉 token 中存在显著冗余。

MMBench 准确率与视觉 token 数量关系。EPIC 以更少的 token、FLOPs 和 KV 缓存实现了顶级准确率。

图 2: EPIC 训练的模型在低 token 数下仍能保持高准确率，同时显著节省 FLOPs 和 KV 缓存。

在 64 个 token 情况下，EPIC 降低了 88.9% 的 KV 缓存和 83.9% 的 FLOPs，实现了最高 1.6× 推理加速:

与基线相比，使用 64 个视觉 token 带来的推理效率提升。

表 2: EPIC 训练的模型在内存占用、计算量和延迟方面均有显著下降。

消融研究: 为何教师指导与渐进策略至关重要

Token 一致性蒸馏的消融研究。移除教师指导或渐进策略会显著降低性能。

表 3: Token 一致性蒸馏的消融对比——去掉教师指导或渐进策略都会导致性能下降。

层一致性蒸馏的消融研究。

表 4: 层一致性蒸馏的消融对比——趋势与 TCD 相同；教师指导与渐进策略同样关键。

研究发现:

移除教师指导 (w/o Distillation Loss) 会降低稳定性和输出质量。
从一开始就固定压缩率 (w/o Progressive Compression) 会让训练直接进入最困难状态——性能下降更显著。

跨压缩策略泛化能力

EPIC 会不会过拟合某一种 token 丢弃模式？为测试这一点，研究者用 DART 训练，并在推理时用 Random 和 FastV 测试。

跨策略泛化: EPIC 即使在测试时使用未见过的压缩方法也能提升性能。

图 4: EPIC 训练的模型具有泛化能力: 用一种压缩方法训练，在其他方法中同样能带来性能提升。

结果: 不同策略下性能提升都能保持。EPIC 赋予模型的是一种原则——在视觉信息缺失条件下稳健推理的能力——而不是死记硬背某种模式。

极端压缩一定更好吗？

很多方法试图把视觉 token 压缩到 1–2 个。EPIC 的分析警告: 超过一定程度后，少未必更好。

权衡分析显示了 token 压缩的高 ROI 和低 ROI 区域。

图 5: 将 token 数从全量减到约 64 个可带来高投资回报率。进一步减少 token 对速度提升有限，却会造成准确率大幅下降。

两个区域:

高 ROI: 576 → 64 tokens —— 速度/内存收益巨大，性能保持高水平。
低 ROI: 少于 64 tokens —— GPU 计算资源利用不足，延迟主要受内存访问限制，性能急剧下降。

最佳压缩需要平衡效率与信息保留——极端削减可能会让模型“饿死”。

关键要点

EPIC 的优势不在于更改架构，而在于 训练方式:

训练很重要: 光靠压缩不够——渐进适应让模型能平稳应对扰动。
稳扎稳打取胜: 由易到难的课程避免陷入糟糕的局部最小值。
自我教学助力: 权重共享的师生机制稳定了学习过程。
找到平衡点: 瞄准高 ROI 区域，避免不必要的极端压缩。

EPIC 框架灵活且即插即用，通过聪明而稳健的学习，让强大的 MLLM 在有限硬件上也能更加实用。在效率竞赛中，它提醒我们: 最佳路线不一定是飞跃，而是一系列谨慎、稳健的步伐。

挑战: 在变化的景观中导航#

EPIC: 一种渐进式训练课程#

机器内的教师#

1. Token 一致性蒸馏 (TCD)#

2. 层一致性蒸馏 (LCD)#

对 EPIC 的测试#

性能与效率#

消融研究: 为何教师指导与渐进策略至关重要#

跨压缩策略泛化能力#

极端压缩一定更好吗？#

两个区域:#

关键要点#