如果你经常上网,你会知道视频内容正在呈爆炸式增长。从 YouTube 教程到 TikTok 潮流,每天产生的数据量惊人。对于人工智能,特别是 视频问答 (Video Question Answering, VideoQA) 模型而言,这是一个巨大的挑战。
我们通常在静态数据集上训练这些模型。一旦训练完成,它们就被冻结了。但世界不是静态的。如果我们想让 AI 理解 新 类型的视频内容或回答 新 类型的问题,通常必须对其进行微调。问题就出在这里: 当你教大语言模型 (LLM) 新技能时,它经常会忘记旧技能。这种现象被称为 灾难性遗忘 (Catastrophic Forgetting) 。
今天,我们将深入探讨一篇题为 “Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting” 的研究论文。研究人员提出了一种名为 ColPro (Collaborative Prompting,协同提示) 的新颖框架,该框架允许 LLM 从视频中持续学习,而不会丢失以前的知识。
如果你是对多模态 AI、持续学习或提示工程感兴趣的学生,这篇论文为你提供了一堂关于如何平衡可塑性 (学习新事物的能力) 和稳定性 (记住旧事物的能力) 的大师课。
问题所在: “静态”思维模式 vs. 现实世界
要理解这项研究的重要性,我们首先需要了解标准 VideoQA 模型的运作方式。传统上,模型是在固定的视频和问题集上训练的。如果你想更新它,你有两个昂贵的选择:
- 从头开始重新训练: 包含旧数据和新数据 (计算成本极高) 。
- 在新数据上微调: 仅针对新任务进行训练。
选项 2 听起来很高效,但它会导致前面提到的“灾难性遗忘”。这就好比为了生物考试而拼命学习,结果完全忘记了如何做基本的代数题。这就是这些模型所面临的情况。

如上图 Figure 1 (a) 所示,当标准模型在任务 1 到任务 N 上按顺序进行微调时,其特征空间会发生偏移。在例子中,模型最初知道如何分析滑雪视频。但在对新任务进行微调后,它回答错误 (回答“表达快乐”而不是“保持平衡”) 。
相比之下, Figure 1 (b) 展示了 ColPro 框架的目标。通过在 持续学习 (Continual Learning, CL) 设置中针对特定任务使用特定提示,即使在学习了新任务之后,模型仍能保留回答滑雪问题所需的特定知识。
解决方案: 协同提示 (ColPro)
研究人员提出,我们不应该重新训练 LLM 的整个“大脑” (参数) 。相反,我们应该使用 提示微调 (Prompt Tuning) 。
提示微调涉及冻结庞大的预训练 LLM (如 LLaMA) ,仅训练指导模型行为的小型、可学习的向量 (提示) 。ColPro 更进一步,引入了一组“协同”提示,处理视频问答问题的三个不同方面:
- 问题语境: 理解被问的是 哪种 问题 (例如,“为什么?”与“在哪里?”) 。
- 视觉内容: 理解视频帧及其随时间的变化。
- 知识获取: 结合所有信息生成答案。
架构
让我们看看这是如何构建的。该框架使用预训练的 LLaMA 模型作为骨干。

如 Figure 2 (左) 所示,模型接收视频、问题和候选答案作为输入。核心创新发生在 ColPro 引导的预训练层 (ColPro Guided Pre-trained Layers) 中。
ColPro 不仅仅是将原始文本输入 LLM,而是将可学习的提示注入到 LLM 自注意力机制的 键 (Key) 和 值 (Value) 矩阵中。
此注意力机制的数学运算如下:

这里,\(\mathbf{P}_k\) 和 \(\mathbf{P}_v\) 是附加到键和值上的可学习提示。这使得模型在处理实际数据时能够“关注”这些学习到的指令。
ColPro 的三大支柱
ColPro 中的“协同”指的是三种特定的提示策略共同工作。让我们逐一分解。
1. 任务特定问题约束提示 (TQCP)
在持续学习中,知道你正在解决 哪个 任务就成功了一半。如果模型知道当前任务是关于“计数对象”,它就不应该浪费资源去寻找“因果理由”。
TQCP 帮助模型识别问题类型。它使用一种 负向引导方法 (Negative Guiding Approach) 。 这意味着提示被训练为:
- 与当前问题类型 (例如,“多少?”) 正相关 。
- 与其他问题类型 (例如,“什么颜色?”) 负相关 。
该策略的损失函数结合了生成损失 (生成问题) 和负向对比损失:

负向部分特别有趣:

在这个方程中,模型试图最大化提示 \(\mathbf{P}_e\) 与正向问题样本 (\(\mathbf{Q}^+\)) 之间的相似度 (\(sim\)),同时最小化与负向样本 (\(\mathbf{Q}^-\)) 的相似度。这有效地在模型的理解中创建了一个“边界”,防止不同任务之间的混淆。
2. 视觉时间感知提示 (VTAP)
LLM 是文本原生的。它们天生不“看”视频或理解时间。VTAP 旨在弥合这一差距。它强制提示捕获 视觉内容 和 时间动态 (事物如何随时间变化) 。
这通过两种机制实现:
- 时间动态: 利用 LLM 的自回归特性来预测视频帧的 顺序。如果模型能预测下一帧是什么,它就理解了视频的流程。
- 视频蒸馏: 一种对比损失,将提示表示与从视频编码器 (如 CLIP) 提取的视觉特征对齐。

通过优化这种损失,提示变得具有“视觉感知”,充当像素数据和语言模型之间的翻译器。
3. 知识获取提示 (KAP)
最后,我们需要回答实际问题。KAP 是整合层。它获取问题的特定约束 (TQCP) 和视觉理解 (VTAP),并利用它们在选项中预测正确答案。

这种标准的交叉熵损失确保模型在给定问题、视频和学习到的提示的情况下生成正确的答案 token。
实验设置
为了证明这一点的有效性,作者在两个具有挑战性的数据集上测试了 ColPro: NExT-QA 和 DramaQA 。
他们不仅进行了标准测试,还根据问题类型 (例如,因果问题、描述性问题、时间问题) 将这些数据集划分为不同的任务,并按顺序将其输入模型,以模拟不断变化的环境。

Figure 4 让你感受到其中的难度。
- 任务 1 问了一个时间问题: “男孩在…之前在做什么?”
- 任务 7 问了一个关于水槽里的猫的因果/描述性问题。
在标准设置中,学习关于猫的知识 (任务 7) 可能会让模型忘记关于男孩的知识 (任务 1) 。
结果: 它有效吗?
结果相当令人信服。研究人员将 ColPro 与几种最先进的持续学习方法进行了比较,包括 L2P、DualPrompt 和 ProgPrompt 。
NExT-QA 上的表现

观察 Table 1 , 我们关注两个指标:
- Avg. Acc (\(\uparrow\)): 越高越好。它衡量整体准确率。
- Avg. Fog (\(\downarrow\)): 越低越好。它衡量 遗忘率 (旧任务准确率下降了多少) 。
ColPro 达到了 55.14% 的准确率,比第二好的方法 (ProgPrompt) 高出 1% 以上。更重要的是,看看 遗忘率 (Avg. Fog) 。 ColPro 仅为 7.43% , 而标准的 LLaMA 基线几乎是它的两倍,达到 13.83% 。 这证明提示成功地保护了旧知识。
DramaQA 上的表现

在 DramaQA 数据集上 (Table 2) ,差距甚至更大。ColPro 达到了 71.24% 的准确率,明显高于 ProgPrompt 的 67.92%。遗忘率也是所有对比方法中最低的。
可视化稳定性
表格中的数字很好,但看到学习轨迹更好。

Figure 3 绘制了模型学习任务 1 到 8 时的平均准确率。
- 注意 带星号的红线 (Ours/ColPro) 。
- 当引入新任务时,其他方法 (如蓝线和绿线) 会显著下降 (遗忘的“锯齿状”模式) ,而 ColPro 在整个学习过程中保持了更高且更稳定的准确率。
为什么我们需要所有三种提示? (消融研究)
你可能会想,我们真的需要 TQCP、VTAP 和 KAP 吗?能不能只用其中一个?研究人员进行了消融研究来找出答案。

Table 4 显示了细分结果:
- 第 1 行: 仅使用答案损失 (\(\mathcal{L}_a\)) 得到 52.60% 的准确率。
- 第 2 行: 加入问题约束 (\(\mathcal{L}_q\)) 后,准确率跃升至 53.09%,遗忘率降至 9.09%。
- 第 4 行: 使用 全部三种 (答案 + 问题 + 视频) 产生最佳结果: 55.14% 的准确率 和 7.43% 的遗忘率 。
这证实了“协同”方面是必不可少的。模型需要明确学习问题类型和视频动态,以最大化记忆保留。
结论与启示
这篇关于“协同提示”(ColPro) 的论文解决了一个现实且紧迫的 AI 问题: 如何在不让模型“健忘”的情况下使其具有适应性。通过避免全模型微调,转而使用智能、多层面的提示策略,作者展示了 持续视频问答 的前进道路。
给学生的关键要点:
- 效率: 你并不总是需要重新训练庞大的模型。巧妙的提示策略可以有效地让冻结的模型适应新任务。
- 模态鸿沟: 弥合文本 (LLM) 和视频之间的鸿沟需要明确的指导 (如 VTAP 策略) 来处理时间动态。
- 负向学习: 有时,教模型 不 看什么 (通过负向对比损失) 与教它看什么同样重要。
随着视频内容继续主导数字领域,像 ColPro 这样的技术对于创建能够与我们一起成长和学习、既能记住过去又能理解现在的 AI 助手将至关重要。
](https://deep-paper.org/en/paper/2410.00771/images/cover.png)