如果你经常上网,你会知道视频内容正在呈爆炸式增长。从 YouTube 教程到 TikTok 潮流,每天产生的数据量惊人。对于人工智能,特别是 视频问答 (Video Question Answering, VideoQA) 模型而言,这是一个巨大的挑战。

我们通常在静态数据集上训练这些模型。一旦训练完成,它们就被冻结了。但世界不是静态的。如果我们想让 AI 理解 类型的视频内容或回答 类型的问题,通常必须对其进行微调。问题就出在这里: 当你教大语言模型 (LLM) 新技能时,它经常会忘记旧技能。这种现象被称为 灾难性遗忘 (Catastrophic Forgetting)

今天,我们将深入探讨一篇题为 “Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting” 的研究论文。研究人员提出了一种名为 ColPro (Collaborative Prompting,协同提示) 的新颖框架,该框架允许 LLM 从视频中持续学习,而不会丢失以前的知识。

如果你是对多模态 AI、持续学习或提示工程感兴趣的学生,这篇论文为你提供了一堂关于如何平衡可塑性 (学习新事物的能力) 和稳定性 (记住旧事物的能力) 的大师课。

问题所在: “静态”思维模式 vs. 现实世界

要理解这项研究的重要性,我们首先需要了解标准 VideoQA 模型的运作方式。传统上,模型是在固定的视频和问题集上训练的。如果你想更新它,你有两个昂贵的选择:

  1. 从头开始重新训练: 包含旧数据和新数据 (计算成本极高) 。
  2. 在新数据上微调: 仅针对新任务进行训练。

选项 2 听起来很高效,但它会导致前面提到的“灾难性遗忘”。这就好比为了生物考试而拼命学习,结果完全忘记了如何做基本的代数题。这就是这些模型所面临的情况。

图 1: 微调与协同提示的比较。

如上图 Figure 1 (a) 所示,当标准模型在任务 1 到任务 N 上按顺序进行微调时,其特征空间会发生偏移。在例子中,模型最初知道如何分析滑雪视频。但在对新任务进行微调后,它回答错误 (回答“表达快乐”而不是“保持平衡”) 。

相比之下, Figure 1 (b) 展示了 ColPro 框架的目标。通过在 持续学习 (Continual Learning, CL) 设置中针对特定任务使用特定提示,即使在学习了新任务之后,模型仍能保留回答滑雪问题所需的特定知识。

解决方案: 协同提示 (ColPro)

研究人员提出,我们不应该重新训练 LLM 的整个“大脑” (参数) 。相反,我们应该使用 提示微调 (Prompt Tuning)

提示微调涉及冻结庞大的预训练 LLM (如 LLaMA) ,仅训练指导模型行为的小型、可学习的向量 (提示) 。ColPro 更进一步,引入了一组“协同”提示,处理视频问答问题的三个不同方面:

  1. 问题语境: 理解被问的是 哪种 问题 (例如,“为什么?”与“在哪里?”) 。
  2. 视觉内容: 理解视频帧及其随时间的变化。
  3. 知识获取: 结合所有信息生成答案。

架构

让我们看看这是如何构建的。该框架使用预训练的 LLaMA 模型作为骨干。

图 2: ColPro 架构与提示策略。

Figure 2 (左) 所示,模型接收视频、问题和候选答案作为输入。核心创新发生在 ColPro 引导的预训练层 (ColPro Guided Pre-trained Layers) 中。

ColPro 不仅仅是将原始文本输入 LLM,而是将可学习的提示注入到 LLM 自注意力机制的 键 (Key)值 (Value) 矩阵中。

此注意力机制的数学运算如下:

带提示的注意力机制公式。

这里,\(\mathbf{P}_k\) 和 \(\mathbf{P}_v\) 是附加到键和值上的可学习提示。这使得模型在处理实际数据时能够“关注”这些学习到的指令。

ColPro 的三大支柱

ColPro 中的“协同”指的是三种特定的提示策略共同工作。让我们逐一分解。

1. 任务特定问题约束提示 (TQCP)

在持续学习中,知道你正在解决 哪个 任务就成功了一半。如果模型知道当前任务是关于“计数对象”,它就不应该浪费资源去寻找“因果理由”。

TQCP 帮助模型识别问题类型。它使用一种 负向引导方法 (Negative Guiding Approach) 。 这意味着提示被训练为:

  • 与当前问题类型 (例如,“多少?”) 正相关
  • 与其他问题类型 (例如,“什么颜色?”) 负相关

该策略的损失函数结合了生成损失 (生成问题) 和负向对比损失:

问题损失公式。

负向部分特别有趣:

负向问题损失公式。

在这个方程中,模型试图最大化提示 \(\mathbf{P}_e\) 与正向问题样本 (\(\mathbf{Q}^+\)) 之间的相似度 (\(sim\)),同时最小化与负向样本 (\(\mathbf{Q}^-\)) 的相似度。这有效地在模型的理解中创建了一个“边界”,防止不同任务之间的混淆。

2. 视觉时间感知提示 (VTAP)

LLM 是文本原生的。它们天生不“看”视频或理解时间。VTAP 旨在弥合这一差距。它强制提示捕获 视觉内容时间动态 (事物如何随时间变化) 。

这通过两种机制实现:

  1. 时间动态: 利用 LLM 的自回归特性来预测视频帧的 顺序。如果模型能预测下一帧是什么,它就理解了视频的流程。
  2. 视频蒸馏: 一种对比损失,将提示表示与从视频编码器 (如 CLIP) 提取的视觉特征对齐。

视频损失公式。

通过优化这种损失,提示变得具有“视觉感知”,充当像素数据和语言模型之间的翻译器。

3. 知识获取提示 (KAP)

最后,我们需要回答实际问题。KAP 是整合层。它获取问题的特定约束 (TQCP) 和视觉理解 (VTAP),并利用它们在选项中预测正确答案。

答案损失公式。

这种标准的交叉熵损失确保模型在给定问题、视频和学习到的提示的情况下生成正确的答案 token。

实验设置

为了证明这一点的有效性,作者在两个具有挑战性的数据集上测试了 ColPro: NExT-QADramaQA

他们不仅进行了标准测试,还根据问题类型 (例如,因果问题、描述性问题、时间问题) 将这些数据集划分为不同的任务,并按顺序将其输入模型,以模拟不断变化的环境。

图 4: VideoQA 任务示例。

Figure 4 让你感受到其中的难度。

  • 任务 1 问了一个时间问题: “男孩在…之前在做什么?”
  • 任务 7 问了一个关于水槽里的猫的因果/描述性问题。

在标准设置中,学习关于猫的知识 (任务 7) 可能会让模型忘记关于男孩的知识 (任务 1) 。

结果: 它有效吗?

结果相当令人信服。研究人员将 ColPro 与几种最先进的持续学习方法进行了比较,包括 L2PDualPromptProgPrompt

NExT-QA 上的表现

表 1: NExT-QA 上的结果。

观察 Table 1 , 我们关注两个指标:

  • Avg. Acc (\(\uparrow\)): 越高越好。它衡量整体准确率。
  • Avg. Fog (\(\downarrow\)): 越低越好。它衡量 遗忘率 (旧任务准确率下降了多少) 。

ColPro 达到了 55.14% 的准确率,比第二好的方法 (ProgPrompt) 高出 1% 以上。更重要的是,看看 遗忘率 (Avg. Fog) 。 ColPro 仅为 7.43% , 而标准的 LLaMA 基线几乎是它的两倍,达到 13.83% 。 这证明提示成功地保护了旧知识。

DramaQA 上的表现

表 2: DramaQA 上的结果。

DramaQA 数据集上 (Table 2) ,差距甚至更大。ColPro 达到了 71.24% 的准确率,明显高于 ProgPrompt 的 67.92%。遗忘率也是所有对比方法中最低的。

可视化稳定性

表格中的数字很好,但看到学习轨迹更好。

图 3: 各任务的准确率。

Figure 3 绘制了模型学习任务 1 到 8 时的平均准确率。

  • 注意 带星号的红线 (Ours/ColPro)
  • 当引入新任务时,其他方法 (如蓝线和绿线) 会显著下降 (遗忘的“锯齿状”模式) ,而 ColPro 在整个学习过程中保持了更高且更稳定的准确率。

为什么我们需要所有三种提示? (消融研究)

你可能会想,我们真的需要 TQCP、VTAP 和 KAP 吗?能不能只用其中一个?研究人员进行了消融研究来找出答案。

表 4: 提示策略的消融实验。

Table 4 显示了细分结果:

  • 第 1 行: 仅使用答案损失 (\(\mathcal{L}_a\)) 得到 52.60% 的准确率。
  • 第 2 行: 加入问题约束 (\(\mathcal{L}_q\)) 后,准确率跃升至 53.09%,遗忘率降至 9.09%。
  • 第 4 行: 使用 全部三种 (答案 + 问题 + 视频) 产生最佳结果: 55.14% 的准确率7.43% 的遗忘率

这证实了“协同”方面是必不可少的。模型需要明确学习问题类型和视频动态,以最大化记忆保留。

结论与启示

这篇关于“协同提示”(ColPro) 的论文解决了一个现实且紧迫的 AI 问题: 如何在不让模型“健忘”的情况下使其具有适应性。通过避免全模型微调,转而使用智能、多层面的提示策略,作者展示了 持续视频问答 的前进道路。

给学生的关键要点:

  1. 效率: 你并不总是需要重新训练庞大的模型。巧妙的提示策略可以有效地让冻结的模型适应新任务。
  2. 模态鸿沟: 弥合文本 (LLM) 和视频之间的鸿沟需要明确的指导 (如 VTAP 策略) 来处理时间动态。
  3. 负向学习: 有时,教模型 看什么 (通过负向对比损失) 与教它看什么同样重要。

随着视频内容继续主导数字领域,像 ColPro 这样的技术对于创建能够与我们一起成长和学习、既能记住过去又能理解现在的 AI 助手将至关重要。