AI 能记住它看了什么吗？解决视频问答中的灾难性遗忘问题

如果你经常上网，你会知道视频内容正在呈爆炸式增长。从 YouTube 教程到 TikTok 潮流，每天产生的数据量惊人。对于人工智能，特别是 视频问答 (Video Question Answering, VideoQA) 模型而言，这是一个巨大的挑战。

我们通常在静态数据集上训练这些模型。一旦训练完成，它们就被冻结了。但世界不是静态的。如果我们想让 AI 理解新类型的视频内容或回答新类型的问题，通常必须对其进行微调。问题就出在这里: 当你教大语言模型 (LLM) 新技能时，它经常会忘记旧技能。这种现象被称为 灾难性遗忘 (Catastrophic Forgetting) 。

今天，我们将深入探讨一篇题为 “Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting” 的研究论文。研究人员提出了一种名为 ColPro (Collaborative Prompting，协同提示) 的新颖框架，该框架允许 LLM 从视频中持续学习，而不会丢失以前的知识。

如果你是对多模态 AI、持续学习或提示工程感兴趣的学生，这篇论文为你提供了一堂关于如何平衡可塑性 (学习新事物的能力) 和稳定性 (记住旧事物的能力) 的大师课。

问题所在: “静态”思维模式 vs. 现实世界

要理解这项研究的重要性，我们首先需要了解标准 VideoQA 模型的运作方式。传统上，模型是在固定的视频和问题集上训练的。如果你想更新它，你有两个昂贵的选择:

从头开始重新训练: 包含旧数据和新数据 (计算成本极高) 。
在新数据上微调: 仅针对新任务进行训练。

选项 2 听起来很高效，但它会导致前面提到的“灾难性遗忘”。这就好比为了生物考试而拼命学习，结果完全忘记了如何做基本的代数题。这就是这些模型所面临的情况。

图 1: 微调与协同提示的比较。

如上图 Figure 1 (a) 所示，当标准模型在任务 1 到任务 N 上按顺序进行微调时，其特征空间会发生偏移。在例子中，模型最初知道如何分析滑雪视频。但在对新任务进行微调后，它回答错误 (回答“表达快乐”而不是“保持平衡”) 。

相比之下, Figure 1 (b) 展示了 ColPro 框架的目标。通过在 持续学习 (Continual Learning, CL) 设置中针对特定任务使用特定提示，即使在学习了新任务之后，模型仍能保留回答滑雪问题所需的特定知识。

解决方案: 协同提示 (ColPro)

研究人员提出，我们不应该重新训练 LLM 的整个“大脑” (参数) 。相反，我们应该使用 提示微调 (Prompt Tuning) 。

提示微调涉及冻结庞大的预训练 LLM (如 LLaMA) ，仅训练指导模型行为的小型、可学习的向量 (提示) 。ColPro 更进一步，引入了一组“协同”提示，处理视频问答问题的三个不同方面:

问题语境: 理解被问的是哪种问题 (例如，“为什么？”与“在哪里？”) 。
视觉内容: 理解视频帧及其随时间的变化。
知识获取: 结合所有信息生成答案。

架构

让我们看看这是如何构建的。该框架使用预训练的 LLaMA 模型作为骨干。

图 2: ColPro 架构与提示策略。

如 Figure 2 (左) 所示，模型接收视频、问题和候选答案作为输入。核心创新发生在 ColPro 引导的预训练层 (ColPro Guided Pre-trained Layers) 中。

ColPro 不仅仅是将原始文本输入 LLM，而是将可学习的提示注入到 LLM 自注意力机制的 键 (Key) 和 值 (Value) 矩阵中。

此注意力机制的数学运算如下:

带提示的注意力机制公式。

这里，\(\mathbf{P}_k\) 和 \(\mathbf{P}_v\) 是附加到键和值上的可学习提示。这使得模型在处理实际数据时能够“关注”这些学习到的指令。

ColPro 的三大支柱

ColPro 中的“协同”指的是三种特定的提示策略共同工作。让我们逐一分解。

1. 任务特定问题约束提示 (TQCP)

在持续学习中，知道你正在解决哪个任务就成功了一半。如果模型知道当前任务是关于“计数对象”，它就不应该浪费资源去寻找“因果理由”。

TQCP 帮助模型识别问题类型。它使用一种 负向引导方法 (Negative Guiding Approach) 。这意味着提示被训练为:

与当前问题类型 (例如，“多少？”) 正相关 。
与其他问题类型 (例如，“什么颜色？”) 负相关 。

该策略的损失函数结合了生成损失 (生成问题) 和负向对比损失:

问题损失公式。

负向部分特别有趣:

负向问题损失公式。

在这个方程中，模型试图最大化提示 \(\mathbf{P}_e\) 与正向问题样本 (\(\mathbf{Q}^+\)) 之间的相似度 (\(sim\))，同时最小化与负向样本 (\(\mathbf{Q}^-\)) 的相似度。这有效地在模型的理解中创建了一个“边界”，防止不同任务之间的混淆。

2. 视觉时间感知提示 (VTAP)

LLM 是文本原生的。它们天生不“看”视频或理解时间。VTAP 旨在弥合这一差距。它强制提示捕获 视觉内容 和 时间动态 (事物如何随时间变化) 。

这通过两种机制实现:

时间动态: 利用 LLM 的自回归特性来预测视频帧的顺序。如果模型能预测下一帧是什么，它就理解了视频的流程。
视频蒸馏: 一种对比损失，将提示表示与从视频编码器 (如 CLIP) 提取的视觉特征对齐。

视频损失公式。

通过优化这种损失，提示变得具有“视觉感知”，充当像素数据和语言模型之间的翻译器。

3. 知识获取提示 (KAP)

最后，我们需要回答实际问题。KAP 是整合层。它获取问题的特定约束 (TQCP) 和视觉理解 (VTAP)，并利用它们在选项中预测正确答案。

答案损失公式。

这种标准的交叉熵损失确保模型在给定问题、视频和学习到的提示的情况下生成正确的答案 token。

实验设置

为了证明这一点的有效性，作者在两个具有挑战性的数据集上测试了 ColPro: NExT-QA 和 DramaQA 。

他们不仅进行了标准测试，还根据问题类型 (例如，因果问题、描述性问题、时间问题) 将这些数据集划分为不同的任务，并按顺序将其输入模型，以模拟不断变化的环境。

图 4: VideoQA 任务示例。

Figure 4 让你感受到其中的难度。

任务 1 问了一个时间问题: “男孩在…之前在做什么？”
任务 7 问了一个关于水槽里的猫的因果/描述性问题。

在标准设置中，学习关于猫的知识 (任务 7) 可能会让模型忘记关于男孩的知识 (任务 1) 。

结果: 它有效吗？

结果相当令人信服。研究人员将 ColPro 与几种最先进的持续学习方法进行了比较，包括 L2P、DualPrompt 和 ProgPrompt 。

NExT-QA 上的表现

表 1: NExT-QA 上的结果。

观察 Table 1 , 我们关注两个指标:

Avg. Acc (\(\uparrow\)): 越高越好。它衡量整体准确率。
Avg. Fog (\(\downarrow\)): 越低越好。它衡量 遗忘率 (旧任务准确率下降了多少) 。

ColPro 达到了 55.14% 的准确率，比第二好的方法 (ProgPrompt) 高出 1% 以上。更重要的是，看看 遗忘率 (Avg. Fog) 。 ColPro 仅为 7.43% , 而标准的 LLaMA 基线几乎是它的两倍，达到 13.83% 。这证明提示成功地保护了旧知识。

DramaQA 上的表现

表 2: DramaQA 上的结果。

在 DramaQA 数据集上 (Table 2) ，差距甚至更大。ColPro 达到了 71.24% 的准确率，明显高于 ProgPrompt 的 67.92%。遗忘率也是所有对比方法中最低的。

可视化稳定性

表格中的数字很好，但看到学习轨迹更好。

图 3: 各任务的准确率。

Figure 3 绘制了模型学习任务 1 到 8 时的平均准确率。

注意 带星号的红线 (Ours/ColPro) 。
当引入新任务时，其他方法 (如蓝线和绿线) 会显著下降 (遗忘的“锯齿状”模式) ，而 ColPro 在整个学习过程中保持了更高且更稳定的准确率。

为什么我们需要所有三种提示？ (消融研究)

你可能会想，我们真的需要 TQCP、VTAP 和 KAP 吗？能不能只用其中一个？研究人员进行了消融研究来找出答案。

表 4: 提示策略的消融实验。

Table 4 显示了细分结果:

第 1 行: 仅使用答案损失 (\(\mathcal{L}_a\)) 得到 52.60% 的准确率。
第 2 行: 加入问题约束 (\(\mathcal{L}_q\)) 后，准确率跃升至 53.09%，遗忘率降至 9.09%。
第 4 行: 使用 全部三种 (答案 + 问题 + 视频) 产生最佳结果: 55.14% 的准确率 和 7.43% 的遗忘率 。

这证实了“协同”方面是必不可少的。模型需要明确学习问题类型和视频动态，以最大化记忆保留。

结论与启示

这篇关于“协同提示”(ColPro) 的论文解决了一个现实且紧迫的 AI 问题: 如何在不让模型“健忘”的情况下使其具有适应性。通过避免全模型微调，转而使用智能、多层面的提示策略，作者展示了 持续视频问答 的前进道路。

给学生的关键要点:

效率: 你并不总是需要重新训练庞大的模型。巧妙的提示策略可以有效地让冻结的模型适应新任务。
模态鸿沟: 弥合文本 (LLM) 和视频之间的鸿沟需要明确的指导 (如 VTAP 策略) 来处理时间动态。
负向学习: 有时，教模型不看什么 (通过负向对比损失) 与教它看什么同样重要。

随着视频内容继续主导数字领域，像 ColPro 这样的技术对于创建能够与我们一起成长和学习、既能记住过去又能理解现在的 AI 助手将至关重要。

问题所在: “静态”思维模式 vs. 现实世界#

解决方案: 协同提示 (ColPro)#

架构#

ColPro 的三大支柱#

1. 任务特定问题约束提示 (TQCP)#

2. 视觉时间感知提示 (VTAP)#

3. 知识获取提示 (KAP)#

实验设置#

结果: 它有效吗？#

NExT-QA 上的表现#

DramaQA 上的表现#

可视化稳定性#

为什么我们需要所有三种提示？ (消融研究)#

结论与启示#