想象一下,你正站在厨房里,满手面粉,试图按照一份复杂的食谱制作牛角面包。你有文字说明,但不确定面团擀得是否到位。你问语音助手: “这样擀得够薄了吗?”
标准的大型语言模型 (LLM) 可能会产生“幻觉”,给出一个通用的回答,或者只是简单地读出下一步的文字。它既无法看到你的面团,也无法向你展示它应该是什么样子的视频片段。这就是程序性规划中的“多模态鸿沟”。虽然 LLM 在文本方面表现出色,但现实世界的任务——烹饪、家具组装、DIY 维修——本质上是视觉化的。
在最近一篇题为 “Show and Guide: Instructional-Plan Grounded Vision and Language Model” 的论文中,来自 NOVA LINCS 的研究人员提出了一种解决方案: MM-PlanLLM 。 这是一种新颖的架构,旨在不仅能够进行聊天,还能将对话建立在特定计划 (如食谱) 的基础上,并在文本和视频之间无缝切换以指导用户。
在这篇文章中,我们将详细拆解 MM-PlanLLM 的工作原理,它是如何将视觉数据与文本步骤对齐的,以及为什么这代表了 AI 助手向前迈出的重要一步。
核心问题: 落地与多模态
要成为复杂任务的得力助手,AI 需要满足三个条件:
- 计划依从 (Plan-Grounding) : 它必须坚持计划的具体步骤 (不能从第 1 步直接跳到第 10 步) 。
- 视觉理解 (Visual Understanding) : 它需要理解用户上传的图片以追踪进度。
- 视觉演示 (Visual Demonstration) : 它应该能够检索说明某个步骤的具体视频时刻。
现有模型往往在此处表现不佳。有些模型擅长一般图像描述,但极其不擅长遵循顺序计划;另一些则是严格的计划执行者,但却是“盲目”的 (仅限文本) 。
如 图 1 所示,MM-PlanLLM 旨在弥合这一差距。它将文本计划与视觉输入 (用户图像) 和视觉输出 (视频剪辑) 对齐,引导用户经历文本-计划对齐、文本-视频对齐和视觉-计划对齐这几个阶段。

MM-PlanLLM 的方法
研究人员提出了一个能同时处理三项特定任务的模型,以实现这种流畅的交互。让我们详细看看这些任务。
1. 基于计划的答案生成 (PGAG)
这是基线能力。模型必须根据对话历史 (\(D\)) 和用户的最新查询 (\(U\)) 生成文本响应 (\(R\))。与标准聊天机器人不同,这种生成是以特定程序计划 (\(P\)) 为条件的。
数学上的目标是最小化生成词与真实响应之间的差异,公式化为交叉熵损失:

这确保了模型能根据书面食谱正确回答诸如“我接下来该做什么?”之类的问题。
2. 对话式视频时刻检索 (CVMR)
这是模型超越文本的地方。如果用户问: “给我看看怎么折叠面团”,模型需要找到教学视频中与该特定步骤对应的确切帧。
研究人员将其视为一个检索问题。他们引入了一个特殊的标记 [RET]。当模型生成此标记时,会触发搜索机制。模型计算特定视频帧 (\(f_k\)) 与当前对话上下文相关的概率。
这里的损失函数结合了检索损失 (找到正确的帧) 和文本生成损失 (响应用户) :

3. 视觉信息辅助的步骤生成 (VSG)
此任务解决“我做得对吗?”这种场景。用户上传一张他们当前进度的图片 (\(I\))。模型必须分析这张图片,将其与计划进行比较,并确定用户处于哪一步或接下来应该做什么。
模型生成以图像和计划为条件的适当响应 (\(R\)):

架构: 各部分如何协同工作
为了在不从头开始训练庞大模型的情况下实现这三项任务,研究人员使用了一种模块化架构。他们结合了预训练的 大型语言模型 (LLM) 骨干 (具体探索了 Llama-2) 和 视觉编码器 (Visual Encoder) (CLIP ViT)。
关键创新在于这两个庞然大物如何相互对话。它们不仅仅是拼接特征,而是使用了 任务特定投影层 (Task-Specific Projection Layers) 。
![图 2: MM-PlanLLM 架构的综合示意图,包括用于模型训练的 3 个训练阶段。*表示 [RET] 标记嵌入表示和 LLM 的语言建模头保持可训练状态。](/en/paper/2409.19074/images/005.jpg#center)
如 图 2 所示:
- 对于视频检索 (顶部) : 对话上下文和候选视频帧被分别处理。线性层 (\(W_t\) 和 \(W_i\)) 将文本
[RET]标记和视觉帧投影到一个共享的“检索空间”中。如果文本嵌入和视频帧嵌入在这个空间中距离很近,那就是匹配的。 - 对于步骤生成 (底部) : 当用户上传图片时,它由视觉编码器编码。投影层 (\(W_c\)) 将此视觉嵌入映射到 LLM 自己的嵌入空间中。实际上,图像变成了 LLM 可以“阅读”的一个词。
多阶段训练策略
你不能简单地将复杂的对话数据扔给这个架构并希望它能学会。研究人员设计了一个三阶段的训练过程,以此逐步建立模型的能力:
- 第一阶段: 视觉投影层 (引导启动) : LLM 和视觉编码器被冻结。仅使用海量的图像-字幕对 (CC3M) 训练线性投影层。这教会了模型视觉概念与文本之间的基本对应关系。
- 第二阶段: 任务数据专门化: 模型在特定领域的数据上进行微调——在本例中是烹饪。他们使用了 Tasty Dataset , 其中包含带有特定视频时间戳注释的食谱。这弥合了一般图像与特定教学动作之间的差距 (例如,区分“切割”和“剁碎”) 。
- 第三阶段: 多模态基于计划的对话: 最后,模型在完整的对话上进行训练。由于不存在大规模的高质量多模态教学对话数据,作者生成了一个名为 TastyVidDial 的合成数据集。此阶段解冻 LLM,并微调整个系统以处理交错的文本和视觉请求。
实验与结果
研究人员将 MM-PlanLLM 与几个基线进行了评估,包括 FROMAGe (一种最先进的多模态模型) 和 PlanLLM (一种纯文本的基于计划的模型) 。
纯文本性能
添加多模态能力时的一个主要担忧是“灾难性遗忘”——模型是否会因为专注于图片而变得不擅长文本?
表 1 显示了在纯文本计划遵循上的性能。MM-PlanLLM 达到了 83.28 的 BERTScore,非常接近专门的纯文本 PlanLLM (88.66)。这表明多模态训练并没有显著降低其理解文本指令的能力。

多模态性能
在涉及新任务——检索视频和分析用户图像——时,MM-PlanLLM 完胜基线。
在 对话式视频时刻检索 (CVMR) 任务中,MM-PlanLLM 显著优于 FROMAGe。这主要是因为标准多模态模型是在静态图像和字幕上训练的,而 MM-PlanLLM 的训练包括了计划步骤与视频时间戳之间的具体对齐。
多模态对齐
最令人印象深刻的结果之一是模型将文本与特定视频时刻对齐的效果。
图 3 绘制了一个步骤的文本表示与视频帧之间的相似度。相似度在“距离 0” (正确的步骤) 处达到峰值,并随着你移动到上一步或下一步而下降。这证明模型不仅仅是在猜测;它是真正理解视频的哪一部分与文本相匹配。
![图 3: 文本查询到视觉计划的对齐。MM-PlanLLM 有效地学会了将文本 [RET] 标记表示与目标步骤帧的表示对齐。为了清晰起见,我们移除了离群值。](/en/paper/2409.19074/images/008.jpg#center)
同样, 图 4 显示了反向情况: 当给定图像时,生成的文本与正确计划步骤有多接近?绝大多数生成的答案完全对齐 (距离 0) 或是相邻步骤 (距离 1) ,显示出强大的情境感知能力。

消融实验: 训练阶段重要吗?
研究人员进行了消融实验,以观察他们复杂的三阶段训练是否真的必要。
表 3 揭示了答案是肯定的“是”。
- 仅第一阶段: 性能很差 (接近随机) 。
- 第一阶段 + 第二阶段: 能力显著提升。
- 第一阶段 + 第二阶段 + 第三阶段: 模型发挥出全部潜力,特别是在检索准确率方面 (R@1 从 3.45 跃升至 6.72) 。
这证实了领域专门化和特定于对话的训练对于此类任务至关重要。

定性分析: 观察模型的实际运行
数字固然重要,但实际效果如何呢?
图 6 展示了视频时刻检索的实际操作。左列显示目标步骤 (例如,“加入南瓜泥”) ,右列显示模型检索到的帧。绿色框表示成功。模型通常能够过滤长视频,并挑选出添加配料或执行技术的准确时刻。

最后, 图 7 展示了一个真实的对话。用户问: “完成了,下一步是什么?”或“我该怎么做第 2 步?”。模型在用文字解释步骤和提供视频演示之间流畅切换,模仿了一个乐于助人的人类导师。

结论
MM-PlanLLM 代表了多模态大型语言模型领域的一个显著成熟。通过超越简单的图像字幕生成并解决 指令落地 (instructional grounding) 问题,作者为下一代 AI 助手创造了一个蓝图。
其意义远不止于烹饪。同样的架构可以应用于修理汽车引擎、组装平板家具,或指导医学生完成手术程序。通过紧密耦合“计划” (文本) 与“现实” (视觉) ,MM-PlanLLM 使我们更接近能够在物理世界中真正“看见”、指导和协助人类的 AI。
虽然该模型存在局限性——例如相对较小的上下文窗口和对合成训练数据的依赖——但多阶段训练方法和专门的投影层为未来在基于计划的 AI 研究提供了一条稳健的道路。
](https://deep-paper.org/en/paper/2409.19074/images/cover.png)