我们都见证了人工智能驱动的视频生成技术所取得的惊人飞跃。像 Sora 这样的模型,能将简单的文本提示转化为令人惊叹、媲美真实照片的视频片段。但当你需要创作的视频不仅要好看,还要能真正传授知识时,情况又会如何呢?

想一想你在 3Blue1Brown 这类 YouTube 频道上看到的教育视频——它们充满了精确的动画、清晰的公式,以及引导你理解复杂主题的逻辑流程。这些视频不仅仅是娱乐,它们一步步地构建和巩固知识。

目前在像素空间中运作的视频生成模型,难以胜任这项任务。它们擅长生成具有美感的纹理和流畅的动态,但缺乏结构化教育内容所必需的精细控制。生成的文本常常乱码,图表可能不一致,而课程的逻辑递进几乎无法保证。

来自新加坡国立大学的 CODE2VIDEO 作者提出了一种颠覆性的构想:** 不直接生成像素,而是生成渲染视频的代码。** 这种以代码为中心的方式,提供了教育视频所需的可控性、可解释性和可扩展性。

在本文中,我们将探讨他们开创性的系统——Code2Video——一个基于智能体的框架,使用大语言模型 (LLM) 编写 Python 代码来生成高质量教育视频。我们还将解析 MMMC,一个全新的基准体系,不仅衡量视频的视觉吸引力,还评估其有效传授知识的能力。


Code2Video 框架及其在 MMMC 基准上的评估概览。与基于像素的方法不同,以代码为中心的范式提供了可扩展性、可解释性和可控性。

图 1: Code2Video 概览。该系统包含三个智能体——规划器 (Planner) 、编码器 (Coder) 和评论家 (Critic) ——将一个学习主题转化为教育视频,并在 MMMC 基准上从效率、美学和知识传递进行评估。


像素在教学中的问题

标准的文本到视频模型 (无论是基于扩散还是自回归) 通过预测帧或对潜在表示进行去噪来生成视频——也就是逐个像素地合成。虽然这能生成短小且视觉上令人愉悦的片段,但在教育内容方面却常常失效:

  • 时间连贯性: 有效的课程遵循叙事弧线——先引入概念,再用示例说明,并逐步引导到更高级的思想。像素生成器本身无法理解教学的递进。
  • 空间清晰度: 精确的视觉效果至关重要。在数学教程中,一个被动画遮挡或字迹不清的公式足以破坏理解。像素模型常常无法实现精准的元素放置和清晰的文字渲染。
  • 可控性与可编辑性: 想调整公式中的一个数字或修改动画时间?在像素生成的结果中,这需要重新生成整个片段——可能损失质量与一致性。

代码解决了这些问题。每一个位置、时序和元素都被明确定义,视频可从代码重新渲染并产生可预测的变化,同时保有结构性与灵活性。


MMMC 与 TeachQuiz: 评估教育效果

在深入探讨 Code2Video 的工作原理前,我们需要先了解如何衡量成功。传统的视频质量指标不适用于教育材料——清晰度、逻辑顺序和知识传递比电影般华丽的效果更重要。

MMMC——海量多学科多模态编码 (Massive Multi-discipline Multimodal Coding) ——是这项工作提出的评估基准。它包含:

  • 117 个专业制作的教育视频,来自 3Blue1Brown,覆盖 13 门学科 (微积分物理拓扑学等) 。
  • 所有视频均使用 Manim 创作,这是一个功能强大的 Python 数学动画库,非常适合作为代码生成的参考。

MMMC 基准概览,展示了其多样化的类别、常见学习主题及主题长度分布。

图 2: MMMC 涵盖了广泛的学科和精心挑选的主题,确保评估全面性。

评估包含三个维度:

  1. 效率: 平均生成时间和 token 消耗。
  2. 美学 (VLM-as-a-Judge) : 由视觉语言模型 (VLM) 在五个标准上评分——元素布局 (EL)、吸引力 (AT)、逻辑流程 (LF)、视觉一致性 (VC) 以及准确性与深度 (AD),每个标准满分 100 分。
  3. TeachQuiz: 最新颖的指标——量化知识传递能力。

TeachQuiz 的两阶段过程,用于在模型被强制遗忘某概念后,通过重新学习视频来衡量其知识传递效果。

图 3: TeachQuiz 通过比较观看视频前后的测试分数,隔离出视频的教育价值。

TeachQuiz: 强制模型从视频中学习

TeachQuiz 分为两个阶段:

  1. 遗忘: 让 VLM “忘记”一个目标概念——屏蔽现有知识——然后回答多项选择测验,分数会急剧下降。
  2. 从视频中学习: 遗忘后的模型观看 AI 生成的教育视频,然后仅凭视频内容重新作答。

TeachQuiz 得分即为分数提升量:

\[ \widetilde{S}(\mathcal{V}) = S(\mathcal{V}) - S(\mathcal{V} \mid \text{unlearn}) \]

这可以剔除先验知识的影响,纯粹衡量视频的教学能力。分数越高说明教学效果越好。


Code2Video 框架: 三个智能体,一个目标

Code2Video 的完整流程,从用户查询到生成教育视频,由规划器、编码器和评论家协同完成。

图 4: Code2Video 将主题查询转化为教学逻辑连贯、视觉清晰的教育视频。

1. 规划器 (Planner) – 设计课程蓝图

规划器是教学的总设计师:

  • 生成大纲: 按照受众的需求将主题分解成逻辑有序的部分。
  • 构建故事板: 将大纲扩展成讲解稿及对应的动画内容。
  • 访问外部数据库: 检索参考图像和视觉素材,确保清晰与一致,并可缓存以复用。

输出: 结构化的教学计划,保障逻辑与视觉的一致性。


2. 编码器 (Coder) – 生成动画

编码器将故事板转化为可执行的 Manim 代码。

挑战: LLM 罕有一次性生成既正确又可运行的代码,语法错误和运行错误都会中断渲染。

解决方案:

  • 并行代码生成: 每个章节独立生成,提升速度并隔离错误。
  • ScopeRefine 调试: 分层修复策略:
    • 行级范围: 先尝试微小的局部修正。
    • 块级范围: 必要时扩展至相关代码块。
    • 全局范围: 万不得已时才重生成整个章节。

3. 评论家 (Critic) – 优化视觉布局

即使代码无误,也可能出现重叠元素、文字遮挡或布局不平衡的问题。

视觉锚点提示系统示意图。通过将画布划分为网格,评论家可提供精确可操作的布局修正建议。

图 5: 视觉锚点提示将画布划分为 6×6 网格,便于精准空间指导。

视觉锚点提示 (Visual Anchor Prompt): 将连续位置映射为离散锚点。评论家会:

  • 占用表: 跟踪元素位置与比例。
  • 可操作的网格指令: 如“将猫图标从 D2 移动到 B2”。
  • 与编码器迭代反馈,保证布局清晰易读。

实验结果: 代码 vs. 像素

主要结果比较,涵盖 Code2Video、人工视频、像素生成模型和直接代码生成在效率、美学与 TeachQuiz 的表现。

表 1: Code2Video 在关键指标上远超像素生成模型,接近人工水平。

主要发现:

  • 基于像素的扩散模型: 在逻辑流程和 TeachQuiz 上几乎得零分,输出内容完全不适于教学。
  • 直接生成 Manim 代码: 大幅提升——验证了代码中心方法的有效性。
  • Code2Video 智能体框架: 相比直接代码生成,Claude Opus 4.1 的美学评分提升最高可达 50%,TeachQuiz 提升 46%。
  • 缩小与人工差距: 虽在叙事细腻度上仍逊于 3Blue1Brown,但在结构化传授知识上已非常高效。

定性对比,展示 Code2Video 输出的清晰与连贯,相比领先的像素生成模型 Veo3 的模糊与不一致优势明显。

图 6: 清晰文本、稳定布局、连贯动画——Code2Video vs. 像素生成的 Veo3。


为什么有效: 组件消融研究

消融研究结果,显示每个组件对最终视频质量的影响。规划器最为关键。

表 2: 移除规划器会严重降低质量——教学结构至关重要。

  • 规划器: 最关键——缺失会让美学与 TeachQuiz 分数下降约 40 分。
  • 外部数据库与视觉锚点: 稳定布局并增强概念呈现。
  • 评论家: 提升优化效果,消除布局缺陷。

效率组件消融研究表明,并行化与 ScopeRefine 对缩短生成时间和降低 token 成本至关重要。

表 3: 并行化与 ScopeRefine 对实现可行的生成时长不可或缺。

效率洞察:

  • 移除并行执行 → 每主题耗时由 15 分增至超过 86 分钟。
  • 移除 ScopeRefine → 调试开销剧增。

人类研究: 真实学习者的洞见

人类研究结果显示与 VLM 评分高度一致,同时人类对布局错误和注意力限制更为敏感。

表 4: 人类偏好与 VLM 评估一致,但对视觉缺陷更为敏感。

观察:

  • 对布局的敏感性: 人类对微小遮挡的惩罚更严厉。
  • 完成意愿: 较长视频即使质量高也减少了年轻观众的完成率。
  • 相关性: 视觉吸引力与学习效果高度相关 (r = 0.971)。

结论: 生成式教育媒体的新篇章

Code2Video 标志着生成视频的范式转变——从像素合成到代码合成:

  • 可控性与可解释性: 明确脚本化每个视觉与时间细节。
  • 智能体协作: 规划器、编码器和评论家分解创作流程,提升质量与稳定性。
  • 创新评估: TeachQuiz 与 MMMC 基准重新定义教育视频的好坏标准。

虽然人类教育者的艺术水准依旧是金标准,但 Code2Video 为实现可扩展、高质量的 AI 辅助教学媒体提供了明确路径——在未来,课程将用精准的代码语言构建,每一帧皆为学习服务。