忘掉像素，生成代码：深入解读 Code2Video 如何创作教育视频

我们都见证了人工智能驱动的视频生成技术所取得的惊人飞跃。像 Sora 这样的模型，能将简单的文本提示转化为令人惊叹、媲美真实照片的视频片段。但当你需要创作的视频不仅要好看，还要能真正传授知识时，情况又会如何呢？

想一想你在 3Blue1Brown 这类 YouTube 频道上看到的教育视频——它们充满了精确的动画、清晰的公式，以及引导你理解复杂主题的逻辑流程。这些视频不仅仅是娱乐，它们一步步地构建和巩固知识。

目前在像素空间中运作的视频生成模型，难以胜任这项任务。它们擅长生成具有美感的纹理和流畅的动态，但缺乏结构化教育内容所必需的精细控制。生成的文本常常乱码，图表可能不一致，而课程的逻辑递进几乎无法保证。

来自新加坡国立大学的 CODE2VIDEO 作者提出了一种颠覆性的构想:** 不直接生成像素，而是生成渲染视频的代码。** 这种以代码为中心的方式，提供了教育视频所需的可控性、可解释性和可扩展性。

在本文中，我们将探讨他们开创性的系统——Code2Video——一个基于智能体的框架，使用大语言模型 (LLM) 编写 Python 代码来生成高质量教育视频。我们还将解析 MMMC，一个全新的基准体系，不仅衡量视频的视觉吸引力，还评估其有效传授知识的能力。

Code2Video 框架及其在 MMMC 基准上的评估概览。与基于像素的方法不同，以代码为中心的范式提供了可扩展性、可解释性和可控性。

图 1: Code2Video 概览。该系统包含三个智能体——规划器 (Planner) 、编码器 (Coder) 和评论家 (Critic) ——将一个学习主题转化为教育视频，并在 MMMC 基准上从效率、美学和知识传递进行评估。

像素在教学中的问题

标准的文本到视频模型 (无论是基于扩散还是自回归) 通过预测帧或对潜在表示进行去噪来生成视频——也就是逐个像素地合成。虽然这能生成短小且视觉上令人愉悦的片段，但在教育内容方面却常常失效:

时间连贯性: 有效的课程遵循叙事弧线——先引入概念，再用示例说明，并逐步引导到更高级的思想。像素生成器本身无法理解教学的递进。
空间清晰度: 精确的视觉效果至关重要。在数学教程中，一个被动画遮挡或字迹不清的公式足以破坏理解。像素模型常常无法实现精准的元素放置和清晰的文字渲染。
可控性与可编辑性: 想调整公式中的一个数字或修改动画时间？在像素生成的结果中，这需要重新生成整个片段——可能损失质量与一致性。

代码解决了这些问题。每一个位置、时序和元素都被明确定义，视频可从代码重新渲染并产生可预测的变化，同时保有结构性与灵活性。

MMMC 与 TeachQuiz: 评估教育效果

在深入探讨 Code2Video 的工作原理前，我们需要先了解如何衡量成功。传统的视频质量指标不适用于教育材料——清晰度、逻辑顺序和知识传递比电影般华丽的效果更重要。

MMMC——海量多学科多模态编码 (Massive Multi-discipline Multimodal Coding) ——是这项工作提出的评估基准。它包含:

117 个专业制作的教育视频，来自 3Blue1Brown，覆盖 13 门学科 (微积分、物理、拓扑学等) 。
所有视频均使用 Manim 创作，这是一个功能强大的 Python 数学动画库，非常适合作为代码生成的参考。

MMMC 基准概览，展示了其多样化的类别、常见学习主题及主题长度分布。

图 2: MMMC 涵盖了广泛的学科和精心挑选的主题，确保评估全面性。

评估包含三个维度:

效率: 平均生成时间和 token 消耗。
美学 (VLM-as-a-Judge) : 由视觉语言模型 (VLM) 在五个标准上评分——元素布局 (EL)、吸引力 (AT)、逻辑流程 (LF)、视觉一致性 (VC) 以及准确性与深度 (AD)，每个标准满分 100 分。
TeachQuiz: 最新颖的指标——量化知识传递能力。

TeachQuiz 的两阶段过程，用于在模型被强制遗忘某概念后，通过重新学习视频来衡量其知识传递效果。

图 3: TeachQuiz 通过比较观看视频前后的测试分数，隔离出视频的教育价值。

TeachQuiz: 强制模型从视频中学习

TeachQuiz 分为两个阶段:

遗忘: 让 VLM “忘记”一个目标概念——屏蔽现有知识——然后回答多项选择测验，分数会急剧下降。
从视频中学习: 遗忘后的模型观看 AI 生成的教育视频，然后仅凭视频内容重新作答。

TeachQuiz 得分即为分数提升量:

\[ \widetilde{S}(\mathcal{V}) = S(\mathcal{V}) - S(\mathcal{V} \mid \text{unlearn}) \]

这可以剔除先验知识的影响，纯粹衡量视频的教学能力。分数越高说明教学效果越好。

Code2Video 框架: 三个智能体，一个目标

Code2Video 的完整流程，从用户查询到生成教育视频，由规划器、编码器和评论家协同完成。

图 4: Code2Video 将主题查询转化为教学逻辑连贯、视觉清晰的教育视频。

1. 规划器 (Planner) – 设计课程蓝图

规划器是教学的总设计师:

生成大纲: 按照受众的需求将主题分解成逻辑有序的部分。
构建故事板: 将大纲扩展成讲解稿及对应的动画内容。
访问外部数据库: 检索参考图像和视觉素材，确保清晰与一致，并可缓存以复用。

输出: 结构化的教学计划，保障逻辑与视觉的一致性。

2. 编码器 (Coder) – 生成动画

编码器将故事板转化为可执行的 Manim 代码。

挑战: LLM 罕有一次性生成既正确又可运行的代码，语法错误和运行错误都会中断渲染。

解决方案:

并行代码生成: 每个章节独立生成，提升速度并隔离错误。
ScopeRefine 调试: 分层修复策略:
- 行级范围: 先尝试微小的局部修正。
- 块级范围: 必要时扩展至相关代码块。
- 全局范围: 万不得已时才重生成整个章节。

3. 评论家 (Critic) – 优化视觉布局

即使代码无误，也可能出现重叠元素、文字遮挡或布局不平衡的问题。

视觉锚点提示系统示意图。通过将画布划分为网格，评论家可提供精确可操作的布局修正建议。

图 5: 视觉锚点提示将画布划分为 6×6 网格，便于精准空间指导。

视觉锚点提示 (Visual Anchor Prompt): 将连续位置映射为离散锚点。评论家会:

占用表: 跟踪元素位置与比例。
可操作的网格指令: 如“将猫图标从 D2 移动到 B2”。
与编码器迭代反馈，保证布局清晰易读。

实验结果: 代码 vs. 像素

主要结果比较，涵盖 Code2Video、人工视频、像素生成模型和直接代码生成在效率、美学与 TeachQuiz 的表现。

表 1: Code2Video 在关键指标上远超像素生成模型，接近人工水平。

主要发现:

基于像素的扩散模型: 在逻辑流程和 TeachQuiz 上几乎得零分，输出内容完全不适于教学。
直接生成 Manim 代码: 大幅提升——验证了代码中心方法的有效性。
Code2Video 智能体框架: 相比直接代码生成，Claude Opus 4.1 的美学评分提升最高可达 50%，TeachQuiz 提升 46%。
缩小与人工差距: 虽在叙事细腻度上仍逊于 3Blue1Brown，但在结构化传授知识上已非常高效。

定性对比，展示 Code2Video 输出的清晰与连贯，相比领先的像素生成模型 Veo3 的模糊与不一致优势明显。

图 6: 清晰文本、稳定布局、连贯动画——Code2Video vs. 像素生成的 Veo3。

为什么有效: 组件消融研究

消融研究结果，显示每个组件对最终视频质量的影响。规划器最为关键。

表 2: 移除规划器会严重降低质量——教学结构至关重要。

规划器: 最关键——缺失会让美学与 TeachQuiz 分数下降约 40 分。
外部数据库与视觉锚点: 稳定布局并增强概念呈现。
评论家: 提升优化效果，消除布局缺陷。

效率组件消融研究表明，并行化与 ScopeRefine 对缩短生成时间和降低 token 成本至关重要。

表 3: 并行化与 ScopeRefine 对实现可行的生成时长不可或缺。

效率洞察:

移除并行执行 → 每主题耗时由 15 分增至超过 86 分钟。
移除 ScopeRefine → 调试开销剧增。

人类研究: 真实学习者的洞见

人类研究结果显示与 VLM 评分高度一致，同时人类对布局错误和注意力限制更为敏感。

表 4: 人类偏好与 VLM 评估一致，但对视觉缺陷更为敏感。

观察:

对布局的敏感性: 人类对微小遮挡的惩罚更严厉。
完成意愿: 较长视频即使质量高也减少了年轻观众的完成率。
相关性: 视觉吸引力与学习效果高度相关 (r = 0.971)。

结论: 生成式教育媒体的新篇章

Code2Video 标志着生成视频的范式转变——从像素合成到代码合成:

可控性与可解释性: 明确脚本化每个视觉与时间细节。
智能体协作: 规划器、编码器和评论家分解创作流程，提升质量与稳定性。
创新评估: TeachQuiz 与 MMMC 基准重新定义教育视频的好坏标准。

虽然人类教育者的艺术水准依旧是金标准，但 Code2Video 为实现可扩展、高质量的 AI 辅助教学媒体提供了明确路径——在未来，课程将用精准的代码语言构建，每一帧皆为学习服务。

像素在教学中的问题#

MMMC 与 TeachQuiz: 评估教育效果#

TeachQuiz: 强制模型从视频中学习#

Code2Video 框架: 三个智能体，一个目标#

1. 规划器 (Planner) – 设计课程蓝图#

2. 编码器 (Coder) – 生成动画#

3. 评论家 (Critic) – 优化视觉布局#

实验结果: 代码 vs. 像素#

为什么有效: 组件消融研究#

人类研究: 真实学习者的洞见#

结论: 生成式教育媒体的新篇章#