引言: “一体化” AI 的困境
在人工智能飞速发展的今天,构建终极“一体化” (All-in-One) 模型的竞赛正如火如荼。我们已经看到了像 GPT-4 和 LLaVA 这样能看、能读、能推理的多模态大型语言模型 (MLLM) 。我们也看到了像 Stable Diffusion 和 Sora 这样能创造惊人图像和视频的生成式模型。
自然地,业界的直觉是将这些能力融合到一个巨大的神经网络中——一个能同时生成、编辑、分割并回答问题的“万事通”。虽然像 Emu3 和 Omni-Gen 这样的模型在这方面已取得进展,但它们面临着一个巨大的障碍: 冲突的目标 。 训练一个模型严格地推理图像 (理解) 往往与训练它构想新像素 (生成) 相冲突。此外,这些庞大的全能模型训练成本极高且难以扩展。如果下个月出了一个更好的图像生成器,你不得不重新训练整个庞大的模型来使用它。
Olympus 应运而生。

由牛津大学和微软的研究人员提出的 Olympus 采取了一种根本不同的方法。Olympus 不试图成为完成每项工作的工具,而是充当通用任务路由器 (Universal Task Router) 。它的功能就像一位首席指挥家或项目经理。它利用 MLLM 的推理能力来理解你的需求,然后智能地将繁重的工作委派给专门的“专家”模型。
无论你是想生成一个龙的 3D 模型,编辑一段火焰视频,还是仅仅询问一个人穿着什么,Olympus 都能处理整个工作流。如上图 1 所示,它覆盖了 20 多种不同的计算机视觉任务,无缝桥接了理解和生成之间的鸿沟。
在这篇深度文章中,我们将探索 Olympus 如何工作,驱动它的巧妙“路由 Token”机制,以及为什么这种模块化方法可能是可扩展 AI 的未来。
背景: 站在巨人的肩膀上
要理解为什么 Olympus 是一个如此巧妙的解决方案,我们需要看看多模态 AI 的当前格局。
视觉 AI 的两个世界
目前,视觉任务通常分为两大阵营:
- 视觉-语言理解 (VQA): 主要是像 LLaVA 或 MiniGPT-4 这样的模型。它们接收图像和文本作为输入并输出文本。它们擅长回答像“这辆车是什么颜色的?”或“解释这个梗”这样的问题。
- 视觉生成与编辑: 主要是扩散模型 (如 Stable Diffusion) 或 GAN。它们接收文本 (或图像) 作为输入并输出新的像素。它们擅长“画一个赛博朋克城市”或“让这张照片看起来像油画”。
“一体化”的挣扎
最近的研究试图通过训练巨大的 Transformer 来统一这些任务,这些 Transformer 会预测“下一个 Token”,而不管这些 Token 代表的是文本还是图像块。虽然很有前景,但这种方法在计算上极其消耗资源。例如,Omni-Gen 需要超过 100 个专用 GPU 和复杂的多阶段训练。
“工具使用”的先行者
使用 LLM 调用外部工具的想法并不新鲜。 HuggingGPT 是这一领域的先驱,它使用 ChatGPT 来解释用户提示并调用 Hugging Face Hub 中的模型。然而,HuggingGPT 依赖于“提示工程”——本质上是好言相劝地让 ChatGPT 选择一个工具。它并没有被训练成为路由器,这使得它在处理复杂、多步骤的视觉任务时容易出错且难以控制。
Olympus 通过专门针对路由进行微调 (fine-tuning) 改进了这一点。它不仅仅是猜测;它学会了一套专门的词汇来高精度地控制专家模型。
核心方法: 作为控制器的 Olympus
Olympus 背后的哲学很简单: 让 MLLM 做它最擅长的事 (上下文理解) ,让专门的模型做它们最擅长的事 (像素级操作) 。
架构
Olympus 框架使用一个多模态大型语言模型 (具体基于 Mipha 或 LLaVA 等架构) 作为中央大脑。当用户提供指令和图像时,Olympus 会分析请求以确定任务的性质。

如图 3 所示,工作流分为两条路径:
- 直接解决 (内部) : 如果用户问像“这只动物在做什么?”这样的问题,MLLM 使用其自身的权重生成文本回复。不需要外部工具。
- 路由 (外部) : 如果用户要求“在狗旁边加几本书”,MLLM 会识别出这是一个编辑任务。它不再尝试自己操作像素,而是生成一个包含特定任务路由 Token (Task-Specific Routing Tokens) 和优化后提示词的响应。
该输出随后被解析,并触发相应的专家模型 (在本例中,是一个像 InstructPix2Pix 这样的图像编辑模型) 来执行动作。
特定任务路由 Token
这是 Olympus 的“秘方”。研究人员扩展了 MLLM 的词表,加入了代表不同能力的特定 Token。

查看上表,你可以看到这些控制有多么细致。这里不仅仅有一个通用的“做视觉任务”的 Token。而是有特定的 Token 用于:
<image_gen>用于创建图像。<image_edit>用于修改现有图像。<3D_gen_text>用于从文本创建 3D 资产。<video_ref_seg>用于分割视频中的对象。
通过训练模型输出这些特定的类 XML 标签,Olympus 确保了“大脑” (MLLM) 和“手” (专家模型) 之间的交接是明确无误的。
专家小队
Olympus 没有为每个任务重新发明轮子。它利用了当今可用的最佳开源模型。

如表 9 所示,Olympus 使用了行业标准模型,如用于生成的 Stable Diffusion XL , 用于引导创作的 ControlNet , 以及用于 3D 建模的 Wonder3D 。 这种模块化设计意味着,如果明天发布了更好版本的 Stable Diffusion,Olympus 可以立即使用它,而无需重新训练。它只需要将请求路由到新模型即可。
训练路由器: OlympusInstruct 数据集
你不能只是告诉一个标准 LLM 输出 <image_edit> Token 并期望它能工作。它需要经过训练。由于不存在结合了视觉对话和这种特定类型工具路由的数据集,研究人员构建了他们自己的数据集: OlympusInstruct 。
他们利用 GPT-4o 生成了大量的指令-响应对。他们精心设计了提示,以确保语言风格、语气和复杂度的多样性。

图 4 展示了他们如何提示 GPT-4o。他们要求在措辞 (“有没有办法…”,“如果你能…我会很感激”) 和复杂度 (短、中、长) 上进行变化。
由此产生的数据集规模相当可观:

如上面的统计数据所示,该数据集包含超过 446,000 个训练样本 。 注意“行动链” (Chain-of-Action) 的长条——这是我们接下来要讨论的内容,因为它是 Olympus 最强大的功能之一。
训练过程本身是一个标准的下一个 Token 预测任务,微调 MLLM 以根据视觉和文本输入预测正确的路由 Token 和优化的提示词。

行动链: 序列化的力量
现实世界的请求很少是简单的。用户可能会说,“生成一张城堡的图片,然后把它变成冬天的场景。” 标准模型可能难以一次性完成这两件事。
Olympus 引入了 行动链 (Chain-of-Action) 能力。因为它使用路由 Token,所以它可以将它们串联起来。
如果用户说: “基于这个姿势生成一座宏伟的城堡,然后添加绿树。”
Olympus 预测:
<pose_to_image>a majestic castle</pose_to_image> 然后 <image_edit>adding green trees</image_edit>
它执行第一个模型,获取结果,将其输入第二个模型,并返回最终输出。

数据集包含超过 64,000 个这种链式动作的示例,其中一些指令涉及多达 5 个顺序任务。这使 Olympus 从一个简单的路由器变成了一个复杂的工作流自动化工具。
实验与结果
这种模块化方法真的比以前的方法更好吗?研究人员将 Olympus 与 HuggingGPT 和标准 MLLM 基准进行了测试。
路由性能
Olympus 最关键的指标是: 它选对工具了吗?
研究人员创建了一个名为 OlympusBench 的基准测试。他们将 Olympus 与 HuggingGPT (由 GPT-4o 驱动,一个大得多的模型) 进行了比较。

表 2 中的结果令人震惊。Olympus 在单任务路由方面达到了 94.75% 的准确率 , 而 HuggingGPT (GPT-4o) 仅为 81.35%。这个巨大的差距 (超过 13%) 证明了专门针对路由进行微调的价值,而不是依赖通用聊天机器人的零样本推理。
在复杂的多步骤任务中,差距变得更大。

在行动链场景中 (表 13) ,Olympus 保持了高精确率 (91.82%) ,彻底超越了提示工程方法。
多模态理解
针对新任务 (路由) 微调模型的一个担忧是“灾难性遗忘”——它可能会失去理解图像的原始能力。

表 11 显示,Olympus (基于 Mipha-3B) 与 LLaVA 和 Qwen-VL 等最先进的模型并驾齐驱。在 VisWiz 和 MM-Vet 等一些基准测试中,它甚至显示出轻微的提升。这证实了教模型路由任务并不会降低其视觉推理能力。
定性结果: 眼见为实
数字很好,但在计算机视觉中,像素才是证据。让我们看看 Olympus 实际上能创造什么。

在图 10 中,我们看到了它的多功能性:
- 第 1 列: 它接收深度图 (顶部) 并生成一个度假村。它接收涂鸦 (底部) 并制作一把逼真的椅子。
- 第 4 列: 它执行复杂的分割和视频生成。
但最令人印象深刻的演示来自其 行动链 和 迭代 能力。

在图 11 (第 1 列) 中,我们看到了明显的编辑任务: 给猫添加花朵或调亮视频。在第 2 列中,它将 2D 汽车图像转换为 3D 模型。
这些例子证明,Olympus 有效地桥接了不同模态之间的鸿沟。它在单一统一界面内实现了 文本 -> 图像 -> 3D -> 视频 的流动。
效率
最后,关于训练成本的一点说明。训练庞大的“一体化”模型通常需要数千个 GPU 小时。

如图 7 所示,与基础模型相比,增加路由 20 个不同任务的能力仅增加了约 23.6% 的训练时间。这非常高效,因为 Olympus 不是在学习如何生成像素;它只是在学习如何要求专家去做这件事。
结论: 未来是模块化的
Olympus 代表了多模态 AI 思维的转变。它不是构建一个单体,而是构建一个管理者。
主要收获:
- 统一控制: Olympus 使用单一界面控制 20 多个不同的视觉任务。
- 可扩展性: 它集成了现有的最先进模型 (如 Stable Diffusion 和 Wonder3D) ,而不是重新训练它们,使其易于升级。
- 高准确性: 通过专门针对路由进行微调 (使用 OlympusInstruct 数据集) ,它大幅超越了像 HuggingGPT 这样基于提示的控制器。
- 复杂工作流: 行动链能力允许模仿人类工作流程的多步骤创造性过程。
随着 AI 领域产生越来越多专门的“专家”模型——用于更好的 3D 渲染、更流畅的视频或更精确的医学成像——像 Olympus 这样的框架将变得至关重要。它们提供了将孤立工具集合转变为内聚、智能系统的连接组织。
最终,Olympus 告诉我们,你不必成为“万事通”才能成为大师。你只需要知道该给谁打电话。
](https://deep-paper.org/en/paper/2412.09612/images/cover.png)