引言: “一体化” AI 的困境

在人工智能飞速发展的今天,构建终极“一体化” (All-in-One) 模型的竞赛正如火如荼。我们已经看到了像 GPT-4 和 LLaVA 这样能看、能读、能推理的多模态大型语言模型 (MLLM) 。我们也看到了像 Stable Diffusion 和 Sora 这样能创造惊人图像和视频的生成式模型。

自然地,业界的直觉是将这些能力融合到一个巨大的神经网络中——一个能同时生成、编辑、分割并回答问题的“万事通”。虽然像 Emu3 和 Omni-Gen 这样的模型在这方面已取得进展,但它们面临着一个巨大的障碍: 冲突的目标 。 训练一个模型严格地推理图像 (理解) 往往与训练它构想新像素 (生成) 相冲突。此外,这些庞大的全能模型训练成本极高且难以扩展。如果下个月出了一个更好的图像生成器,你不得不重新训练整个庞大的模型来使用它。

Olympus 应运而生。

Olympus 展示了跨越 20 多种不同任务的通用能力,从文本到图像生成到姿态估计和图像编辑。

由牛津大学和微软的研究人员提出的 Olympus 采取了一种根本不同的方法。Olympus 不试图成为完成每项工作的工具,而是充当通用任务路由器 (Universal Task Router) 。它的功能就像一位首席指挥家或项目经理。它利用 MLLM 的推理能力来理解你的需求,然后智能地将繁重的工作委派给专门的“专家”模型。

无论你是想生成一个龙的 3D 模型,编辑一段火焰视频,还是仅仅询问一个人穿着什么,Olympus 都能处理整个工作流。如上图 1 所示,它覆盖了 20 多种不同的计算机视觉任务,无缝桥接了理解和生成之间的鸿沟。

在这篇深度文章中,我们将探索 Olympus 如何工作,驱动它的巧妙“路由 Token”机制,以及为什么这种模块化方法可能是可扩展 AI 的未来。


背景: 站在巨人的肩膀上

要理解为什么 Olympus 是一个如此巧妙的解决方案,我们需要看看多模态 AI 的当前格局。

视觉 AI 的两个世界

目前,视觉任务通常分为两大阵营:

  1. 视觉-语言理解 (VQA): 主要是像 LLaVA 或 MiniGPT-4 这样的模型。它们接收图像和文本作为输入并输出文本。它们擅长回答像“这辆车是什么颜色的?”或“解释这个梗”这样的问题。
  2. 视觉生成与编辑: 主要是扩散模型 (如 Stable Diffusion) 或 GAN。它们接收文本 (或图像) 作为输入并输出新的像素。它们擅长“画一个赛博朋克城市”或“让这张照片看起来像油画”。

“一体化”的挣扎

最近的研究试图通过训练巨大的 Transformer 来统一这些任务,这些 Transformer 会预测“下一个 Token”,而不管这些 Token 代表的是文本还是图像块。虽然很有前景,但这种方法在计算上极其消耗资源。例如,Omni-Gen 需要超过 100 个专用 GPU 和复杂的多阶段训练。

“工具使用”的先行者

使用 LLM 调用外部工具的想法并不新鲜。 HuggingGPT 是这一领域的先驱,它使用 ChatGPT 来解释用户提示并调用 Hugging Face Hub 中的模型。然而,HuggingGPT 依赖于“提示工程”——本质上是好言相劝地让 ChatGPT 选择一个工具。它并没有被训练成为路由器,这使得它在处理复杂、多步骤的视觉任务时容易出错且难以控制。

Olympus 通过专门针对路由进行微调 (fine-tuning) 改进了这一点。它不仅仅是猜测;它学会了一套专门的词汇来高精度地控制专家模型。


核心方法: 作为控制器的 Olympus

Olympus 背后的哲学很简单: 让 MLLM 做它最擅长的事 (上下文理解) ,让专门的模型做它们最擅长的事 (像素级操作) 。

架构

Olympus 框架使用一个多模态大型语言模型 (具体基于 Mipha 或 LLaVA 等架构) 作为中央大脑。当用户提供指令和图像时,Olympus 会分析请求以确定任务的性质。

Olympus 框架允许 MLLM 直接解决理解类任务,同时通过路由 Token 将生成类任务路由到专门的外部模型。

如图 3 所示,工作流分为两条路径:

  1. 直接解决 (内部) : 如果用户问像“这只动物在做什么?”这样的问题,MLLM 使用其自身的权重生成文本回复。不需要外部工具。
  2. 路由 (外部) : 如果用户要求“在狗旁边加几本书”,MLLM 会识别出这是一个编辑任务。它不再尝试自己操作像素,而是生成一个包含特定任务路由 Token (Task-Specific Routing Tokens) 和优化后提示词的响应。

该输出随后被解析,并触发相应的专家模型 (在本例中,是一个像 InstructPix2Pix 这样的图像编辑模型) 来执行动作。

特定任务路由 Token

这是 Olympus 的“秘方”。研究人员扩展了 MLLM 的词表,加入了代表不同能力的特定 Token。

Olympus 用于分类和委派 20 个不同任务 (跨越图像、视频和 3D 领域) 的特定任务路由 Token 综合列表。

查看上表,你可以看到这些控制有多么细致。这里不仅仅有一个通用的“做视觉任务”的 Token。而是有特定的 Token 用于:

  • <image_gen> 用于创建图像。
  • <image_edit> 用于修改现有图像。
  • <3D_gen_text> 用于从文本创建 3D 资产。
  • <video_ref_seg> 用于分割视频中的对象。

通过训练模型输出这些特定的类 XML 标签,Olympus 确保了“大脑” (MLLM) 和“手” (专家模型) 之间的交接是明确无误的。

专家小队

Olympus 没有为每个任务重新发明轮子。它利用了当今可用的最佳开源模型。

列出 Olympus 针对 20 个任务使用的特定专家模型的表格,例如用于生成的 Stable Diffusion XL 和用于可控生成的 ControlNet。

如表 9 所示,Olympus 使用了行业标准模型,如用于生成的 Stable Diffusion XL , 用于引导创作的 ControlNet , 以及用于 3D 建模的 Wonder3D 。 这种模块化设计意味着,如果明天发布了更好版本的 Stable Diffusion,Olympus 可以立即使用它,而无需重新训练。它只需要将请求路由到新模型即可。

训练路由器: OlympusInstruct 数据集

你不能只是告诉一个标准 LLM 输出 <image_edit> Token 并期望它能工作。它需要经过训练。由于不存在结合了视觉对话和这种特定类型工具路由的数据集,研究人员构建了他们自己的数据集: OlympusInstruct

他们利用 GPT-4o 生成了大量的指令-响应对。他们精心设计了提示,以确保语言风格、语气和复杂度的多样性。

用于指导 GPT-4o 为图像编辑任务生成多样化指令-响应对的提示示例。

图 4 展示了他们如何提示 GPT-4o。他们要求在措辞 (“有没有办法…”,“如果你能…我会很感激”) 和复杂度 (短、中、长) 上进行变化。

由此产生的数据集规模相当可观:

数据集统计显示了不同任务的样本分布,其中很大一部分专门用于行动链和可控视频生成。

如上面的统计数据所示,该数据集包含超过 446,000 个训练样本 。 注意“行动链” (Chain-of-Action) 的长条——这是我们接下来要讨论的内容,因为它是 Olympus 最强大的功能之一。

训练过程本身是一个标准的下一个 Token 预测任务,微调 MLLM 以根据视觉和文本输入预测正确的路由 Token 和优化的提示词。

用于训练 Olympus 的损失函数,基于标准的下一个 Token 预测概率。

行动链: 序列化的力量

现实世界的请求很少是简单的。用户可能会说,“生成一张城堡的图片,然后把它变成冬天的场景。” 标准模型可能难以一次性完成这两件事。

Olympus 引入了 行动链 (Chain-of-Action) 能力。因为它使用路由 Token,所以它可以将它们串联起来。

如果用户说: “基于这个姿势生成一座宏伟的城堡,然后添加绿树。”

Olympus 预测: <pose_to_image>a majestic castle</pose_to_image> 然后 <image_edit>adding green trees</image_edit>

它执行第一个模型,获取结果,将其输入第二个模型,并返回最终输出。

行动链指令分布饼图,大多数涉及 2 或 3 个顺序任务。

数据集包含超过 64,000 个这种链式动作的示例,其中一些指令涉及多达 5 个顺序任务。这使 Olympus 从一个简单的路由器变成了一个复杂的工作流自动化工具。


实验与结果

这种模块化方法真的比以前的方法更好吗?研究人员将 Olympus 与 HuggingGPT 和标准 MLLM 基准进行了测试。

路由性能

Olympus 最关键的指标是: 它选对工具了吗?

研究人员创建了一个名为 OlympusBench 的基准测试。他们将 Olympus 与 HuggingGPT (由 GPT-4o 驱动,一个大得多的模型) 进行了比较。

评估结果显示,在单任务路由方面,Olympus 在准确率、精确率、召回率和 F1 分数上显著优于 HuggingGPT。

表 2 中的结果令人震惊。Olympus 在单任务路由方面达到了 94.75% 的准确率 , 而 HuggingGPT (GPT-4o) 仅为 81.35%。这个巨大的差距 (超过 13%) 证明了专门针对路由进行微调的价值,而不是依赖通用聊天机器人的零样本推理。

在复杂的多步骤任务中,差距变得更大。

行动链任务的评估结果,Olympus 表现出卓越的性能,与 HuggingGPT 相比具有更低的编辑距离和更高的精确率。

在行动链场景中 (表 13) ,Olympus 保持了高精确率 (91.82%) ,彻底超越了提示工程方法。

多模态理解

针对新任务 (路由) 微调模型的一个担忧是“灾难性遗忘”——它可能会失去理解图像的原始能力。

Olympus 与各种最先进的 MLLM 在 11 个基准测试中的比较,显示出相当或更优的性能。

表 11 显示,Olympus (基于 Mipha-3B) 与 LLaVA 和 Qwen-VL 等最先进的模型并驾齐驱。在 VisWiz 和 MM-Vet 等一些基准测试中,它甚至显示出轻微的提升。这证实了教模型路由任务并不会降低其视觉推理能力。

定性结果: 眼见为实

数字很好,但在计算机视觉中,像素才是证据。让我们看看 Olympus 实际上能创造什么。

Olympus 输出的拼贴画,展示了文本到图像生成、姿态估计和复杂行动链工作流等多样的能力。

在图 10 中,我们看到了它的多功能性:

  • 第 1 列: 它接收深度图 (顶部) 并生成一个度假村。它接收涂鸦 (底部) 并制作一把逼真的椅子。
  • 第 4 列: 它执行复杂的分割和视频生成。

但最令人印象深刻的演示来自其 行动链迭代 能力。

图像编辑、3D 生成和视觉问答的示例,突出了模型处理多样化输入和请求的能力。

在图 11 (第 1 列) 中,我们看到了明显的编辑任务: 给猫添加花朵或调亮视频。在第 2 列中,它将 2D 汽车图像转换为 3D 模型。

这些例子证明,Olympus 有效地桥接了不同模态之间的鸿沟。它在单一统一界面内实现了 文本 -> 图像 -> 3D -> 视频 的流动。

效率

最后,关于训练成本的一点说明。训练庞大的“一体化”模型通常需要数千个 GPU 小时。

图表说明了训练时间成本,显示随着任务数量从 0 增加到 20,GPU 小时的增加幅度很小。

如图 7 所示,与基础模型相比,增加路由 20 个不同任务的能力仅增加了约 23.6% 的训练时间。这非常高效,因为 Olympus 不是在学习如何生成像素;它只是在学习如何要求专家去做这件事。


结论: 未来是模块化的

Olympus 代表了多模态 AI 思维的转变。它不是构建一个单体,而是构建一个管理者。

主要收获:

  1. 统一控制: Olympus 使用单一界面控制 20 多个不同的视觉任务。
  2. 可扩展性: 它集成了现有的最先进模型 (如 Stable Diffusion 和 Wonder3D) ,而不是重新训练它们,使其易于升级。
  3. 高准确性: 通过专门针对路由进行微调 (使用 OlympusInstruct 数据集) ,它大幅超越了像 HuggingGPT 这样基于提示的控制器。
  4. 复杂工作流: 行动链能力允许模仿人类工作流程的多步骤创造性过程。

随着 AI 领域产生越来越多专门的“专家”模型——用于更好的 3D 渲染、更流畅的视频或更精确的医学成像——像 Olympus 这样的框架将变得至关重要。它们提供了将孤立工具集合转变为内聚、智能系统的连接组织。

最终,Olympus 告诉我们,你不必成为“万事通”才能成为大师。你只需要知道该给谁打电话。