引言: 探寻通用的视觉语言

在人工智能的世界里,像 GPT-4 这样的大语言模型 (LLM) 已经成为泛化大师。单个模型可以编写代码、翻译语言,并对复杂主题进行推理。这一成功的关键因素之一是看似不起眼的 **分词器 **(tokenizer) ——一个将所有形式的文本 (代码、散文、表格) 分解为一套共享、统一的词元 (token) 的组件。这种“通用语言”使得模型能够高效扩展,并在不同任务间无缝迁移知识。

但视觉领域又如何呢?虽然人工智能可以生成令人惊叹的图像并理解复杂的场景,但视觉 AI 生态系统仍然是割裂的。我们用来 生成 图像的模型 (如 Stable Diffusion 中的 VAE) 与我们用来 理解 图像的模型 (如 CLIP) 在根本上是不同的。此外,大多数模型都专精于单一模态: 图像模型无法处理视频,而视频模型对 3D 几何没有概念。这种割裂阻碍了我们在 LLM 中看到的那种跨任务泛化能力。

如果我们能为所有视觉数据创建一种单一、统一的“语言”呢?来自苹果公司的研究人员在他们最近的论文中提出了这一想法,并介绍了 ATOKEN——首个旨在不仅统一不同任务 (生成和理解) ,还统一不同模态 (图像、视频和 3D 资产) 的视觉分词器。

ATOKEN 为图像、视频和 3D 资产提供统一的表示,通过单一模型即可实现高保真重建和强大的语义理解。

图 1: ATOKEN 为图像、视频和 3D 资产提供了统一的表示,通过一个模型即可实现高保真重建和强大的语义理解。

ATOKEN 将这些多样化的输入编码到一个共享的潜在空间——一个像素、运动和几何共存的“交汇点”。在本文中,我们将探讨 ATOKEN 的设计,从其巧妙的 4D 表示到创新的训练策略,并审视为什么它可能是迈向下一代真正多模态 AI 的关键一步。


背景: 视觉 AI 的碎片化世界

要理解 ATOKEN 的成就,首先需要了解它试图统一的领域现状。长期以来,视觉 AI 沿着两条断层线分裂:** 任务专业化** 和 模态碎片化

巨大的鸿沟: 重建与理解

传统的视觉分词器通常属于以下两种类型之一:

  1. 专注于重建的分词器: 像 VAE 和 VQ-GAN (用于生成系统) 这样的模型专注于压缩和重建。它们保留了纹理和颜色等低级视觉细节,但缺乏语义理解——你可以精确地重建像素,却无法提取其含义。

  2. 专注于理解的编码器: 像 CLIP 和 SigLIP 这样的模型为图像与文本的配对生成高级语义嵌入。它们在分类和检索方面表现出色,但丢弃了精细的像素细节,使得原始重建变得不可能。

这种鸿沟意味着,一个能够描述图像的模型无法生成或编辑它,而一个能够生成逼真图像的模型却无法深入地对其进行推理。

巴别塔: 图像、视频与 3D

第二个碎片化来自模态的差异。图像是二维网格,视频是随时间变化的二维网格序列,而 3D 资产可以是网格 (mesh) 、体素 (voxel) 或高斯泼溅 (Gaussian splat) 。历史上,每种模态都有专门的架构——用 3D 卷积处理运动、用图网络处理几何——这使得用一个模型学习所有格式变得困难。

现有视觉分词器的比较,突出了它们在任务和模态上的专精。ATOKEN 是首个在重建、理解、图像、视频和 3D 方面提供统一支持的模型。

表 1: 现有视觉分词器的比较。大多数分词器专精于一项任务和一种模态;ATOKEN 是首个在重建、理解以及所有三种模态上提供统一支持的模型。


核心方法: ATOKEN 如何统一视觉

ATOKEN 的解决方案基于四大支柱:

  1. 统一的 4D 表示
  2. 纯粹的 Transformer 架构
  3. 无对抗的训练目标
  4. 渐进式训练课程

ATOKEN 架构概览。所有视觉输入都被转换为稀疏的 4D 表示,由一个共享的 Transformer 编码器处理,然后用于重建 (通过解码器) 和理解 (通过文本对齐) 。

图 2: 所有视觉输入都被转换为稀疏的 4D 表示,由一个共享的 Transformer 编码器处理,然后用于重建和语义对齐。

1. 统一的 4D 潜在空间

ATOKEN 将图像、视频和 3D 资产表示为 4D 坐标空间 (t, x, y, z) 中的稀疏点:

  • 图像: 一个 t=0z=0 的二维切片。
  • 视频: 沿 t 轴堆叠的切片,且 z=0
  • 3D 资产: 占据 (x, y, z) 空间中的体积,且 t=0

ATOKEN 使用稀疏的特征–位置对集合 z = {(z_i, p_i)},而不是密集的网格。模型只处理活跃位置,这使其高效且灵活。

相同的表示方式既支持通过解码器进行 **重建 **(单个 z_i 向量) ,也支持通过池化的全局嵌入进行 **理解 **(用于文本对齐) 。

2. 纯粹的 Transformer 架构

ATOKEN 调整了一个强大的二维编码器 SigLIP2 来处理 4D 数据:

  • 时空分块 (Space-Time Patching) : 将输入划分成 t × p × p 的块,以统一处理图像 (t=1) 和视频。
  • 4D 旋转位置编码 (RoPE) : 为模型提供四个维度上的相对位置信息,从而灵活适配不同的原始分辨率和时长。

对于 3D 资产,ATOKEN 使用了一个受 Trellis-SLAT 启发的多视图渲染流程: 渲染多个视图,将它们作为图像进行分词,然后把特征投影到 3D 体素网格中。

ATOKEN 的 3D 分词流水线。它渲染 3D 资产的多个视角图像,对其分词,然后聚合特征到 3D 体素空间。

图 3: 3D 资产的多视图渲染结果被分词,然后聚合为 3D 体素空间表示。

3. 无需对抗的稳定训练

使用 GAN 损失训练 Transformer 自动编码器往往会导致不稳定——判别器可能会压制生成器。ATOKEN 的分析表明,约 87% 的重建误差来自 协方差 部分 (风格、纹理) ,而只有 13% 来自均值 (结构) 。

GAN 训练的挑战及 ATOKEN 的解决方案。(a) GAN 训练不稳定。(b) 大部分重建误差来自纹理/风格。(c) 格拉姆矩阵损失直接优化这些统计量。

图 4: GAN 训练对 ATOKEN 的 Transformer 自动编码器来说是不稳定的。格拉姆矩阵损失通过直接优化纹理/风格的统计量来稳定训练。

解决方案是: 用 **格拉姆矩阵损失 **(Gram matrix loss) 取代对抗性训练,直接优化特征相关性,并结合感知损失 (L1、LPIPS、CLIP) 以兼顾像素精度和语义保真度。

4. 渐进式训练课程

跨模态和跨任务的训练需要平衡。ATOKEN 采用了四阶段的课程:

ATOKEN 的四阶段渐进式训练课程,从图像开始,逐步加入视频、3D 和可选的量化步骤。

图 5: 训练阶段逐步增加能力——图像、视频、3D 以及可选的离散分词。

  1. 图像基础: 仅进行图像重建训练。
  2. 视频动态: 加入视频的重建与理解任务。
  3. 3D 几何: 加入 3D 资产,并对所有模态联合优化。
  4. 离散分词 (可选) : 对潜向量进行量化,以兼容自回归模型。

关键发现: 多模态训练提升了单模态性能——在加入视频和 3D 之后,图像重建效果 更佳


实验与结果

模态的统一

视觉分词器的综合比较。ATOKEN 是唯一在所有任务和模态上都表现优异的方法,同时支持连续和离散词元。

表 3: ATOKEN 独特地实现了图像、视频和 3D 的重建与理解。

在图像任务中: 重建 rFID 为 0.21,ImageNet 零样本准确率为 82.2%。在视频和 3D 任务中,表现可与专用模型媲美甚至更优。

图像分词

在 ImageNet 和 COCO 上的图像重建性能。ATOKEN 从阶段 1 到阶段 3 都有所提升,体现了多模态训练的优势。

表 4: 多模态训练将图像重建的 rFID 从 0.258 (阶段 1) 提升到 0.209 (阶段 3) 。

图像重建的定性比较。ATOKEN 在细节保留和文字清晰度上表现突出。

图 9: 即使在高压缩率条件下,ATOKEN 也能比竞品更好地保留精细纹理和可读文本。

图像理解性能——ATOKEN 与仅用于理解的编码器相比仍保持很强的竞争力。

表 5: ATOKEN 保持了有竞争力的语义理解能力 (82.2% 对比 SigLIP2 的 83.4%) 。

视频和 3D 分词

视频重建的定性比较——ATOKEN 生成的帧在时间上保持一致性。

图 10: ATOKEN 的性能与专门的视频模型相当,确保了时序一致性。

3D 重建的定性比较——ATOKEN 显示出优异的色彩保真度。

图 11: 统一训练将图像/视频的色彩一致性迁移到了 3D 资产中。


下游应用

多模态大语言模型

将 SlowFast-LLaVA 的视觉编码器替换为 ATOKEN,性能与专用编码器相当甚至更优。

集成至 SlowFast-LLaVA——ATOKEN 匹敌或优于专用视觉编码器。

表 9: 由 ATOKEN 驱动的多模态 LLM 在不同模型规模的视觉语言任务上表现突出。

生成模型

  • 图像生成 (连续词元) : ATOKEN 与 Lightning-DiT 搭配,取得了 1.56 gFID,接近专用分词器的水平。

Lightning-DiT + ATOKEN 连续词元生成的图像样本。

图 12: 使用 ATOKEN 连续词元生成的 ImageNet 图像样本。

  • 图像生成 (离散词元) : ATOKEN 与 TokenBridge 自回归模型结合,取得了 2.23 gFID,优于其他统一分词器。

TokenBridge + ATOKEN 离散词元生成的图像样本。

图 13: 使用 ATOKEN 离散词元生成的 ImageNet 图像样本。

  • 文本到视频生成: 在受控对比中,ATOKEN 在 T2V 基准上表现与专用视频分词器相当。

  • 图像到 3D 合成: ATOKEN 的词元支持基于单张图像的 3D 生成。

使用 ATOKEN 离散词元从单张图像生成的 3D 资产样本。

图 14: 使用 ATOKEN 离散词元生成的以图像为条件的 3D 资产。


结论: 通用视觉语言触手可及

ATOKEN 在统一视觉表示领域实现了突破。通过结合:

  • 稀疏的 4D 潜在空间
  • 灵活的 Transformer 架构
  • 稳定的无对抗训练
  • 渐进式多模态课程

……它在图像、视频和 3D 任务中同时实现了高保真重建和强大的语义理解。

关键洞察是:** 统一无需牺牲性能**。跨模态训练可以带来协同增益——学习时间动态和 3D 几何会增强图像的理解与重建能力。

正如 BPE 分词器推动了 LLM 的泛化,像 ATOKEN 这样的统一视觉分词器有望成为“全能模型” (omnimodels) 的基础,这类模型能够在整个视觉范畴中无缝地感知、推理和生成——让视觉 AI 更接近当今语言模型展现的通用多功能性。