当你看一张汽车的照片时,你看到的不仅仅是像素构成的二维平面。你的大脑会利用一生积累的经验,瞬间构建出一个三维物体的心理模型。你可以毫不费力地想象出这辆车从侧面、背面或上方的样子,即使你以前从未见过这个特定型号。
这种从单个2D视图推断3D结构的能力是人类感知的基石。然而,对于人工智能而言,这是一个巨大的挑战。传统上,从图像创建3D模型需要多张不同角度的照片、专门的深度感应摄像机,或者用于训练的庞大且昂贵的3D模型数据集。这些方法虽然强大,但存在局限: 可扩展性不佳,并且在处理未经专门训练的物体时往往会失败。
如果AI能够像我们一样——通过观察世界来学习这项技能,会怎样呢?哥伦比亚大学和丰田研究院的研究人员最近发表了一篇题为 Zero-1-to-3: Zero-shot One Image to 3D Object 的论文,介绍了一种突破性的方法。他们找到了一种方法,可以挖掘像 Stable Diffusion 这样的大规模图像扩散模型中深藏的 3D 几何知识,教它们从一张普通的图片生成该物体的新视角。其结果如图所示,令人惊叹。
图1: 给定单张物体RGB图像,Zero-1-to-3 即便在大幅视点变化情况下,也能生成细节一致的新视图。
在本文中,我们将深入探讨 Zero-1-to-3 的工作原理。我们会探索利用 2D 图像模型处理 3D 任务的直觉,剖析实现相机视点控制的核心方法,并审视那些推动单视图 3D 重建技术达到新高度的惊人成果。
2D 模型中隐藏的 3D 世界
像 DALL-E 2 和 Stable Diffusion 这样的现代 AI 图像生成器的“魔力”来自于它们海量的训练数据集。这些模型在从互联网上抓取的数十亿张图片上进行训练——这些图片种类繁多,涵盖了无数的物体、场景和风格。在学习生成 2D 图像的过程中,它们也隐式地掌握了关于我们 3D 世界的规律。它们看过各种角度的猫、无数视角的汽车,以及各种光照条件下的椅子。
问题在于,这种丰富的 3D 知识仍然是隐式的。你可以让 Stable Diffusion 生成“一把椅子的照片”,但你不能让它展示“刚才生成的那把椅子的背面视图”。模型对视点的理解是内嵌的,而非可控的。
此外,这些模型会继承训练数据中的偏见。让它们生成一把椅子时,往往会生成一个正面朝向的标准姿态版本——因为网上的大多数椅子图片都是这样的。
图2: 文本到图像模型中的视点偏差。大多数生成的椅子都是正面朝向的。
这种视点偏差表明,尽管这些模型包含了丰富的多视角信息,但它们缺乏控制这些信息的机制。新视角合成需要:
- 将模型隐含的 3D 知识显式化并实现可控。
- 克服对标准姿态的偏见,以生成任意角度的视图。
Zero-1-to-3 同时解决了这两个问题。
核心方法: 让旧模型学会新本领
研究人员并没有从零构建一个 3D 系统,而是对一个现有且强大的 2D 扩散模型——Stable Diffusion——进行微调,以获得视点控制能力。
目标是学习一个函数:
\[ \hat{x}_{R,T} = f(x, R, T) \]其中,\(x\) 是输入图像,\(R\) 是相对旋转,\(T\) 是相对平移,而 \(\hat{x}_{R,T}\) 是从该视点生成的图像。
图3: Zero-1-to-3 使用了一个视点条件化的潜在扩散架构,将输入视图和相对相机变换共同作为条件输入。
在合成数据上进行微调
Zero-1-to-3 并没有重新训练一切,而是通过微调 Stable Diffusion 来保留其已有知识并增强视点控制。
训练数据来自 Objaverse: 一个包含超过 80 万个高质量 3D 模型的开源数据集。研究人员从多个已知相机位置渲染每个模型,生成成对数据: 输入图像、输出图像以及对应的 \((R, T)\) 变换。
微调目标是训练模型在给定以下条件时,将带噪声的图像去噪成正确的新视点图像:
- 原始图像
- 目标视点变化
数学表达式为:
\[ \min_{\theta} \mathbb{E}_{z \sim \mathcal{E}(x), t, \epsilon \sim \mathcal{N}(0, 1)} \|\epsilon - \epsilon_{\theta}(z_t, t, c(x, R, T))\|_2^2 \]通俗来说就是: 给定这张初始图片和相机移动,生成对应视点下的清晰图像。
混合条件: 语义 + 细节
研究人员采用了双流条件设计:
- 高层语义: 输入图像的 CLIP 嵌入,加上姿态数据 (\(R, T\)) ,形成“带姿态的 CLIP”嵌入,通过交叉注意力输入到 U-Net,指导整体结构。
- 底层细节: 输入图像的潜在向量在去噪时直接与带噪图像拼接,以保留物体的身份、纹理和细节。
这样既能忠实重现被遮挡部分,又能保持物体原有特征。
从新视图合成到完整 3D 重建
生成 2D 新视角已经很惊艳,但许多应用需要的是完整的 3D 模型。
Zero-1-to-3 可以利用一种受 分数雅可比链 (Score Jacobian Chaining, SJC) 启发的方法来指导 3D 重建。该过程类似迭代优化循环:
- 初始化 一个 3D 表示 (例如通过神经辐射场) 。
- 从随机视点渲染该表示。
- 询问 Zero-1-to-3: “这个渲染结果对于该视角是否合理?”
- 使用 Zero-1-to-3 的反馈梯度更新 3D 场景。
- 用多个视点样本重复这一过程。
图4: Zero-1-to-3 可监督神经场进行单图像 3D 重建,利用其学到的多视角先验进行引导。
经过多轮迭代,3D 模型逐渐成型,直至从各个角度渲染出的图像均保持一致。
Zero-1-to-3 的测试表现
作者在零样本条件下,在以下数据集对 Zero-1-to-3 进行了评估:
- Google Scanned Objects (GSO): 高质量家居物品扫描
- RTMV: 复杂多物体合成场景
惊艳的新视点生成
定性结果表明,Zero-1-to-3 在生成清晰、一致视图方面优于基线方法,即便在大幅度视角变化的情况下也是如此。
图5: 在 GSO 上的新视角合成。与基线相比,我们的输出保留了更多细节。
图6: 在 RTMV 上的新视角合成。复杂场景在我们的视图中依然保持一致。
包括 PSNR、SSIM (越高越好) 以及 LPIPS、FID (越低越好) 等定量指标也验证了 Zero-1-to-3 相比基线方法的显著优势。
表1: 在 GSO 上,Zero-1-to-3 表现优于 DietNeRF、Image Variations 和 SJC-I。
表2: 即使在分布外的 RTMV 数据上,我们的模型依然领先。
它同样适用于来自手机拍摄的真实照片,涵盖多种材质和形状:
图7: 在自然环境下的图像中表现稳健,无需挑选样本。
更重要的是,它可以为被遮挡区域生成多个合理的补全版本:
图8: Zero-1-to-3 能通过多样化、高质量的变体捕捉不确定性。
顶尖水准的 3D 重建
在完整 3D 网格的生成上,Zero-1-to-3 结果更加完整和准确——尤其是在重建被遮挡的几何部分时。
图9: 高保真重建,具备更好的体积完整性。
倒角距离 (CD,越低越好) 和体积交并比 (IoU,越高越好) 等指标显示出显著改进:
表3: IoU 的显著提升表明了更佳的 3D 体积匹配效果。
表4: 在杂乱的 RTMV 场景中取得最佳 CD/IoU。
创意工作流: 文本 → 图像 → 3D
Zero-1-to-3 可与 DALL-E 2 等文本生成图像系统结合,构建“文本到 3D”的创作流程。输入一段描述文本,生成一张图像,再送入 Zero-1-to-3,即可从任意角度探索它——将文本提示转化为可用的 3D 资产。
图10: 在新视图中保留了 AI 生成图像的构图和光照。
结论与未来展望
Zero-1-to-3 是单视图 3D 理解领域的一个里程碑。它证明了在互联网级数据上训练的大规模 2D 扩散模型,内部蕴含着一致的 3D 先验。
通过使用成对合成图像进行微调并添加相机视点控制,研究人员激活了这种潜在能力——创造出一款可用于新视角生成与 3D 重建的前沿工具。其零样本能力覆盖了日常物品、艺术作品及 AI 生成的图像。
未来的发展空间十分广阔:
- 从单一物体扩展到完整复杂的场景
- 应用于包含运动物体和遮挡的动态视频
- 控制光照、材质、着色等更多因素,构建完整的虚拟世界
Zero-1-to-3 标志着我们正迈入一个 2D 与 3D 创作边界逐渐消融的时代,让 AI 的想象力更接近人类的感知水平。