深度估计——即观察 2D 图像并理解其中 3D 几何结构的能力——是计算机视觉的基石。它是自动驾驶、机器人导航、混合现实和内容生成的前提条件。然而,构建一个“理想的”深度估计模型历来是一场权衡博弈。
通常,你只能在以下三者中选择其二:
- 精细的细节 (Meticulous Detail) : 模型能否看清树叶的边缘或远处建筑的纹理?
- 时序一致性 (Temporal Consistency) : 如果应用于视频,深度图是会闪烁,还是随时间保持稳定?
- 效率 (Efficiency) : 它能在机器人上实时运行,还是每帧需要数秒?
最近的基础模型 (如 Marigold 或 Depth Anything) 拓展了细节的边界,但往往以牺牲速度或视频稳定性为代价。在这篇文章中,我们将探讨 CH3Depth , 这是一篇提出了统一框架来解决这一“三难困境”的新研究论文。通过结合一种称为流匹配 (Flow Matching) 的技术与新颖的采样策略,CH3Depth 在图像和视频深度估计方面均取得了最先进的结果,同时比其前身快得多。

背景: 从扩散模型到流匹配
要理解 CH3Depth,我们需要简要了解为其提供动力的生成模型。最近, 扩散模型 (Diffusion Models) (如 Stable Diffusion) 已被重新用于深度估计。它们不是从噪声生成随机图像,而是生成以输入图像为条件的深度图。虽然准确,但扩散模型本质上很慢,因为它们需要许多迭代步骤来对结果进行“去噪”。
流匹配 (Flow Matching) 是一种较新的替代方案。像扩散模型一样,它将简单的分布 (噪声) 转换为复杂的数据分布 (深度图) 。然而,扩散模型模拟的是随机 (stochastic) 过程,而流匹配学习的是确定性的向量场 (Vector Field) 。它试图在噪声和目标数据之间构建一条直线——即“最优传输”路径。这通常允许更快的推理,因为从“噪声”到“清晰”的路径更加直接。
CH3Depth 背后的研究人员发现,虽然之前的流匹配方法 (如 DepthFM) 是一个正确的方向,但它们仍然浪费了计算能力,并且使用了低效的采样策略。
CH3Depth 框架
CH3Depth 的核心理念是构建一个足够灵活的“基础模型”,既适用于单张图像也适用于视频。该架构在潜在空间 (Latent Space) 中处理图像。它不直接处理原始像素 (这在计算上很昂贵) ,而是使用变分自编码器 (VAE) 将图像和深度图压缩为紧凑的表示 (潜在代码) 。

如上图流程所示,该过程涉及将 RGB 图像编码为潜在代码 (\(z_c\))。然后,模型尝试从高斯噪声中恢复深度潜在代码 (\(z_d\))。
有三大技术创新使这个特定框架既高效又准确:
- InDI 流匹配: 一个更好的优化目标。
- 非均匀采样: 一种推理时更聪明的步进方式。
- 潜在时序稳定器 (LTS): 用于一致视频深度的模块。
让我们逐一解析。
1. InDI: 聚焦于“当下”
标准的流匹配训练网络来预测全局固定的速度场——本质上是在问: “从这个噪声出发,最终目标在哪里?”然而,这可能效率低下,因为网络必须在每一步都预测整个全局路径。
CH3Depth 使用 直接迭代反演 (Inversion by Direct Iteration, InDI) 重构了目标。InDI 不预测从源噪声到目标的全局路径,而是专注于从当前分布到目标分布的传输。
标准的流匹配损失函数如下所示:

相比之下, InDI 损失函数定义为:

细微的差别在于目标项。这种公式相当于为不同噪声水平的输入分配了特定的系数 (权重) 。它迫使模型根据去噪过程当前所处的位置来关注最优传输。经验上,这种“InDI 流匹配”倾向于处理困难的初始去噪阶段,从而在生成的深度图中实现更高的精度和更精细的细节。
2. 非均匀采样: 加速推理
在生成模型中,“推理”涉及采取多个步骤来清理噪声数据。大多数以前的方法使用均匀采样 (Uniform Sampling) , 这意味着每次更新之间的步长是相同的。
CH3Depth 的作者认为这违背了常见的优化实践。在大多数优化任务中,你希望在开始时快速收敛 (迈大步以获得总体结构) ,并在后期进行微调 (迈小步以细化细节) 。
为了实现这一点,他们使用一个可定义的凹函数将均匀步骤映射到非线性步骤。推理过程的更新规则变为:

在这里,\(f(t)\) 充当映射函数。通过使用凹函数 (具体为 \(f(x) = x^{1/2}\)) ,模型在去噪过程的早期采取较大的步长,并在末期采取较小的步长。
结果如何?CH3Depth 仅需 1 或 2 步就能生成准确、详细的深度图,而像 Marigold 这样的竞争模型通常需要 10 到 50 步。
3. 潜在时序稳定器 (LTS) 用于视频
将基于图像的深度模型应用于视频的最大问题之一是闪烁 (flickering) 。 如果独立处理视频的每一帧,光照或噪声的微小变化都会导致静止物体的估计深度来回跳动。
CH3Depth 通过 潜在时序稳定器 (Latent Temporal Stabilizer, LTS) 解决了这个问题。由于主模型已经在潜在空间中运行 (归功于 VAE) ,LTS 被设计为一个轻量级模块,用于聚合相邻帧的潜在代码。
它使用滑动窗口方法。对于特定帧,它查看前几帧和当前帧的预测深度潜在变量,将它们融合,并输出时间上一致的结果。
为了有效地训练这个模块,研究人员面临一个数据问题: 合成视频数据是完美的但缺乏多样性,而现实世界的视频数据 (自然场景) 内容多样但缺乏完美的真值标签。他们引入了 时序一致偏差损失 (Temporal Consistent Deviation Loss) :

这个损失函数允许网络学习一致性,而无需严格过拟合自然视频中可能不准确的传感器数据。它本质上是要求网络预测与真值的一致偏差,而不是精确的原始值,从而平滑了抖动。
实验与结果
研究人员进行了广泛的零样本评估 (在模型未训练过的数据集上进行测试) 来验证 CH3Depth。
图像深度精度
该模型与 Marigold、DepthFM 和 Depth Anything 等顶级基线进行了测试。

如上表所示,CH3Depth (底部行) 达到了最先进的性能。在 NYUv2 数据集上,与 DepthFM 相比,它的误差指标 (AbsRel) 降低了近 20%。从视觉上看 (图中图 3) ,与其他方法“云雾缭绕”的结果相比,CH3Depth 生成的深度图显示出更锐利的边缘,并更好地保留了细微结构。
效率对比
也许最引人注目的结果是效率。高质量的生成式深度估计通常很慢。

在上述比较中:
- Marigold 需要 4.45 秒 (50 步) 。
- DepthFM 需要 0.69 秒 (3 步) 。
- CH3Depth (Ours) 仅需 0.36 秒 (2 步) 。
这种巨大的速度提升将高质量的生成式深度估计带入了实时应用领域。
视频一致性
最后,使用“时间切片”评估了时序稳定性。这涉及从视频中取一个垂直像素切片并随时间堆叠。如果深度估计是稳定的,这个堆栈中的水平线应该是平滑的。如果估计闪烁,线条看起来就会参差不齐。

图 4 中的定性结果表明,CH3Depth 在保持精细细节的同时,避免了其他方法中出现的全局闪烁。定量地 (如下面的表 2 所示) ,LTS 模块的加入显著降低了 OPW (光流加权) 误差,这是衡量时序不一致性的指标。

结论
CH3Depth 代表了 3D 视觉基础模型向前迈出的重要一步。通过利用 InDI 重新思考流匹配目标,并利用 非均匀采样 优化推理,作者成功打破了速度与精度之间的权衡。此外, 潜在时序稳定器 证明了我们不需要沉重、复杂的架构来实现稳定的视频深度——有时,潜在空间中的轻量级修正就是所需的全部。
对于学生和研究人员来说,这篇论文强调了超越单纯网络架构 (如 Transformer 对比 CNN) 的重要性,转而关注底层数学框架 (流匹配对比扩散) 和采样策略以获得性能提升。
有趣的是,LTS 模块被设计为可迁移的。作者展示了它甚至可以改进其他模型,这表明这种“即插即用”的一致性模块可能会成为视频处理流程中的标准工具。
](https://deep-paper.org/en/paper/file-1950/images/cover.png)