如果你在过去几年购买过高端智能手机,那么你很可能已经受益于图像传感器的快速演进。为了追求瞬时自动对焦,硬件工程师已经从标准传感器转向全像素双核 (Dual-Pixel, DP) 传感器,而最近更是转向了四光电二极管 (Quad Photodiode, QPD) 传感器。
虽然 QPD 传感器的设计初衷主要是为了实现闪电般的自动对焦速度,但它们隐藏着第二个潜力: 深度估计 。 就像我们的双眼可以通过立体视觉感知深度一样,QPD 传感器中的子像素理论上也可以充当微型的多视角相机。然而,由于光照不均和像素间距极小等物理限制,从这些传感器中提取准确的深度 (或视差) 是非常困难的。
在这篇文章中,我们将深入探讨一篇 CVPR 论文,题为 “All-directional Disparity Estimation for Real-world QPD Images” (面向真实世界 QPD 图像的全向视差估计) 。 我们将探索研究人员如何为这项技术创建了首个真实世界数据集,并设计了一种新颖的深度学习架构——QuadNet——将 2D 原始传感器数据转化为精确的 3D 深度图。
1. 硬件挑战: 什么是 QPD?
要理解软件解决方案,我们首先需要理解硬件问题。
在传统相机传感器中,一个像素对应一个光电二极管。在全像素双核 (DP) 传感器中,单个微透镜覆盖两个光电二极管 (左和右) 。这使得相机能够执行“相位检测”自动对焦。
四光电二极管 (QPD) 传感器更进一步。如下方 图 1 (B) 所示,四个光电二极管 (图中分别为红、绿、蓝、黄) 共享一个片上透镜。

这种配置提供了四个“子视图”: 左上、右上、左下和右下。这使得以下功能成为可能:
- 全向自动对焦: 检测水平和垂直两个方向的相位差。
- 视差估计: 计算这些子视图之间的像素位移以确定深度。
QPD 视差的问题
虽然这个概念听起来像标准的立体视觉,但现实情况要混乱得多。
- 极小基线: 在立体视觉 (如你的眼睛) 中,传感器相距数厘米。而在 QPD 中,它们相距仅微米。这导致视差 (像素位移) 非常小,通常不到几个像素,使其难以检测。
- 光照不均: 请看上方的 图 1 (D) 。 左 (\(I_l\)) 和右 (\(I_r\)) 子图像的强度曲线并不相同。由于入射光角度的原因,一个子像素可能比其相邻像素亮得多。这破坏了标准的匹配算法,因为这些算法假设空间中的同一点在两个视图中看起来是相同的。
- 缺乏真值 (No Ground Truth) : 在这篇论文之前,还没有大规模的数据集能将真实世界的 QPD 图像映射到准确的深度图。
2. 奠定基础: QPD2K 数据集
深度学习需要数据。由于不存在 QPD 视差数据集,研究人员构建了一个。他们推出了 QPD2K , 包含 2,100 张高分辨率的真实世界图像。
对于一个依赖散焦的传感器来说,捕捉“真值”视差是很棘手的。你不能仅仅依靠估计;你需要物理测量。团队使用 QPD 传感器配合结构光系统 (DLP 投影仪) 搭建了一个定制装置。

如 图 2 所示,该过程包括将图案 (散斑和条纹) 投影到场景上。通过分析这些图案如何变形,他们可以计算出非常精确的深度图 (\(z\)) 。
然而,网络需要预测的是视差 (\(D\)) ,而不是绝对深度 (\(z\)) 。对于 QPD 传感器,视差与深度之间的关系由以下方程控制:

这里,\(z\) 是深度,\(z_f\) 是对焦距离,\(\alpha\) 和 \(A\) 等参数与物理传感器属性相关。该方程表明 QPD 传感器中的视差是逆深度的仿射函数。
为了确保真值能够抵抗前面提到的“光照不均”问题,研究人员计算了水平和垂直两个方向的视差,并根据置信度分数对它们进行了融合:

这种严格的数据收集过程为训练神经网络提供了所需的“黄金标准”。
3. 核心方法: 从 DPNet 到 QuadNet
研究人员分两个阶段解决这个问题。首先,他们开发了 DPNet 来解决双像素数据的光照不均和小基线问题。然后,他们将其扩展为 QuadNet , 以充分利用 QPD 传感器的四向数据。
第一步: DPNet 与光照不变模块
标准卷积神经网络 (CNN) 处理原始像素强度。如果由于传感器物理特性导致左视图比右视图亮,标准 CNN 就会感到困惑。
为了解决这个问题,DPNet 采用了一个光照不变模块 (Illumination-Invariant Module) 。 它不依赖原始强度,而是依赖边缘 , 因为无论亮度如何变化,边缘都保持一致。他们通过使用差分卷积 (Differential Convolutions, DC) 实现了这一点。
一种被称为水平/垂直 Sobel 差分卷积 (HSDC/VSDC) 的特殊版本,计算的是像素之间的差异而不是它们的绝对值。对于一个 \(3 \times 3\) 的图块,操作如下:

通过关注相邻像素之间的差异 (\(x_1 - x_3\) 等) ,网络提取的是代表场景结构而非光照的特征。
由粗到精的估计
由于基线非常小,视差通常是亚像素级的 (小于 1 个像素) 。标准的分类方法 (位移是 1、2 还是 3 个像素?) 不够精确。
DPNet 使用了一种由粗到精 (Coarse-to-Fine) 的方法。

- 粗略阶段: 网络首先使用标准代价体 (cost volume) 估计一个粗略的视差图 (\(D_{init}\)) 。
- 精细阶段: 它创建一个亚像素代价体 。 它利用初始的粗略猜测,将右图的特征 (\(g\)) 向左图进行变换 (warp) 。

然后,它使用分组相关性 (group-wise correlation) 在该猜测周围的微小范围内搜索残差误差 (\(\Delta D_{sub}\)) :

最后,使用“soft argmin”函数 (允许连续的小数点输出,而不是整数分类) ,计算精确的亚像素调整量:

最终视差就是粗略猜测加上这个微调后的调整量:

第二步: QuadNet 与边缘感知融合
DPNet 很好地处理了左右图像对。但 QPD 传感器也为我们提供了上下图像对。水平视差 (\(D_h\)) 非常适合检测垂直边缘 (如树干) ,而垂直视差 (\(D_v\)) 则更擅长检测水平边缘 (如桌边) 。
QuadNet 运行两个 DPNet 实例——一个用于水平对,一个用于垂直对——并将它们融合。

但你不能简单地将它们平均。如果你看着水平的百叶窗,水平视差可能会完全失效 (即“孔径问题”) 。在这种特定区域,你需要更多地信任垂直视差估计。
QuadNet 使用了一个边缘感知融合模块 (Edge-Aware Fusion Module) 。 它从图像中提取边缘图并将其用作权重。如果网络检测到强烈的水平边缘,它会增加垂直视差估计的权重,反之亦然。
基于 Census 的细化
即使融合后,伪影可能仍然存在。为了优化结果,作者使用了一个基于 Census 变换的细化步骤。Census 变换是一种经典的计算机视觉技术,它对像素的局部邻域结构进行编码 (例如,“这个像素比它的邻居亮吗?”) 。它对光照变化具有极强的鲁棒性。
网络使用 Census 变换的汉明距离 (HD) 来计算左图与变换后的右图之间的误差:

这个误差图指导最终的细化网络 (一个沙漏结构) 生成优化后的输出 \(D_{qpd}\):

4. 实验结果
研究人员将他们的方法与几种最先进 (SOTA) 的方法进行了比较,包括专为双像素传感器设计的方法 (如 FaceDPNet 和 SFBD) 以及通用的立体匹配方法 (如 RAFT-stereo) 。
定量性能
在 QPD2K 数据集上的结果是决定性的。在下表中,像 “bad 0.3” 这样的指标代表误差大于 0.3 像素的像素百分比。数字越低越好。

QuadNet 在所有指标上都实现了最低的误差率。值得注意的是,它在严格的 “bad 0.3” 指标上显著优于竞争对手 QPDNet (0.229 vs 0.909) ,展示了其卓越的亚像素精度。
定性性能
从视觉上看,差异非常明显。在下方的 图 5 中,请看第三行 (椅子) 。
- SFBD (列 B) 生成了一个非常嘈杂的图。
- QPDNet (列 E) 捕捉到了形状,但丢失了清晰度。
- QuadNet (列 G) 生成了干净、锐利的深度图,与真值 (列 H) 非常相似。

消融实验
为了证明他们复杂架构的每一部分都是必要的,作者进行了消融实验——移除特定模块以观察性能如何下降。

如 图 6 所示,“基础 (Base) ”模型 (B) 很模糊。添加光照不变模块 (C) 有助于改善光照问题。添加亚像素细化 (D) 使深度更锐利。结合所有模块 (E) 产生了最清晰的结果。
数值数据也支持这一点:

从基础模型 (bad 0.3 = 0.445) 到完整模型 (bad 0.3 = 0.229) 的飞跃,是精度上的巨大提升。
在双像素上的泛化能力
为了证明他们的 DPNet 基础不仅对 QPD 有效,他们还在现有的双像素数据集 (DP5K 和 DP-disp) 上进行了测试。

即使在并非专门为其设计的数据集上,DPNet (下图 8 中的 E 列) 也设法解析了精细的细节,例如小雕像之间的缝隙,而其他方法则将这些细节模糊处理了。

5. 结论与启示
这项研究标志着移动摄影和计算机视觉向前迈出了重要一步。
- 新基准: QPD2K 数据集解决了该领域的一个主要瓶颈,为研究人员测试 QPD 算法提供了首个高质量的平台。
- 解决现实世界的物理问题: 光照不变模块优雅地处理了 QPD 传感器的物理现实 (光敏度不均) ,而无需复杂的硬件校准。
- 亚像素精度: 由粗到精的架构证明,即使物理视差微乎其微,深度学习也能恢复深度信息。
通过有效地融合水平和垂直视差, QuadNet 证明了 QPD 传感器不仅仅是为了自动对焦——它们是有能力的 3D 成像设备。这项技术可能会带来人像模式显著更好的智能手机、改进的低光对焦,甚至可能是 3D 扫描功能,而所有这些都无需在手机背面增加额外的摄像头。
](https://deep-paper.org/en/paper/file-1930/images/cover.png)