低成本三维扫描高光物体：偏振与 AI 如何解决镜面反射难题

简介

如果你曾经尝试使用摄影测量法进行 3D 重建，你很可能遇到过“高光物体”的噩梦。当你对着一个陶瓷花瓶或金属玩具拍了一系列照片，将其输入软件后，结果往往是一个融化般的、充满噪点的团块。

为什么会发生这种情况？大多数标准的 3D 重建算法都假设世界是朗伯体 (Lambertian) 的。简单来说，它们假设物体上的某一点无论你从哪个角度观察，颜色都是相同的。但光泽和镜面 (specular) 表面打破了这一规则。当你移动相机时，光源的反射会在表面上移动。对于算法来说，这种移动的高光看起来像是几何结构本身在移动或消失，从而导致 3D 网格的灾难性失败。

为了解决这个问题，研究人员通常求助于昂贵的专用硬件——具有受控照明的灯光舞台 (light stages) 或价值数千美元的专用偏振相机。但是，如果仅使用标准相机和廉价的滤镜就能实现高光物体的高保真重建呢？

在论文 “Glossy Object Reconstruction with Cost-effective Polarized Acquisition” (基于低成本偏振采集的高光物体重建) 中，来自浙江大学、香港大学和深圳大学的研究人员提出了一种突破性的解决方案。他们结合了光的偏振物理学和神经辐射场 (NeRFs) 的强大功能，从闪亮的反射中解构出物体的真实形状。最棒的是？他们的设置只需要一台现成的 RGB 相机和一个通用的线偏振片，无需复杂的校准。

图 1. 数据采集系统及结果。左侧，带有简单偏振片的相机正在拍摄一个光滑的陶瓷公牛。右侧，神经网络将图像分解为偏振数据、镜面反射图和法线，从而生成干净的网格。

背景: 物理学与人工智能的交汇

要理解这种方法是如何工作的，我们需要连接两个概念: 神经隐式表面 (Neural Implicit Surfaces) 和偏振物理学 (Polarization Physics) 。

神经隐式表面

在过去几年中，3D 视觉领域一直由基于坐标的神经网络主导。我们不再将 3D 模型存储为三角形网格，而是训练一个神经网络来表示场景。你给网络一个 3D 坐标 \((x, y, z)\)，它输出该点的密度和颜色。这允许无限的分辨率和可微渲染。

然而，标准的 NeRF 难以区分物体的实际颜色 (漫反射) 和闪亮的反射 (镜面反射) 。当网络试图“平均”不同视角下的移动反射时，通常会平滑掉几何结构，导致细节丢失。

为什么偏振很重要

这就是物理学发挥作用的地方。光在从不同类型的表面反弹时表现不同。

漫反射 (Diffuse Reflection) : 光线稍微穿透表面并发生散射。这种光实际上失去了它的偏振特性 (变成了非偏振光) 。
镜面反射 (Specular Reflection) : 光线直接从表面界面反弹。这种光倾向于变成偏振光 。

通过分析进入相机的光的偏振状态，我们可以从数学上将图像中的“闪亮”部分与“哑光”部分分离开来。此外，偏振角与表面法线 (表面朝向的方向) 在物理上是相关联的。这意味着偏振提供了标准 RGB 图像所缺乏的强大几何线索。

核心方法

研究人员提出了一种流程，该流程接收使用线偏振片拍摄的多视角图像，并输出高质量的 3D 网格。他们方法的精妙之处在于，他们不知道每次拍摄时偏振片的具体角度。他们将偏振片角度视为一个未知变量，让 AI 自己去弄清楚。

图 2. 流程概览。系统每个视角采集一张偏振图像。它使用神经网络来估计几何形状 (SDF) 和辐射度。这些形成了斯托克斯向量，这些向量被渲染成偏振图像并与输入进行比较。

如图 2 所示，该流程是一个预测和校正的循环。让我们将架构分解为其基本组件。

1. 神经辐射场

该系统使用基于坐标的网络 (具体建立在 VolSDF 和 Ref-NeRF 之上) 来表示物体。对于空间中的任意一点，网络预测:

符号距离函数 (SDF): 到最近表面的距离 (定义几何形状) 。
表面法线 (\(n\)): 表面的方向。
漫反射辐射度 (\(c^d\)): 底层颜色。
镜面反射辐射度 (\(c^s\)): 闪亮的反射，取决于观察方向和粗糙度。

这些组件之间的关系由以下方程控制，其中最终颜色是漫反射和镜面反射部分的组合:

分解辐射度的方程。

这里，\(f_\theta\) 和 \(g_\theta\) 是神经网络 (MLPs) 。术语 IDE 指的是集成方向编码 (Integrated Directional Encoding) ，这是一种帮助网络理解粗糙度和反射方向的技术。

2. 偏振 BRDF (pBRDF)

标准的渲染引擎计算 RGB 颜色。而这种方法计算的是斯托克斯向量 (Stokes Vector) 。斯托克斯向量是一个 4 分量的数学对象，完全描述了光的偏振状态 (强度、偏振度和偏振角) 。

研究人员使用了 pBRDF 模型 (偏振双向反射分布函数) 。该模型明确地将几何形状 (表面法线) 和材料属性 (折射率、粗糙度) 与出射光的偏振联系起来。

斯托克斯向量 \(S\) 定义为:

斯托克斯向量定义的方程。

系统通过将漫反射和镜面反射部分的贡献相加来预测出射斯托克斯向量 \(s^{out}\)。漫反射部分主要是不偏振的，而镜面反射部分带有强烈的偏振线索。这种相互作用由穆勒矩阵 (\(M^d\) 和 \(M^s\)) 建模，它描述了表面如何转换入射光:

通过穆勒矩阵计算出射斯托克斯向量的方程。

这看起来很复杂，但直觉很简单: 网络预测的是光反射的物理过程，而不仅仅是颜色。

3. 未知角度的偏振渲染

这是论文中最具创新性的部分。在传统的科学设置中，你会精确地将偏振片旋转到 \(0^\circ, 45^\circ, 90^\circ\) 并仔细记录数据。在这里，用户只需在相机上装一个滤镜并在物体周围走动拍摄。偏振片相对于物体的角度 \(\phi_{pol}\) 是未知的。

研究人员推导出了一个可微的公式来处理这个问题。首先，他们从预测的斯托克斯向量中提取基本的偏振属性——强度 (\(I_{un}\))、偏振度 (\(\rho\)) 和偏振角 (\(\phi\)):

非偏振强度、DoP 和 AoP 的方程。

通过线偏振片的光强度会根据光的偏振方向 (\(\phi\)) 和偏振片角度 (\(\phi_{pol}\)) 之间的角度差呈正弦变化。这就是马吕斯定律 (Malus’s Law) 的作用:

通过偏振片的光强度的方程。

由于网络预测了斯托克斯向量 (因此也预测了 \(\rho\) 和 \(\phi\)) ，并且我们拥有捕获的图像强度 \(I_{\phi_{pol}}\)，剩下的唯一未知数就是偏振片角度 \(\phi_{pol}\)。网络可以与几何形状一起优化这个角度！

为了使其完全可微 (以便 AI 可以从中学习) ，他们构建了一个偏振片本身的穆勒矩阵 。该矩阵表示旋转了任意角度 \(\phi_{pol}\) 的线偏振片。

旋转穆勒矩阵的方程。

旋转矩阵 R 和线偏振片矩阵 M_LP 的方程。

通过相机的滤镜后的出射斯托克斯向量是通过将物体的斯托克斯向量乘以这个偏振片矩阵来计算的:

最终过滤后的斯托克斯向量的方程。

最后，相机实际“看到”的图像强度只是这个最终向量的第一个分量 (\(s_0\)):

最终渲染图像强度的方程。

4. 损失函数

整个系统是端到端训练的。目标是最小化渲染的偏振图像与相机拍摄的实际照片之间的差异。

总损失函数的方程。

\(\mathcal{L}_{rgb}\): 渲染像素与捕获像素之间的误差。
\(\mathcal{L}_{mask}\): 保持物体形状与背景明显区分。
\(\mathcal{L}_{eikonal}\): 一个正则化项，确保 SDF 代表一个有效的物理表面 (保持几何形状光滑且合理) 。

实验与结果

研究人员使用索尼 A6400 相机和标准线偏振片构建了一个原型。他们围绕拍摄对象旋转相机，每个物体拍摄了约 40 张图像。他们测试了具有挑战性的物体: 一个“RedOx” (陶瓷/金属混合体) 、一个光滑的绿色公牛、一个瓷猫和一个金属半身像。

定性结果

结果在视觉上非常惊人。在下方的图 3 中，请看“Our Normals” (我们的法线) 和“Our Mesh” (我们的网格) 这两行。表面法线 (彩虹色的图) 非常平滑，即使在有锐利镜面高光的区域也是如此。标准的 RGB 方法在这些区域通常会产生“凹凸不平”的法线，因为它们错误地将反射当成了几何凸起。

图 3. 真实数据集的定性结果。该方法为混合材料物体 (如 RedOx 和 GreenOx) 恢复了清晰的几何形状 (线框网格) 和干净的表面法线 (彩虹图) 。

与最先进方法 (SOTA) 的比较

团队将他们的方法与几种领先的神经重建技术进行了比较，包括 NeuralPIL、PhySG、NVDiffRec 和 Ref-NeuS。

如图 4 所示，竞争对手表现出明显的挣扎。

PhySG 倾向于过度平滑几何形状。
NVDiffRec 捕捉到了高频噪声，将反射误认为是表面纹理。
Ours (本文提出的方法) 捕捉到了复杂的细节，比如猫胡须的纹理，而没有被光泽表面所迷惑。

图 4. 与 SOTA 方法的比较。注意“Ours”列恢复了猫胡须和尾巴的精细细节，而其他方法要么模糊了细节，要么产生了伪影 (红框) 。

定量数据也支持了这一点。在表 1 中，所提出的方法在几乎所有数据集上都达到了一致最低的倒角距离 (Chamfer Distance, CD) ，这是一个衡量重建 3D 形状与真实 3D 扫描之间误差的指标。

表 1. 定量评估。所提出的方法在几乎所有数据集上都实现了最低的倒角距离 (CD) 误差，表明其几何精度更优。

分解场景

这种方法最强大的功能之一是辐射度分解 (Radiance Decomposition) 。因为该方法理解偏振，它可以将图像分离为“漫反射” (哑光颜色) 和“镜面反射” (闪亮反射) 分量。

在图 5 中，我们可以看到在合成的“Bust” (半身像) 模型上的比较。“Mixed Radiance” (混合辐射度) 是最终图像，但“Diffuse” (漫反射) 和“Specular” (镜面反射) 列显示了网络是如何理解材质的。它成功地识别出光泽是物体之上的一个独立层。

图 5. 反射率分解。该方法将图像分离为漫反射和镜面反射图。注意镜面反射图如何隔离了闪亮的反射，留下了干净的漫反射图。

鲁棒性: “未知角度”真的有效吗？

这篇论文的一个主要主张是你不需要校准偏振片。为了证明这一点，他们进行了鲁棒性分析。他们合成了具有已知偏振片角度 (\(0^\circ, 45^\circ, 90^\circ\)) 的图像，并检查网络是否能恢复几何形状并准确估计角度。

图 9 显示，尽管输入图像存在差异 (注意红框中变化的高光) ，但生成的几何形状保持一致。此外，网络估计的偏振片角度误差小于 \(5^\circ\)。

图 9. 鲁棒性分析。无论输入偏振角如何，该算法都能产生一致的几何形状 (底行) 。它还能准确估计偏振片的旋转 (例如，对于 90 度的输入，估计为 95.74 度) 。

结论与意义

这项研究代表了使高端 3D 扫描变得触手可及的重要一步。通过利用光的物理特性——特别是偏振——作者将一个困难的计算机视觉问题 (镜面反射) 转化为了宝贵的几何数据来源。

关键要点:

低成本: 无需昂贵的偏振相机即可实现光泽物体的高保真扫描。
易于使用: “未知角度”优化消除了繁琐的校准需求。
物理学 + AI: 纯学习方法通常在边缘情况上失败。将物理模型 (pBRDF) 集成到神经网络 (NeRFs) 中，提供了解决复杂逆问题所需的约束。

这种方法为电子商务 (扫描产品用于 VR/AR) 、文化遗产保护 (扫描光泽文物) 中的更好 3D 扫描打开了大门，也许最终，配备简单偏振滤镜的手机也能实现高质量的 3D 扫描。

简介#

背景: 物理学与人工智能的交汇#

神经隐式表面#

为什么偏振很重要#

核心方法#

1. 神经辐射场#

2. 偏振 BRDF (pBRDF)#

3. 未知角度的偏振渲染#

4. 损失函数#

实验与结果#

定性结果#

与最先进方法 (SOTA) 的比较#

分解场景#

鲁棒性: “未知角度”真的有效吗？#

结论与意义#

简介