引言

在计算机视觉的世界里,我们通常沉迷于光的强度——即一个像素有多亮或多暗。但光还携带了另一层隐藏的信息: 偏振 (Polarization) 。 当光线从物体上反弹时,其电磁波的方向会发生变化。这些变化编码了标准相机根本无法捕捉到的关于物体形状、材料成分和表面纹理的丰富细节。

为了完全捕捉这些信息,科学家们使用了椭圆偏振术 (Ellipsometry,简称椭偏术) 。 这项技术测量“穆勒矩阵 (Mueller matrix) ”,这是一个 \(4 \times 4\) 的数字网格,完整描述了材料如何转换偏振光。它是从生物学到材料科学等各个领域的一项强大工具。

但也存在一个问题: 它极其缓慢。

传统的椭偏仪通过机械旋转光学滤镜并使用标准相机拍摄多张照片来工作。这需要数秒甚至数分钟,意味着你只能拍摄静止物体。如果物体移动,或者你想捕捉动态场景 (如人脸表情变化) ,传统的椭圆偏振术就无能为力了。

这就轮到 事件椭偏仪 (Event Ellipsometer) 登场了。

在一篇引人入胜的新论文中,研究人员提出了一种以 30 帧每秒 (fps) 捕捉穆勒矩阵视频的方法。他们实现这一点并非通过使用更快的标准相机,而是切换到了事件相机 (Event Camera) ——一种仿生传感器,其工作原理与手机中的相机完全不同。通过将这种传感器与快速旋转的光学器件相结合,他们能够捕捉高速、高动态范围 (HDR) 的偏振视频。

事件椭偏仪概览,展示了装置设置以及诸如动态场景分析等各种应用。

在这篇文章中,我们将拆解这篇论文,了解他们如何结合神经形态工程学 (neuromorphic engineering) 与经典光学,实时看见不可见的偏振世界。


背景: 基础构件

要理解事件椭偏仪是如何工作的,我们需要连接两个不同的领域: 偏振成像和基于事件的视觉。

1. 穆勒矩阵 (The Mueller Matrix)

光可以用 斯托克斯向量 (Stokes Vector, \(\mathbf{s}\)) 来描述,这是一个描述光强度和偏振状态的 4 元素向量。当光击中物体时,物体会转换这种光。在数学上,这种转换是一个矩阵乘法。

物体的“指纹”就是 穆勒矩阵 (\(\mathbf{M}\)) , 一个 \(4 \times 4\) 的矩阵。如果你知道 \(\mathbf{M}\),你就知道了关于该物体如何反射偏振光的一切。

  • 对角线元素 通常与去偏振 (depolarization) 有关。
  • 非对角线元素 可以揭示双折射 (材料应力) 或方向。

这项研究的目标是计算出视频中每个像素的这个矩阵的值。

2. 事件相机 vs. 帧相机

标准相机以固定的间隔 (例如每 33ms) 捕捉绝对亮度。如果场景很暗,它们会有噪点。如果太亮,它们会过度曝光。

事件相机 (或动态视觉传感器) 是异步的。每个像素独立工作。它不报告“我有多亮”,而是报告“我刚才改变了吗?”。当一个像素的对数强度变化超过特定阈值时,它会触发一个“事件”——一个带有微秒级时间戳的信号。

这赋予了事件相机在这篇论文中被利用的两大超能力:

  1. 高时间分辨率: 它们可以在微秒内检测到变化,从而能够跟踪极快的光学调制。
  2. 高动态范围 (HDR) : 由于每个像素独立运行,一个像素可以观察明亮的高光,而它的邻居可以观察深邃的阴影,两者都能完美工作。

硬件: 旋转的交响乐

研究人员设计了一套装置,看起来像标准的摄影装备,但其行为更像是一个频闪灯实验。

光学排列的示意图、旋转时间线以及硬件原型。

装置设置

如上面的示意图所示,系统将目标物体放置在两组光学器件之间:

  1. 照明侧: LED 光源穿过一个线偏振片 (LP) 和一个旋转的四分之一波片 (QWP) 。
  2. 检测侧: 光线从物体反射,穿过另一个旋转的 QWP 和一个固定的 LP,最后击中事件相机。

调制策略

这是最巧妙的部分: 两个 QWP 不是静止的。它们在高速连续旋转。

  • 光源侧的 QWP 以速度 \(\omega\) 旋转。
  • 相机侧的 QWP 以速度 \(5\omega\) 旋转。

为什么要旋转它们?通过旋转波片,系统不断改变击中物体的光的偏振态以及相机正在寻找的偏振态。这在每个像素处产生了一个随时间变化的信号。旋转速度的具体比例 \(1:5\) 确保了生成的信号编码了足够多的独特信息,以便在数学上解出穆勒矩阵的所有 16 个元素。

电机的旋转速度足够快,使得完整的测量周期仅需 33 毫秒,从而实现了 30 fps 的视频重建。


核心方法: 从事件到矩阵

这是论文的核心。我们如何从一连串二进制的“变化检测”事件中得到一个复杂的光学矩阵?

第 1 步: 强度建模

首先,我们需要一个数学模型来描述在任意给定时间 \(t\),光强度应该是多少。使用标准的偏振微积分,传感器处的强度 \(I_t\) 是光学元件的乘积。

描述强度 It 的方程,它是斯托克斯向量和光学元件穆勒矩阵的乘积。

在这个方程中:

  • \(\mathbf{L}(0)\) 是线偏振片。
  • \(\mathbf{Q}(\theta)\) 是旋转的四分之一波片。
  • \(\mathbf{M}\) 是我们要寻找的未知场景穆勒矩阵。
  • \(\mathbf{s}\) 是光源。

通过展开这个乘法,研究人员将关系简化为向量形式。强度 \(I_t\) 变成了“系统向量” \(\mathbf{A}_t\) (取决于已知的电机角度) 与向量化的穆勒矩阵 \(\hat{\mathbf{M}}\) 的点积。

显示强度 It 为系统矩阵 At 与向量化穆勒矩阵 M 乘积的方程。

向量 \(\mathbf{A}_t\) 很复杂,由源自两个电机旋转角度 (\(\omega t\) 和 \(5\omega t\)) 的正弦和余弦组成。

系统向量 At 及其三角分量的详细定义。

第 2 步: 事件相机模型

挑战在于: 事件相机不测量 \(I_t\)。 它们测量对数强度的变化。

在数学上,当对数强度的变化超过阈值 \(C\) 时,会触发一个事件。论文推导了事件之间的时间差 (\(\Delta t\)) 与穆勒矩阵之间的关系。

他们首先对对数强度关于时间求导:

显示对数强度关于时间导数的方程。

这个方程看起来很吓人,但分子 \(\frac{\partial \mathbf{A}_t}{\partial t}\) 仅仅是已知电机位置的时间导数。

系统向量 At 关于时间的导数。

现在,我们将此与事件相机的物理原理联系起来。对数强度的变化与事件极性 \(p_k\) (+1 表示变亮,-1 表示变暗) 、对比度阈值 \(C\) 以及事件之间的时间间隔 \(\Delta t_k\) 有关。

微分对数强度与事件参数之间的关系。

第 3 步: 重建方程

通过结合光学模型 (第 1 步) 和传感器模型 (第 2 步) ,研究人员得到了一个线性方程组。这是论文的“主方程”。它将测量的事件时间间隔直接与未知的穆勒矩阵 \(\hat{\mathbf{M}}\) 联系起来。

推导线性系统 B * M = 0。

对于像素处的每一对事件,我们在矩阵 \(\mathbf{B}\) 中得到一行。如果我们在 33ms 的窗口内收集到足够多的事件,就可以把它们堆叠起来并求解 \(\mathbf{M}\),使得 \(\mathbf{B}\hat{\mathbf{M}} = 0\)。


重建流程: 解开谜题

理想情况下,我们只需对矩阵 \(\mathbf{B}\) 求逆即可。但在现实中,事件数据是有噪声的,而且在暗区我们可能无法获得足够的事件。作者提出了一个鲁棒的两阶段流程来处理这个问题。

重建流程图: 逐像素估计,随后是时空传播。

阶段 1: 逐像素估计

对于每个像素,他们收集一帧时间内的所有事件。他们求解一个优化问题,找到使误差最小化的穆勒矩阵。

寻找 M 的加权最小二乘最小化问题。

至关重要的是,他们不只是接受任何数学答案。穆勒矩阵必须遵守物理定律 (例如,反射的能量不能多于接收的能量,也不能有“负”偏振) 。他们应用 Cloude 滤波器 (Cloude’s Filter) , 这是一种数学投影,强制矩阵在物理上有效。

应用 Cloude 滤波器以确保物理有效性。

他们还使用了一种迭代加权方案。如果某个特定事件看起来像离群值 (统计噪声) ,其权重 \(w_k\) 会在下一次迭代中降低。

降低离群值权重的权重更新方程。

阶段 2: 时空传播 (Spatio-Temporal Propagation)

有些像素可能没有足够的事件来进行良好的估计 (事件相机的“孔径问题”——如果什么都没变,你就什么都看不见) 。

为了解决这个问题,算法借用了邻居的信息。他们使用了一种类似于 PatchMatch 的技术。算法查看像素在空间 (x, y) 和时间 (上一帧/下一帧) 上的邻居。如果邻居的穆勒矩阵比它自己的估计更符合当前像素的事件数据,该像素就会采用邻居的矩阵。

传播方程,如果能减少误差,像素将采用邻居的矩阵。

时空传播模式的可视化。

最后,他们通过添加微小的随机扰动来改进结果。如果对矩阵进行随机微调能减少误差,他们就保留它。这有助于算法逃离局部极小值并微调结果。

使用随机扰动优化矩阵的改进步骤。


校准: 驯服硬件

在这一切工作之前,系统必须进行校准。两个关键的未知数是事件相机的对比度阈值 (\(C\)) 和 QWP 的确切起始角度。

对比度阈值 (\(C\))

参数 \(C\) 决定了相机的灵敏度。作者通过照射亮度线性增加和减少的光来进行校准。通过将已知的光线斜率与产生的事件数量相匹配,他们可以计算出每个像素的 \(C\) 值。

对比度阈值校准设置和显示线性拟合的结果。

角度校准

电机可能不会恰好从零度开始。为了解决这个问题,他们在光路中放置了一个已知的 QWP。由于他们知道参考 QWP 的穆勒矩阵,他们可以进行网格搜索,找到使重建误差最小的偏移角度。

使用参考目标和网格搜索误差图校准 QWP 偏移角度。


实验结果

研究人员利用合成数据和真实场景广泛验证了事件椭偏仪。

1. 合成验证

他们渲染了一个具有已知偏振属性 (硅胶和黄铜物体) 的合成场景。如下所示,原始初始化 (SVD) 噪声很大,但完整的流程 (包含传播和改进) 几乎完美地恢复了地面真值穆勒矩阵。

合成数据评估,显示从初始化到完整流程的改进。

2. 真实物体的准确性

他们测试了标准光学元件 (如空气、偏振片和波片) 。重建误差极低 (均方误差 \(\approx 0.015\)) 。

真实数据评估,显示已知光学元件的低误差和金属板的强信号。

3. 应用: 光弹性 (Photoelasticity)

这是最酷的应用之一。许多透明材料 (如塑料或明胶) 在受压时会产生双折射——意味着它们会改变穿过它们的光的偏振。这种效应通常肉眼不可见。

事件椭偏仪可以实时捕捉这种应力分布。当力施加到明胶圆盘上时,复杂的条纹图案会出现在穆勒矩阵视频中,使内部机械应力可视化。

明胶圆盘的光弹性分析,显示受力下的应力图案。

光弹性场景的详细可视化,展示不同的偏振分量。

4. 应用: 透明物体检测

用标准 RGB 相机在盒子上寻找透明胶带很难,因为胶带是……透明的。然而,制造胶带的拉伸过程排列了其聚合物链,使其具有双折射性。事件椭偏仪可以立即看到这一点。

透明胶带检测,显示胶带在穆勒矩阵中清晰可见,但在 RGB 中隐藏。

5. 应用: 动态人物和 HDR

由于事件相机具有极高的动态范围,该系统可以扫描人脸 (拥有深色头发和发光、镜面反射的皮肤) 而毫无问题。它可以同时捕捉皮肤的漫反射散射和前额的镜面反射,即使受试者正在移动。

动态人脸和头发的捕捉,揭示偏振属性。

HDR 能力展示,成功同时捕捉明亮的镜面反射区域和黑暗的漫反射区域。


结论

事件椭偏仪 (Event Ellipsometer) 代表了计算成像的一次重大飞跃。通过摆脱传统相机的“逐帧”范式,拥抱事件传感器的异步特性,作者将一种缓慢、静态的测量技术转变为具备实时视频能力的技术。

主要收获:

  1. 速度: 穆勒矩阵成像不再局限于静态实验室样本;它现在可以以 30 fps 运行。
  2. 鲁棒性: 事件相机的高动态范围允许在同一场景中扫描发光和黑暗的物体。
  3. 算法创新: 概率重建流程有效地处理了事件数据固有的噪声,将稀疏的时间尖峰转化为密集的空间图。

这项技术为工业质量控制 (检查传送带上玻璃的应力) 、医学成像 (实时分析皮肤属性) 和高级 3D 扫描等领域的激动人心的应用打开了大门。它证明了有时为了看得更多,我们不需要更多的像素——我们只需要关注变化