如果你曾用智能手机在车窗外拍过旋转的螺旋桨或飞驰的火车,你可能目睹过“卷帘快门” (Rolling Shutter) 效应。螺旋桨看起来像弯曲的回旋镖;垂直的杆子看起来是倾斜的;汽车看起来像是向前倾倒。
这种现象通常被称为“果冻效应”,之所以会发生,是因为大多数现代消费级相机 (CMOS 传感器) 并不是在同一瞬间捕捉整个图像。相反,它们是逐行扫描场景的,通常是从上到下。如果在扫描过程中相机或物体发生了移动,图像的几何形状就会被破坏。
对于摄影师来说,这是一种烦恼。而对于试图进行三维重建或运动恢复结构 (SfM) 的计算机视觉工程师和学生来说,这简直是一场数学噩梦。用于“全局快门” (Global Shutter,即一次性捕捉所有内容) 相机的标准几何定律在这里完全不适用。
在这篇文章中,我们将深入探讨研究论文 “Order-One Rolling Shutter Cameras” , 该论文提出了一种开创性的统一理论来解释这些畸变。作者确定了一类特定且高度实用的卷帘快门 (RS) 相机——称为一阶 (Order-One) 相机——这使得为以前极其困难的问题找到优雅的数学解决方案成为可能。
问题: 当几何结构发生漂移
为了理解这篇论文的贡献,我们首先需要看看我们通常如何建立相机模型与 RS 相机实际行为之间的区别。
在经典的透视相机 (全局快门) 中,图像中的每个像素都在时间 \(t\) 曝光。所有的光线都穿过一个单一的光心 \(C\) 并击中图像平面。这将三维空间中的一个点投影到二维图像上唯一的点。
在卷帘快门相机中,每一行像素都在稍微不同的时间曝光。
- 第 1 行在 \(t_1\) 时刻曝光。
- 第 2 行在 \(t_2\) 时刻曝光。
- …
- 第 \(N\) 行在 \(t_N\) 时刻曝光。
如果相机在这段时间内移动,那么“光心” \(C\) 实际上是在拍摄照片的过程中移动的。

如上图 Figure 1(a) 所示,一般的 RS 相机非常复杂。由于相机在移动,三维空间中的一个点理论上可能会被相机“看到”多次。想象一下,相机扫过一个点,然后旋转回来,在同一帧读取期间再次扫过它。这这就产生了一个数学上非常混乱的多值映射。
然而,这篇论文的作者提出了一个关键问题: 是否存在表现得更像透视相机的卷帘快门相机? 具体来说,是否有一类 RS 相机可以将空间中的每个通用点投影到恰好一个像点?
他们将这些称为一阶卷帘快门 (Order-One, \(RS_1\)) 相机。如 Figure 1(b) 所示,这些相机保持了空间点与图像点之间的一一对应关系,使得它们在数学上更容易处理,同时也模拟了现实世界的畸变。
数学模型
为了将其形式化,作者构建了一个反向投影模型。他们不仅仅考虑像素,而是考虑卷帘平面 (Rolling Planes) 。
卷帘平面的几何学
由于图像的每一行对应一个特定的时间,而在该时间相机具有特定的中心和方向,因此该行像素捕捉到的所有光线在三维空间中形成一个平面。这就是卷帘平面 , 记为 \(\Sigma(r)\)。
- \(r\) : 卷帘行索引 (我们在图像的哪一行) 。
- \(C(r)\) : 读取第 \(r\) 行时光心的位置。
- \(\Sigma(r)\) : 三维空间中经过 \(C(r)\) 且对应于第 \(r\) 行的平面。
相机捕捉到的所有光线集合形成了一种称为线汇 (Line Congruence) 的几何结构。

Figure 2 将此设置可视化。随着相机中心 \(C(r)\) 沿着轨迹 (曲线) 移动,投影平面 \(\Pi(r)\) 也会发生移动。卷帘线 \(r\) 扫过投影平面。
作者推导出了一个映射 \(\Lambda\),将 2D 图像坐标链接回 3D 光线 (格拉斯曼流形 \(\text{Gr}(1, \mathbb{P}^3)\) 的元素) 。

为了使相机成为一阶相机,这个映射 \(\Lambda\) 必须是双有理 (birational) 的。通俗地说,这意味着图像坐标和 3D 光线之间的关系必须可以使用有理函数 (多项式分式) 进行求逆。你给我一条光线,我给你一个唯一的像素;你给我一个像素,我给你一条唯一的光线。
\(RS_1\) 的基本特征
该论文提供了一个强有力的定理 (定理 4) ,确切地描述了这些相机的几何特征。对于一个 \(RS_1\) 相机,必须满足两个主要条件:
- 交线 \(K\): 最直观的发现是, 所有卷帘平面 \(\Sigma(r)\) 必须在三维空间中相交于一条直线 \(K\)。
- 有理运动: 相机中心 \(C(r)\) 的移动和旋转必须遵循代数约束 (具体来说,它们必须是有理映射) 。
这种几何约束——即与扫描线相关的所有平面都相交于一个公共轴 \(K\)——是一个巨大的简化。它允许作者根据相机中心路径 \(\mathcal{C}\) 与该交线 \(K\) 的相互作用,将这些相机分类为特定类型 (类型 I、II 和 III) 。
构建实用的 \(RS_1\) 相机
你可能会想: “这只是数学理论,还是现实中的相机真的会这样表现?”
事实证明, 线性卷帘快门 (Linear Rolling Shutter) 相机——一种在机器人和自动驾驶中使用的标准模型——通常就是 \(RS_1\) 相机。
线性 \(RS_1\) 相机
“线性” RS 相机是指以恒定速度沿直线移动且不旋转 (或恒定旋转) 的相机。这对于在高速公路上行驶的汽车或直线飞行的无人机来说是一个非常好的近似。
作者为此证明了一个具体条件: 当且仅当线性 RS 相机的运动直线平行于投影平面时,它才是一阶的。
如果相机朝向场景移动 (垂直于传感器) ,它是二阶 (点可能被看到两次) 。但如果它侧移 (平行于传感器移动,就像看火车窗外一样) ,它是一阶 。 这涵盖了地图测绘和定位中使用的绝大多数“沿途拍摄”素材。

Figure 3 展示了这种相机设置的几何结构。该图显示了相机路径 \(C\)、交线 \(K\) 和卷帘平面 \(\Sigma\) 相对于无穷远平面 \(H^\infty\) 的关系。向量 \(B\) 代表卷帘平面扫过时的法向量。
Straight-Cayley 模型
论文还分析了 Straight-Cayley 模型,这是一个流行的实用 RS 相机模型,它使用特定的参数化来表示旋转。

Figure 6 (来自图像集) 可视化了一个符合 \(RS_1\) 条件的 Straight-Cayley 相机示例。青色曲线是相机中心的轨迹 (一条扭曲的三次曲线) ,黑色的扇形是卷帘平面。注意它们是如何汇聚在品红色直线 \(K\) 上的。这种视觉确认证明了“所有平面相交于一条线”这一抽象定义实际上对应于工程中使用的复杂、现实的相机运动。
直线的图像
在标准的全局快门照片中,三维世界中的直线在二维图像中看起来也是一条直线。
在卷帘快门图像中,我们知道这不成立 (记得那个弯曲的螺旋桨吗) 。但它究竟是什么形状呢?
作者证明,对于 \(RS_1\) 相机,3D 直线的图像是一个特定次数的有理曲线 。 对于相机沿直线匀速运动 (线性 \(RS_1\)) 的常见情况,3D 直线的图像是一个圆锥曲线 (如双曲线或椭圆) 。
这是一个至关重要的见解。如果你试图编写软件来识别行驶中汽车拍摄的电力线或车道标记,你不应该寻找直线——你应该寻找圆锥曲线。论文提供了不同相机设置下这些曲线的确切次数:

- (注: 引用的表格描述了对于线性 \(RS_1\),次数为 2,意味着是圆锥曲线) 。*
运动恢复结构: 极小问题
几何计算机视觉的“圣杯”是求解运动恢复结构 (SfM) 。 给定两张或多张图像之间的匹配点,我们能否计算出相机在哪里以及 3D 点在哪里?
对于标准相机,我们有著名的“5 点算法”。对于卷帘快门,这要困难得多,因为我们要处理额外的未知量 (速度) 。
“极小问题” (Minimal Problem) 是指产生有限个相机位姿解所需的最少数据点集。例如,“如果有 2 个相机看到了 7 个点,我能解出这个问题吗?”
利用他们的新理论,作者对线性 \(RS_1\) 相机观测点和线的所有可能的极小问题进行了分类。
31 个问题
他们发现对于 2、3、4 和 5 个相机,恰好有 31 个极小问题 。

Figure 4 就像是这些发现的地图。每个条目代表一个可解的几何问题。
- 代码: 像
2100101这样的数字代表特征的数量: 自由点、线上的点、直线等。 - 结果: 图下方的数字 (如 60, 320, 140) 是问题的次数 (degree) ——本质上是指存在多少个数学解。
这为什么重要?
- 效率: 次数较小的问题 (如 28 或 48) 很容易让计算机使用“极小求解器”在毫秒级内解出。
- 可行性: 在这篇论文之前,工程师可能会尝试用随机数量的点来求解相对位姿,却不知道解在数学上是否可能存在。这个表格确切地告诉了你需要多少点和线。
- 新工具: 作者强调了几个针对 2 个相机的“实用”问题 (使用 7 或 9 个点) ,非常适合自动驾驶导航等实时应用。
结论: RS 几何的新基础
论文 “Order-One Rolling Shutter Cameras” 做了一件在计算机视觉中罕见的事情: 它通过增加更多的结构来简化一个复杂的问题。
通过定义 \(RS_1\) 相机类别,作者架起了透视相机的简洁性与一般卷帘快门的混乱性之间的桥梁。他们表明:
- 几何: \(RS_1\) 相机由相交于一条直线的卷帘平面定义。
- 映射: 它们将 3D 点唯一地 (一对一) 投影到 2D 点。
- 现实: 实用的设置,如侧向移动的汽车,通常符合这个模型。
- 可解性: 有 31 个特定的极小问题可用于计算相对位姿,为更好的 SfM 算法铺平了道路。
对于学生和研究人员来说,这打开了构建“卷帘快门感知”的三维重建流程的大门,这些流程在数学上是严谨的,而不仅仅是近似。随着 RS 相机在智能手机和廉价机器人中继续占据主导地位,该理论提供了正确处理“果冻效应”的蓝图。
](https://deep-paper.org/en/paper/2403.11295/images/cover.png)