Simulator HC: 如何利用 AI “作弊” 数学来解决复杂的几何视觉问题

如果你曾涉足 3D 计算机视觉领域——构建用于运动恢复结构 (SfM) 、视觉 SLAM 或相机标定的系统——你就会知道,在每一个炫酷的可视化效果背后,都奠基于令人头疼的数学基础。具体来说,我们经常需要求解多项式方程组

几十年来,该领域一直依赖纯代数方法来求解这些方程。虽然这些方法很优雅,但当问题变得过于复杂,涉及高次幂或许多变量时,它们就显得力不从心了。它们变得计算繁重且数值不稳定。

但是,如果我们能结合深度学习的“粗略猜测”能力和代数几何的“精确优化”能力,会发生什么呢?

在这篇文章中,我们将深入探讨研究论文 《Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric Vision》 。 这篇论文提出了一种迷人的混合方法: 使用神经网络猜测一个答案,“模拟”一个完全符合该答案的假问题,然后使用一种称为同伦延拓 (Homotopy Continuation) 的数学技术将那个假问题变形为真问题,并随之将解带入。

这是一个聪明的变通方案,实现了最先进的效率。让我们来拆解它是如何工作的。


1. 问题所在: “多项式陷阱”

要理解这篇论文的重要性,我们首先需要了解几何视觉中的痛点。

许多几何问题 (例如根据 3D 点找出相机的位置) 都可以写成多项式方程。例如:

  • PnP (Perspective-n-Point) : 给定 3D 点和 2D 投影,寻找相机位姿。
  • 相对位姿 (Relative Pose) : 给定两张图像,找出相机在它们之间是如何移动的。

旧方法: Gröbner 基 (Gröbner Bases)

传统上,我们使用 Gröbner 基来解决这些问题。你可以把 Gröbner 基求解器想象成一个“预编译的消元配方”。研究人员为特定问题 (如著名的 5 点算法) 推导出一个特定的模板。

然而,这种方法遇到了瓶颈。随着问题变得越来越难 (例如广义相机、卷帘快门或求解尺度) ,“消元模板”呈指数级增长。它变成了一个巨大的矩阵,计算缓慢,并且容易因数值精度误差而崩溃。

替代方案: 同伦延拓 (Homotopy Continuation, HC)

近年来,研究人员转向了同伦延拓 (HC) 。 HC 是一种数值方法,感觉有点像魔法。

直觉如下:

  1. 你有一个想要解决的目标系统 \(F(x)=0\) (很难) 。
  2. 你构建一个看起来相似但易于求解的初始系统 \(G(x)=0\) (很简单) 。
  3. 你创建一条连续的路径 (同伦) ,将 \(G(x)\) 慢慢变形为 \(F(x)\)。
  4. 当它们沿着这条路径移动时,你追踪这些根 (解) 。

同伦延拓 (HC) 解曲线追踪的图形说明。对于具有多个解的多项式系统,每个解曲线都可以独立追踪,如图 2a 所示。对于每个解曲线追踪,HC 利用预测-校正方案来逼近目标系统的解之一。

如上图 Figure 2(a) 所示,传统的 HC 会追踪从起点到终点的所有可能的解曲线 (蓝线) 。

潜在陷阱: 一个复杂的多项式系统在复数域中可能有数百或数千个理论解。标准的 HC 必须追踪所有这些解 , 只为了找到少数几个具有物理意义的“实数”解。这在计算上既昂贵 (慢) 又浪费。


2. 核心创新: Simulator HC

这篇论文的作者提出了一个关键问题: 既然我们只关心一条路径,为什么要追踪 100 条呢?

如果我们大致知道解在哪里,我们就可以选择一个靠近它的起点,只追踪那一条路径。这就是 Simulator HC 的用武之地。它引入了一个三阶段流程:

  1. 回归 (Regression) : 神经网络估计一个粗略的解。
  2. 在线模拟 (Online Simulation) : 我们生成一个与这个粗略解完美匹配的合成“初始问题”。
  3. 同伦延拓 (Homotopy Continuation) : 我们从合成问题到真实问题追踪一条单一路径。

所提出的几何问题解决方案概览。给定输入对应关系,利用回归网络来近似解。随后的在线模拟器生成一组与回归输出一致的新对应关系。获得的“问题-解”对最终用于引导同伦延拓。通过追踪单个根,可以高效地找到最终解。

让我们详细看看每个阶段。

第一阶段: 回归网络

首先,我们需要一个猜测。研究人员训练了一个标准的卷积神经网络 (CNN) ,它以几何对应关系 (点对) 作为输入,并输出相机位姿 (旋转和平移) 。

这个网络不需要完美。事实上,神经网络在获得高精度视觉所需的“精确”解方面出了名地不擅长。但它们非常擅长获得接近的解。网络充当通用的函数逼近器,提供一个热启动。

第二阶段: 在线模拟器 (巧妙之处)

这是论文最新颖的部分。

假设网络观察一张真实图像并猜测了一个相机位姿 \(\hat{R}, \hat{t}\)。这个猜测可能稍微有些错误,意味着如果你把它代入真实的方程中,它们不会等于零。

研究人员没有强迫猜测去适应真实问题,而是改变问题来适应猜测。

他们实际上是在问: “如果这个猜测的位姿实际上是 100% 正确的,那么 2D 图像点会是什么样子?” 然后,他们使用猜测的位姿投影 3D 点,以创建新的、合成的 2D 点。

现在我们要有一对完美一致的组合:

  • 解: 网络的猜测。
  • 问题: 合成的 2D 点。

这构成了我们的初始系统 \(G(x)\)。我们知道 \(G(x)\) 的解正是网络的输出。

第三阶段: 单路径同伦延拓

现在我们只需将合成的 2D 点变形回真实的 2D 点

在数学上,同伦函数 \(H(x,t)\) 定义为初始系统 \(G(x)\) 和目标系统 \(F(x)\) 之间的线性插值:

同伦函数 H(x,t) 的方程

这里,\(t\) 从 0 到 1。

  • 在 \(t=0\) 时,我们处于模拟问题 (解已知) 。
  • 在 \(t=1\) 时,我们处于真实问题 (解未知) 。

因为我们的回归猜测可能接近真实答案,所以从 \(t=0\) 到 \(t=1\) 的路径通常很短且表现良好。我们需要追踪 100 条路径;我们只需追踪 Figure 2(b) (来自前面的图片) 中描绘的那一条特定曲线。

路径是如何追踪的?

追踪使用的是“预测-校正”方法。它涉及求解微分方程。曲线 \(x(t)\) 由微分方程定义:

关于 t 的 x 微分方程

为了沿着路径移动,求解器采取一个小步长 \(\delta t\) (欧拉预测) :

欧拉预测步长方程

因为这个线性步骤会稍微偏离曲线,所以使用牛顿-高斯校正步骤将其拉回到路径上:

高斯-牛顿校正步长方程

通过重复这个预测-校正循环,求解器将解从假问题“滑动”到真问题。


3. 应用 1: 广义 PnP

作者首先在广义 Perspective-n-Point (GPnP) 问题上对此进行了测试。这涉及相对于已知 3D 点寻找多相机系统的位姿。

我们建议通过在线模拟器 HC 解决的广义相机问题的几何结构。w 代表世界坐标系,c 和 c’ 分别代表不同视图中的相机坐标系。

Figure 3 左侧所示,我们有一个世界点 \(p_i\),一个射线原点 \(v_i\),和一个射线方向 \(f_i\)。几何约束为:

广义 PnP 约束方程

算法工作流程如下:

  1. 回归: 网络预测旋转 \(R\) 和平移 \(t\)。
  2. 模拟: 计算与预测的 \(R, t\) 完美对齐的合成图像射线 \(\hat{f}_i\)。
  3. 求解: 使用 HC 将 \(\hat{f}_i\) 变形回测量的 \(f_i\)。

这作为一个概念验证。由于 GPnP 相对简单 (可以用传统方法高效求解) ,Simulator HC 达到了 100% 的成功率,与传统求解器相当,但提供了一种新的初始化方式。


4. 应用 2: 广义相对位姿和尺度 (GRPS)

Simulator HC 的真正威力在传统求解器束手无策的“困难”问题中大放异彩。作者解决了广义相对位姿和尺度问题。

想象一下你有两组相机 (比如两辆擦肩而过的自动驾驶汽车,或者一个在房间里移动的多相机装备) 。你想弄清楚它们相对彼此是如何移动的。因为这些是“广义”相机 (非中心) ,你实际上可以求解平移的度量尺度 , 这通常是用单个标准相机无法做到的。

然而,这是一个有 140 个解的最小问题

  • 传统的 Gröbner 基求解器需要处理一个 \(144 \times 284\) 的矩阵。
  • 标准的 HC 需要追踪 140 条路径。

GRPS 的几何结构

该设置涉及来自两个不同视图的射线在 3D 空间中相交,并考虑了比例因子 \(s\):

GRPS 几何方程

通过消除未知的深度 (\(\alpha\)),作者推导出了一个仅涉及位姿和尺度的约束:

GRPS 多项式约束方程

GRPS 的模拟器策略

回归网络现在预测旋转、平移尺度。 为了创建“初始问题”,模拟器需要生成一致的对应关系。

  1. 获取预测的 \(R, t, s\)。
  2. 使用线性最小二乘法求解“假”深度:

求解假深度的方程

  1. 生成“假”图像射线 \(\hat{f}_i\):

生成合成射线的方程

现在,HC 求解器从这个模拟设置追踪解到真实测量值。


5. 实验与结果

这种混合的“模拟并求解”方法与重量级方法相比如何?

速度与效率

结果是惊人的。因为 Simulator HC 只追踪一条路径,它比追踪所有路径的标准 HC 方法快得多。

图 4. GRPS 上的实验结果。图 4a 无噪声数据 1000 次试验的误差分布。图 4b 所提出的 Simulator HC 与其他方法的运行时间箱线图比较。图 4c Simulator HC 在不同噪声水平下的误差统计。

Figure 4b (中间) :

  • CPU-HC / GPU-HC: 这些追踪所有 140 个解。它们很慢 (橙色/栗色) 。
  • Gröbner Bases (GB): 传统的代数方法 (紫色) 。由于巨大的矩阵运算,它很慢。
  • Simulator HC (绿色): 它呈指数级加速,在 CPU 上运行仅需 ~0.06 毫秒 。 它比 Gröbner 基求解器快约 17 倍

成功率与稳定性

如果答案是错的,速度再快也没用。 Figure 4a (左) 显示了误差分布。

  • Gröbner Bases (紫色) 最精确 (在 0 误差处有最窄的尖峰) ,这也是精确代数求解器的预期表现。
  • Simulator HC (绿色/蓝色) 的误差分布稍宽,但仍保持非常高的成功率 (使用 8 个点时超过 96%) 。
  • 重要的是, 纯回归器 (仅神经网络) 会有巨大的误差分布。HC 步骤成功地将那个松散的猜测收紧为一个精确的解。

RANSAC 中的鲁棒性

在现实世界中,视觉数据充满了“外点” (错误的匹配) 。求解器通常被包裹在一个名为 RANSAC 的循环中以过滤掉这些点。

作者将 Simulator HC 集成到 RANSAC 中,并将其与 Gröbner Bases 进行了比较。

表 2. GRPS 问题的 RANSAC 实验。高达 40% 的外点比例可以轻松处理。Simulator HC 始终更快。

Table 2 所示,即使有 40% 的外点,Simulator HC 仍保持高成功率,但完成任务的速度明显快于传统方法。这使得它对于自动驾驶或 AR/VR 等实时应用非常实用。


6. 结论与要点

Simulator HC 这篇论文展示了我们处理几何视觉问题方式的范式转变。它不再将深度学习和代数几何视为竞争对手,而是将它们视为队友。

  • 深度学习提供直觉: 关于解在哪里的快速、近似猜测。
  • 代数几何 (HC) 提供精度: 一条严格的数学路径,将该猜测优化为精确的根。
  • 桥梁: “在线模拟器”通过创建一个合成现实连接两者,在这个现实中,神经网络的猜测是绝对真理,从而为数学接管提供了一个有效的起点。

这种方法将“困难”问题 (如具有 140 个解的 GRPS) 转变为可管理的“单路径”追踪任务。对于计算机视觉领域的学生和研究人员来说,这凸显了一个令人兴奋的趋势: 未来不仅仅是神经网络中“更多的层”,而是将这些网络集成到已建立的数学框架中,以比以往更快、更可靠地解决问题。