Simulator HC: 如何利用 AI “作弊” 数学来解决复杂的几何视觉问题

如果你曾涉足 3D 计算机视觉领域——构建用于运动恢复结构 (SfM) 、视觉 SLAM 或相机标定的系统——你就会知道，在每一个炫酷的可视化效果背后，都奠基于令人头疼的数学基础。具体来说，我们经常需要求解多项式方程组 。

几十年来，该领域一直依赖纯代数方法来求解这些方程。虽然这些方法很优雅，但当问题变得过于复杂，涉及高次幂或许多变量时，它们就显得力不从心了。它们变得计算繁重且数值不稳定。

但是，如果我们能结合深度学习的“粗略猜测”能力和代数几何的“精确优化”能力，会发生什么呢？

在这篇文章中，我们将深入探讨研究论文 《Simulator HC: Regression-based Online Simulation of Starting Problem-Solution Pairs for Homotopy Continuation in Geometric Vision》 。这篇论文提出了一种迷人的混合方法: 使用神经网络猜测一个答案，“模拟”一个完全符合该答案的假问题，然后使用一种称为同伦延拓 (Homotopy Continuation) 的数学技术将那个假问题变形为真问题，并随之将解带入。

这是一个聪明的变通方案，实现了最先进的效率。让我们来拆解它是如何工作的。

1. 问题所在: “多项式陷阱”

要理解这篇论文的重要性，我们首先需要了解几何视觉中的痛点。

许多几何问题 (例如根据 3D 点找出相机的位置) 都可以写成多项式方程。例如:

PnP (Perspective-n-Point) : 给定 3D 点和 2D 投影，寻找相机位姿。
相对位姿 (Relative Pose) : 给定两张图像，找出相机在它们之间是如何移动的。

旧方法: Gröbner 基 (Gröbner Bases)

传统上，我们使用 Gröbner 基来解决这些问题。你可以把 Gröbner 基求解器想象成一个“预编译的消元配方”。研究人员为特定问题 (如著名的 5 点算法) 推导出一个特定的模板。

然而，这种方法遇到了瓶颈。随着问题变得越来越难 (例如广义相机、卷帘快门或求解尺度) ，“消元模板”呈指数级增长。它变成了一个巨大的矩阵，计算缓慢，并且容易因数值精度误差而崩溃。

替代方案: 同伦延拓 (Homotopy Continuation, HC)

近年来，研究人员转向了同伦延拓 (HC) 。 HC 是一种数值方法，感觉有点像魔法。

直觉如下:

你有一个想要解决的目标系统 \(F(x)=0\) (很难) 。
你构建一个看起来相似但易于求解的初始系统 \(G(x)=0\) (很简单) 。
你创建一条连续的路径 (同伦) ，将 \(G(x)\) 慢慢变形为 \(F(x)\)。
当它们沿着这条路径移动时，你追踪这些根 (解) 。

同伦延拓 (HC) 解曲线追踪的图形说明。对于具有多个解的多项式系统，每个解曲线都可以独立追踪，如图 2a 所示。对于每个解曲线追踪，HC 利用预测-校正方案来逼近目标系统的解之一。

如上图 Figure 2(a) 所示，传统的 HC 会追踪从起点到终点的所有可能的解曲线 (蓝线) 。

潜在陷阱: 一个复杂的多项式系统在复数域中可能有数百或数千个理论解。标准的 HC 必须追踪所有这些解 , 只为了找到少数几个具有物理意义的“实数”解。这在计算上既昂贵 (慢) 又浪费。

2. 核心创新: Simulator HC

这篇论文的作者提出了一个关键问题: 既然我们只关心一条路径，为什么要追踪 100 条呢?

如果我们大致知道解在哪里，我们就可以选择一个靠近它的起点，只追踪那一条路径。这就是 Simulator HC 的用武之地。它引入了一个三阶段流程:

回归 (Regression) : 神经网络估计一个粗略的解。
在线模拟 (Online Simulation) : 我们生成一个与这个粗略解完美匹配的合成“初始问题”。
同伦延拓 (Homotopy Continuation) : 我们从合成问题到真实问题追踪一条单一路径。

所提出的几何问题解决方案概览。给定输入对应关系，利用回归网络来近似解。随后的在线模拟器生成一组与回归输出一致的新对应关系。获得的“问题-解”对最终用于引导同伦延拓。通过追踪单个根，可以高效地找到最终解。

让我们详细看看每个阶段。

第一阶段: 回归网络

首先，我们需要一个猜测。研究人员训练了一个标准的卷积神经网络 (CNN) ，它以几何对应关系 (点对) 作为输入，并输出相机位姿 (旋转和平移) 。

这个网络不需要完美。事实上，神经网络在获得高精度视觉所需的“精确”解方面出了名地不擅长。但它们非常擅长获得接近的解。网络充当通用的函数逼近器，提供一个热启动。

第二阶段: 在线模拟器 (巧妙之处)

这是论文最新颖的部分。

假设网络观察一张真实图像并猜测了一个相机位姿 \(\hat{R}, \hat{t}\)。这个猜测可能稍微有些错误，意味着如果你把它代入真实的方程中，它们不会等于零。

研究人员没有强迫猜测去适应真实问题，而是改变问题来适应猜测。

他们实际上是在问: “如果这个猜测的位姿实际上是 100% 正确的，那么 2D 图像点会是什么样子？” 然后，他们使用猜测的位姿投影 3D 点，以创建新的、合成的 2D 点。

现在我们要有一对完美一致的组合:

解: 网络的猜测。
问题: 合成的 2D 点。

这构成了我们的初始系统 \(G(x)\)。我们知道 \(G(x)\) 的解正是网络的输出。

第三阶段: 单路径同伦延拓

现在我们只需将合成的 2D 点变形回真实的 2D 点 。

在数学上，同伦函数 \(H(x,t)\) 定义为初始系统 \(G(x)\) 和目标系统 \(F(x)\) 之间的线性插值:

同伦函数 H(x,t) 的方程

这里，\(t\) 从 0 到 1。

在 \(t=0\) 时，我们处于模拟问题 (解已知) 。
在 \(t=1\) 时，我们处于真实问题 (解未知) 。

因为我们的回归猜测可能接近真实答案，所以从 \(t=0\) 到 \(t=1\) 的路径通常很短且表现良好。我们需要追踪 100 条路径；我们只需追踪 Figure 2(b) (来自前面的图片) 中描绘的那一条特定曲线。

路径是如何追踪的？

追踪使用的是“预测-校正”方法。它涉及求解微分方程。曲线 \(x(t)\) 由微分方程定义:

关于 t 的 x 微分方程

为了沿着路径移动，求解器采取一个小步长 \(\delta t\) (欧拉预测) :

欧拉预测步长方程

因为这个线性步骤会稍微偏离曲线，所以使用牛顿-高斯校正步骤将其拉回到路径上:

高斯-牛顿校正步长方程

通过重复这个预测-校正循环，求解器将解从假问题“滑动”到真问题。

3. 应用 1: 广义 PnP

作者首先在广义 Perspective-n-Point (GPnP) 问题上对此进行了测试。这涉及相对于已知 3D 点寻找多相机系统的位姿。

我们建议通过在线模拟器 HC 解决的广义相机问题的几何结构。w 代表世界坐标系，c 和 c’ 分别代表不同视图中的相机坐标系。

如 Figure 3 左侧所示，我们有一个世界点 \(p_i\)，一个射线原点 \(v_i\)，和一个射线方向 \(f_i\)。几何约束为:

广义 PnP 约束方程

算法工作流程如下:

回归: 网络预测旋转 \(R\) 和平移 \(t\)。
模拟: 计算与预测的 \(R, t\) 完美对齐的合成图像射线 \(\hat{f}_i\)。
求解: 使用 HC 将 \(\hat{f}_i\) 变形回测量的 \(f_i\)。

这作为一个概念验证。由于 GPnP 相对简单 (可以用传统方法高效求解) ，Simulator HC 达到了 100% 的成功率，与传统求解器相当，但提供了一种新的初始化方式。

4. 应用 2: 广义相对位姿和尺度 (GRPS)

Simulator HC 的真正威力在传统求解器束手无策的“困难”问题中大放异彩。作者解决了广义相对位姿和尺度问题。

想象一下你有两组相机 (比如两辆擦肩而过的自动驾驶汽车，或者一个在房间里移动的多相机装备) 。你想弄清楚它们相对彼此是如何移动的。因为这些是“广义”相机 (非中心) ，你实际上可以求解平移的度量尺度 , 这通常是用单个标准相机无法做到的。

然而，这是一个有 140 个解的最小问题 。

传统的 Gröbner 基求解器需要处理一个 \(144 \times 284\) 的矩阵。
标准的 HC 需要追踪 140 条路径。

GRPS 的几何结构

该设置涉及来自两个不同视图的射线在 3D 空间中相交，并考虑了比例因子 \(s\):

GRPS 几何方程

通过消除未知的深度 (\(\alpha\))，作者推导出了一个仅涉及位姿和尺度的约束:

GRPS 多项式约束方程

GRPS 的模拟器策略

回归网络现在预测旋转、平移和尺度。为了创建“初始问题”，模拟器需要生成一致的对应关系。

获取预测的 \(R, t, s\)。
使用线性最小二乘法求解“假”深度:

求解假深度的方程

生成“假”图像射线 \(\hat{f}_i\):

生成合成射线的方程

现在，HC 求解器从这个模拟设置追踪解到真实测量值。

5. 实验与结果

这种混合的“模拟并求解”方法与重量级方法相比如何？

速度与效率

结果是惊人的。因为 Simulator HC 只追踪一条路径，它比追踪所有路径的标准 HC 方法快得多。

图 4. GRPS 上的实验结果。图 4a 无噪声数据 1000 次试验的误差分布。图 4b 所提出的 Simulator HC 与其他方法的运行时间箱线图比较。图 4c Simulator HC 在不同噪声水平下的误差统计。

看 Figure 4b (中间) :

CPU-HC / GPU-HC: 这些追踪所有 140 个解。它们很慢 (橙色/栗色) 。
Gröbner Bases (GB): 传统的代数方法 (紫色) 。由于巨大的矩阵运算，它很慢。
Simulator HC (绿色): 它呈指数级加速，在 CPU 上运行仅需 ~0.06 毫秒 。它比 Gröbner 基求解器快约 17 倍 。

成功率与稳定性

如果答案是错的，速度再快也没用。 Figure 4a (左) 显示了误差分布。

Gröbner Bases (紫色) 最精确 (在 0 误差处有最窄的尖峰) ，这也是精确代数求解器的预期表现。
Simulator HC (绿色/蓝色) 的误差分布稍宽，但仍保持非常高的成功率 (使用 8 个点时超过 96%) 。
重要的是, 纯回归器 (仅神经网络) 会有巨大的误差分布。HC 步骤成功地将那个松散的猜测收紧为一个精确的解。

RANSAC 中的鲁棒性

在现实世界中，视觉数据充满了“外点” (错误的匹配) 。求解器通常被包裹在一个名为 RANSAC 的循环中以过滤掉这些点。

作者将 Simulator HC 集成到 RANSAC 中，并将其与 Gröbner Bases 进行了比较。

表 2. GRPS 问题的 RANSAC 实验。高达 40% 的外点比例可以轻松处理。Simulator HC 始终更快。

如 Table 2 所示，即使有 40% 的外点，Simulator HC 仍保持高成功率，但完成任务的速度明显快于传统方法。这使得它对于自动驾驶或 AR/VR 等实时应用非常实用。

6. 结论与要点

Simulator HC 这篇论文展示了我们处理几何视觉问题方式的范式转变。它不再将深度学习和代数几何视为竞争对手，而是将它们视为队友。

深度学习提供直觉: 关于解在哪里的快速、近似猜测。
代数几何 (HC) 提供精度: 一条严格的数学路径，将该猜测优化为精确的根。
桥梁: “在线模拟器”通过创建一个合成现实连接两者，在这个现实中，神经网络的猜测是绝对真理，从而为数学接管提供了一个有效的起点。

这种方法将“困难”问题 (如具有 140 个解的 GRPS) 转变为可管理的“单路径”追踪任务。对于计算机视觉领域的学生和研究人员来说，这凸显了一个令人兴奋的趋势: 未来不仅仅是神经网络中“更多的层”，而是将这些网络集成到已建立的数学框架中，以比以往更快、更可靠地解决问题。

Simulator HC: 如何利用 AI “作弊” 数学来解决复杂的几何视觉问题#

1. 问题所在: “多项式陷阱”#

旧方法: Gröbner 基 (Gröbner Bases)#

替代方案: 同伦延拓 (Homotopy Continuation, HC)#

2. 核心创新: Simulator HC#

第一阶段: 回归网络#

第二阶段: 在线模拟器 (巧妙之处)#

第三阶段: 单路径同伦延拓#

路径是如何追踪的？#

3. 应用 1: 广义 PnP#

4. 应用 2: 广义相对位姿和尺度 (GRPS)#

GRPS 的几何结构#

GRPS 的模拟器策略#

5. 实验与结果#

速度与效率#

成功率与稳定性#

RANSAC 中的鲁棒性#

6. 结论与要点#