引言
在计算机视觉领域,最基础的任务之一就是对齐。无论是无人机通过卫星地图导航,机器人融合红外与可见光数据,还是医疗系统叠加 MRI 和 CT 扫描,系统都必须理解两幅图像在几何上是如何关联的。这种关系通常由单应性 (Homography) 来描述——这是一种将点从一个视角映射到另一个视角的变换。
当图像来自同一个传感器 (例如两张标准照片) 时,寻找这种关系相对简单。我们只需滑动一张图像直到像素匹配即可。然而,在跨模态 (Cross-modal) 场景中,问题变得异常困难。你如何将黑白热成像图与彩色卫星照片对齐?它们的像素强度完全不同;在热成像中,发热的引擎是亮白色的,但在可见光照片中可能是一个深灰色的方块。
传统上,解决这个问题的深度学习方法需要大量带有“真值 (Ground Truth) ”标签的数据集——即已知完美对齐方式的图像对。但在现实世界中,获取这些完美标签既昂贵又困难。这导致了无监督学习的兴起,即让模型自我教学。
然而,无监督跨模态估计面临一个巨大的障碍: “解空间”充满了陷阱。

如图 1 所示,标准的无监督方法依赖于“内容一致性” (图 a) 。由于图像看起来截然不同,损失函数变得崎岖不平,充满了局部极小值 (陷阱) ,模型会误以为找到了答案,实际上却没找到。理想情况下,我们需要“单应性直接监督” (图 b) 那样平滑、凸优化的景观,但这通常需要我们要不到的标签。
在这篇文章中,我们将深入探讨 SSHNet (Split Supervised Homography estimation Network,分割监督单应性估计网络) 。 这篇研究论文提出了一种巧妙的方法,将这个无监督的噩梦重构为两个易于处理的监督子问题,从而在没有任何人工标签的情况下实现高精度的图像对齐。
背景: 跨模态挑战
在剖析 SSHNet 之前,我们需要理解为什么现有的方法会失败。
单应性估计
单应性是一个 \(3 \times 3\) 的矩阵,用于描述两个平面表面之间的变换。在深度学习中,我们通常将两幅图像 (\(I_A\) 和 \(I_B\)) 输入卷积神经网络 (CNN) ,网络会输出该矩阵或图像四个角的移动量。
标准度量的失效
在单模态任务 (例如 RGB 到 RGB) 中,无监督学习通过最小化光度误差来工作。如果对齐完美,则 \(I_A - Warped(I_B) \approx 0\)。
在跨模态任务 (例如 RGB 到红外) 中,\(I_A - Warped(I_B)\) 永远不会为零,因为不同模态以不同方式表现物理现实。研究人员曾尝试使用“互信息”或“相关性”作为度量标准,但这些计算量大,且在几何变形较大时往往会失效。
最近的最先进 (SOTA) 方法如 SCPNet 试图通过混合跨模态学习与自监督模态内学习来解决这个问题。虽然有效,但它们仍然依赖于间接监督,这使得迭代网络很难收敛到正确答案。
核心方法: SSHNet
SSHNet 背后的研究人员不仅调整了网络架构;他们从根本上改变了问题的框架。他们意识到,无监督跨模态问题实际上是纠缠在一起的两个监督问题。
1. 问题重构
SSHNet 的核心创新在于将无监督任务拆分为两个相互耦合的子问题,这两个子问题彼此提供直接监督 。

让我们看看图 2 :
- (a) 原始问题: 我们有输入图像 \(I_A\) 和 \(I_B\),想要找到单应性 \(\hat{H}_{AB}\)。没有真值,因此无法直接监督。
- (b) 子问题 I (单应性估计) : 想象一下我们可以完美地将图像 \(I_A\) 转换为模态 B 的风格 (生成 \(I_{A,T}\)) 。那么我们就可以将其视为一个单模态问题。我们可以在 \(I_B\) 上生成合成变形 (这是我们知道答案的) ,并训练网络将 \(I_{A,T}\) 对齐到 \(I_B\)。
- (c) 子问题 II (模态转换) : 为了得到那个转换后的图像 \(I_{A,T}\),我们需要一个能将模态 A 转换为 B 的网络。要训练这个网络,我们需要知道 A 中的哪个像素对应 B 中的哪个像素。如果我们拥有从子问题 I 估计出的单应性,我们就可以对齐 \(I_B\) 以匹配 \(I_A\),从而为监督提供目标图像。
这就产生了一个“先有鸡还是先有蛋”的循环:
- 要估计单应性 , 我们需要好的模态转换 。
- 要学习模态转换 , 我们需要好的单应性 (来对齐训练对) 。
SSHNet 使用分割优化策略 (Split Optimization Strategy) 解决了这个循环。
2. 分割优化架构
SSHNet 没有尝试一次性优化所有内容 (作者发现这会导致失败) ,而是以交替的方式分别训练两个特定的网络——单应性估计网络 (\(\mathcal{H}\)) 和模态转换网络 (\(\mathcal{T}\)) 。

图 4 展示了完整的工作流程。让我们分解图中显示的两个阶段。
阶段 1: 子问题 I 的优化 (单应性)
在这个阶段 (图 4a) ,目标是训练单应性网络。模态转换网络被冻结 (由雪花图标表示) 。
- 输入生成: 系统接收输入 \(I_A\) 和 \(I_B\)。它应用随机的、已知的变形来创建图像对。例如,它使用已知的单应性 \(H_{B, GT}\) 对 \(I_B\) 进行变换以创建 \(I'_B\)。
- 转换: 冻结的转换网络将 A 模态图像转换为 B 模态风格 (\(I_{A,T}\)) 。
- 训练: 单应性网络 (\(\mathcal{H}\)) 尝试预测移动量。
- 至关重要的是,作者使用了双分支自监督训练 。 它从纯净的 B 到 B 图像对 (\(I_B, I'_B\)) 以及跨模态图像对 (\(I_{A,T}, I'_{A,T}\)) 中学习。这确保了网络学习到的特征对这两种任务都具有鲁棒性。
此阶段的目标函数最小化预测单应性与真值 (合成) 单应性之间的误差:

这里,\(\mathcal{R}\) 充当使用转换图像来引导网络的正则化项。
阶段 2: 子问题 II 的优化 (模态转换)
在这个阶段 (图 4b) ,单应性网络被冻结 。 目标是教转换网络 (\(\mathcal{T}\)) 如何让图像 A 看起来像图像 B。
- 转换网络接收 \(I_A\) 并生成 \(I_{A,T}\)。
- 为了验证 \(I_{A,T}\) 是否良好,我们将其与 \(I_B\) 进行比较。
- 对齐技巧: 由于 \(I_A\) 和 \(I_B\) 并非天然对齐,我们使用单应性网络 (来自冻结的单应性网络) 的当前最佳猜测来变换 \(I_B\)。
- 计算生成图像与变换后的 \(I_B\) 之间的损失。

因为对齐可能仍然稍有偏差,作者没有使用简单的像素对像素相减 (L1 损失) 。相反,他们使用感知损失 (Perceptual Loss) (利用 VGG 网络) 来比较高层特征,这种方法对轻微的错位更具包容性。

为什么要分割优化?
你可能会问,为什么不一起训练它们?作者测试了“直接优化” (联合训练) 与他们的分割方法的对比。

图 3 显示了巨大的差异。蓝线 (直接优化) 未能收敛——误差居高不下,因为两个网络互相干扰。橙线 (带有正则化的分割优化) 迅速下降。通过改进一个网络,你为另一个网络提供了更好的训练数据,从而创造了一个正反馈循环。
3. 额外的单应性特征空间监督
虽然上述方法很强大,但模态转换网络受到的监督主要是为了使图像在视觉上看起来相似。然而,对于单应性估计而言, 特征一致性比视觉美观更重要。
为了加强这一点,作者引入了一个额外的监督模块 (如图 4c 所示) 。他们强制从转换后的图像 (\(I_{A,T}\)) 提取的特征与变换后的目标图像 (\(I_{B,W}\)) 的特征相匹配。
他们利用基于相关性的损失函数来实现这一点,确保用于匹配的深层特征高度相关:

这一步填补了简单的“生成图片”与“生成几何上可对齐的图片”之间的空白。
4. 蒸馏训练: 提高效率
SSHNet 框架很复杂。它需要运行一个模态转换网络 (本质上是一个 U-Net 风格的 Transformer) 仅仅是为了准备用于对齐的图像。这不仅计算成本高昂,还引入了额外的参数。
为了解决这个问题,研究人员采用了蒸馏训练 。

如图 5 所示,完整的 SSHNet 充当“教师”。一旦训练完成,它非常擅长估计单应性 (\(\hat{H}_{teacher}\)) 。 然后他们创建一个“学生”网络 (SSHNet-D) 。该学生网络:
- 不包含模态转换网络。
- 直接以原始的 \(I_A\) 和 \(I_B\) 作为输入。
- 被训练来模仿教师的输出。

这产生了一个轻量级、快速的最终模型,而且令人惊讶的是,它的泛化能力往往比教师模型更好,因为它直接学习鲁棒的特征,而不是依赖于中间的图像生成步骤。
实验与结果
研究人员在几个代表不同传感器差异的挑战性数据集上评估了 SSHNet。

图 6 突显了难度:
- (c) OPT-SAR: 光学与合成孔径雷达。差异巨大;与光学地图相比,SAR 图像看起来像散乱的噪点。
- (d) Flash/No-flash: 光照极大地改变了纹理。
- (e) RGB/NIR: 植被在近红外中看起来很亮,但在 RGB 中很暗。
定量性能
对于一种无监督方法来说,结果简直令人震惊。

表 5 列出了平均角点误差 (MACE) ——越低越好。
- SSHNet-IHN (使用迭代骨干网络的 SSHNet) 在困难的 OPT-SAR 数据集上得分为 2.94 。
- 与之相比, MHN (一种监督方法) 得分为 5.59 。 尽管没有任何真值标签 , SSHNet 仍将误差降低了 47.4% 。
- 与之前的无监督 SOTA 方法 SCPNet (在 OPT-SAR 上未能收敛) 相比,SSHNet 非常稳定。
消融研究
为了证明各组件的有效性,作者对模型进行了精简测试。

表 1 证实,如果没有重构和分割优化,模型根本无法收敛 (NC) 。

表 3 显示了损失函数的影响。使用基本的 L1 损失进行转换产生的误差为 5.88。添加感知损失 (\(L_{pcp}\)) 将其降至 4.52。添加特定的单应性特征相关性损失 (\(L_{corr}\)) 进一步将其降至 2.94。
泛化与现实世界应用
最有趣的发现之一来自蒸馏实验。

在表 6 中,研究人员测试了模型在一个数据集上训练并在另一个数据集上测试的效果。蒸馏版本 (SSHNet-IHN-D) 在跨数据集场景中通常优于完整的教师模型 (SSHNet-IHN) (红色数字表示改进) 。通过消除对特定风格转换网络 (可能会过拟合训练数据集的特定“外观”) 的依赖,学生网络学习到了更通用的几何特征。
最后,该方法在现实世界的不完美数据上进行了测试。

图 7 显示了定性结果。在行 (b) 中,我们看到热成像 (TIR) 图像与可见光图像对齐。对齐非常紧密,保留了建筑物和道路的直线,证明该方法能有效处理现实世界的视差和传感器噪声。
结论
SSHNet 代表了无监督学习向前迈出的重要一步。通过认识到跨模态单应性问题本质上是两个相互依赖的问题——几何和风格——研究人员制定了一种迭代解决它们的方法。
给学生和从业者的关键要点:
- 重构是强大的: 有时解决困难的无监督问题的最佳方法是将其分解为耦合的监督子问题。
- 分割优化: 当两个网络相互依赖时,同时训练它们会导致混乱。交替优化可以稳定学习过程。
- 直接与间接: 从间接的内容一致性 (导致局部极小值) 转向通过合成数据和风格转换的直接监督,是实现高精度的关键。
SSHNet 使我们能够以极高的精度对齐来自不同传感器的数据,而这在以前需要昂贵的人工标注,从而为更自主、更鲁棒的多传感器系统打开了大门。
](https://deep-paper.org/en/paper/2409.17993/images/cover.png)