简介
想象一下,你试图通过让机器人观看人类厨师的视频来教它做饭。机器人有自己的摄像头 (第一人称,或称“自我中心”视角) ,但它同时也观看着厨房角落里的监控摄像头 (第三人称,或称“非自我中心”/外部视角) 。人类拿起一个蓝色的杯子。为了模仿这一动作,机器人需要知道角落摄像头画面中的那个蓝色形状,与它自己摄像头画面中的蓝色形状对应的是同一个物体。
这对人类来说听起来微不足道,但对于计算机视觉模型来说,这是一个极其困难的几何和语义难题。视点是不连贯的;光照不同;物体在一个摄像头中可能看起来巨大,而在另一个摄像头中却很小。
传统上,解决这个问题需要大量的标注数据——即人类在数千张图像中手动圈出不同视角下的“同一个”物体。但最近,来自得克萨斯大学奥斯汀分校和斯坦福大学的研究人员引入了一种名为 预测性循环一致性 (Predictive Cycle Consistency, PCC) 的方法。
他们的方法允许 AI 完全自主地学习这些关联 (自监督) ,并在具有挑战性的基准测试中取得了击败人类监督模型的结果。

如图 1 所示,目标是在两个截然不同的视图之间架起桥梁——一个是昏暗的鱼眼视图,另一个是明亮的标准视图——并成功识别出蓝色的杯子在两个视图中是同一个物体,尽管空间布局存在“不一致”。
在这篇文章中,我们将详细剖析 PCC 的工作原理,它如何利用巧妙的“着色”技巧来寻找物体,以及为什么它代表了机器人模仿学习和视频理解向前迈出的一大步。
问题: 现有对应关系的局限性
视觉对应 (Visual correspondence) 是确定图像 A 的哪些部分与图像 B 的哪些部分相关联的任务。过去,这主要是使用 光流 (Optical Flow) 或像素到像素跟踪来完成的。这些方法对于高帧率视频非常有效,例如汽车在第 1 帧和第 2 帧之间稍微向左移动的情况。
然而,这些方法在两种特定场景下会失效:
- 极端的视角变化: 当相机 A 和相机 B 从完全不同的角度观察场景时 (如图 1 所示) 。
- 时间不连续性: 当帧与帧之间存在巨大的时间间隔时 (例如,将视频开始时的汽车与 30 秒后的同一辆汽车进行匹配) 。
在这些“不连续”的设置中,像素不仅仅是移动;它们会消失、扭曲或完全改变外观。为了解决这个问题,模型需要理解 物体 , 而不仅仅是像素。
目前最先进的自监督方法通常依赖于对比学习 (匹配特征嵌入) 。虽然有效,但这些方法经常在遇到“干扰项”时陷入困境——即那些看起来语义相似 (比如两张不同的纸) 但在空间上截然不同的物体。研究人员需要一种方法,迫使模型在没有被告知答案的情况下理解场景的具体几何结构。
核心方法: 预测性循环一致性
研究人员提出了一种能够“自举 (bootstrap) ”自身训练数据的流程。该过程依赖于一个巧妙的前置任务 (pretext task) : 条件灰度着色 (Conditional Grayscale Colorization) 。
1. 前置任务: “给场景着色”
为了了解世界,模型被赋予了一个简单的游戏。它会看到:
- 一张 源图像 (全彩) 。
- 一张 目标图像 (黑白/灰度) 。
模型的工作是给目标图像着色。为了成功做到这一点,模型 必须 查看源图像,识别物体,弄清楚这些物体在灰度目标图像中的位置,并正确地传输颜色信息。
如果模型能够正确地绘制目标图像,它就隐含地“知道”了物体在哪里。
2. 通过扰动提取对应关系
我们如何从着色模型中提取这种“知识”?作者使用了一种植根于因果关系的技术: 如果我改变输入,输出会如何变化?
假设源图像有一个红苹果。如果模型在灰度目标图像中正确识别了苹果,那么在源图像中将苹果的颜色改为 蓝色,应该会导致模型在目标图像中也绘制出一个 蓝色 的苹果。

如图 5 所示,过程如下:
- 取原始源图像并运行着色。
- 创建一个增强的源图像,其中特定物体被人工着色 (扰动) 。
- 再次运行着色。
- 将两个生成的图像相减。
两个输出之间的差异揭示了一个“热力图 (heatmap)”。在输出中颜色发生变化的区域,就是我们在输入中修改的物体所对应的区域。
研究人员在数学上形式化了这种热力图的生成。对应热力图 \(\mathcal{H}\) 是通过查看原始输出 \(\mathbf{F}(\dots, \mathcal{I}_1)\) 和扰动输出 \(\mathbf{F}(\dots, \mathcal{I}_1')\) 之间的差异计算得出的:

简单来说,这个公式计算了所有颜色通道的归一化差异。如果目标视图中的某个像素在我们改变源物体时发生了显著变化,那么该像素就是对应物体的一部分。
3. 循环一致性: 双向通道
生成热力图虽好,但可能会有噪声。为了使系统稳健,作者应用了 循环一致性 (Cycle Consistency) 。
对应关系应该是可逆的。如果自我中心视图 (Ego-view) 中的“物体 X”对应于外部视图 (Exo-view) 中的“物体 Y”,那么“物体 Y”应该能映射回“物体 X”。
该流程使用“分割一切模型” (Segment Anything Model, SAM) 来检测两个图像中的所有潜在物体。然后,它在两个方向上运行扰动测试:
- 前向 (\(1 \to 2\)): 改变视图 1 中的物体 X \(\rightarrow\) 查看视图 2 中哪个物体亮起。
- 后向 (\(2 \to 1\)): 改变视图 2 中匹配的物体 \(\rightarrow\) 查看它是否点亮视图 1 中的物体 X。

图 4(c) 说明了这个循环。通过强制匹配必须在两个方向上都有效,系统过滤掉了错误的猜测和“幻觉”。只有形成闭环的配对才会被保留为 伪标签 (Pseudolabels) 。
4. 迭代式自我提升
“着色”模型只是起点 (迭代 0) 。它提供了最初的、粗糙的匹配物体集。
一旦系统生成了这些“伪标签”物体对的数据集,它就会训练一个新的、专用的 对应模型 (Correspondence Model) 。 这个新模型不再试图给图像着色;它是经过明确训练的,旨在获取一个视图中的物体掩码 (mask) ,并预测另一个视图中的掩码。

如图 3 所示,这创造了一个良性循环:
- 使用当前模型寻找高置信度的匹配 (伪标签) 。
- 在这些匹配上训练一个新的、更好的模型。
- 使用新模型来寻找更困难的匹配。
研究人员发现,仅仅运行这个循环 3 次就能使模型的性能饱和,从而产生高精度的对应关系。
实验与结果
为了证明这一点,研究人员在最难的视觉对应数据集上测试了 PCC。
1. EgoExo4D 挑战 (空间)
EgoExo4D 是一个庞大的数据集,包含从头戴式摄像头 (Ego) 和第三人称摄像头 (Exo) 拍摄的同步视频,内容涉及熟练的人类活动 (如烹饪或修理自行车) 。
任务是: 给定 Ego 视图中的一个物体掩码,在 Exo 视图中找到它 (反之亦然) 。

表 1 突出了 PCC 的突破性表现。
- 击败监督模型: “Ours Supervised + PCC” 获得了比纯粹在人类标注数据上训练的模型更高的 IoU (交并比) 。
- 击败自监督 SoTA: 比较 PCC Iter 3 (最后一行) 与 SiamMAE 和 DINOv2 。 在“Exo Query”任务 (给定外部视图寻找自我中心视图中的物体) 中,PCC 达到了 41.45 的 IoU,而强大的 DINOv2 (结合 SAM) 仅达到 34.78 。
该模型在“位置得分” (Loc. Score) 方面特别出色,该指标衡量预测的物体中心与真实中心的接近程度。数值越低越好,PCC 达到了 0.071 , 而 DINO 为 0.123 。

图 2 展示了这些场景在定性上的难度。看中间一列: 模型成功区分了杂乱桌子上不同的纸片。在左列中,尽管顶部 (Exo) 和底部 (Ego) 视图之间的角度变化极大,它仍正确识别了砧板和碗。

图 6 进一步展示了模型对遮挡的鲁棒性。即使手遮住了物体的一部分,或者光线昏暗,PCC 也能保持对正确物品的锁定。
2. 跨时间追踪 (DAVIS-17 & LVOS)
研究人员还将 PCC 应用于视频追踪。标准的视频追踪在第 1 帧和第 2 帧之间效果很好。但是如果你从第 1 帧跳到第 20 帧呢?

图 7 绘制了随着帧间隙增加的性能变化。
- x 轴代表帧间隙 (最高 400 帧) 。
- 蓝线 (PCC Iter 3) 相比竞争对手保持得更加稳定。
- 注意 SiamMAE (绿色) 和 Croco (红色) 随着间隙变大而显著下降。
这证明了 PCC 不仅仅依赖于局部的运动线索;它已经学到了“物体恒常性”的语义理解。

图 8 提供了视觉对比。在底行 (摩托车) 中,注意“DINO ViTB/8”列。其表征已经退化,分割也很混乱。“PCC Iter 3”列即使在巨大的时间跳跃之后,也能保持对摩托车手清晰、准确的掩码。
意义何在
预测性循环一致性的成功凸显了现代 AI 的一个趋势: 限制激发创造力 (Constraints breed creativity) 。 通过限制模型必须保持循环一致 (A \(\to\) B \(\to\) A 必须成立) ,研究人员迫使 AI 学习鲁棒、高质量的表征,而无需人类标记任何一个像素。
关键要点
- 物体 > 像素: 对于涉及巨大视点或时间变化的困难对应任务,在物体层级 (使用掩码) 进行操作优于像素级或补丁级 (patch-level) 匹配。
- 生成式预训练有效: 使用生成任务 (灰度着色) 迫使模型学习判别任务可能遗漏的空间关系。
- 自训练很强大: 生成伪标签并迭代改进的能力使模型能够超越其起步时的基线。
影响
这项技术是 机器人学习 的重要推动力。如果机器人可以观看人类修理水槽的 YouTube 视频 (外部视图) ,并将这些工具和动作映射到它自己的摄像头画面 (自我中心视图) ,我们就离能够通过观察来学习的通用机器人更近了一步。此外,在 增强现实 (AR) 中,这允许持久的物体锚定——即使你走到房间的另一边,虚拟标签也能保持附着在马克杯上。
PCC 证明,只要有正确的前置任务和严格的一致性检查,AI 完全可以独自理清这个混乱、不连贯的世界。
](https://deep-paper.org/en/paper/file-2219/images/cover.png)