引言

想象一下你正沿着高速公路行驶。你的眼睛不断地扫描周围环境,追踪前方车辆的速度、余光中飞逝的树木,以及你自己车辆的轻微漂移。你正在进行一种复杂的计算,这种计算在计算机视觉中被称为光流估计 (Optical Flow estimation) ——即确定像素在瞬间如何移动。

几十年来,计算机视觉研究人员一直在训练 AI 模型来掌握这项任务。他们使用“真值 (Ground Truth) ”数据——即每个像素实际移动位置的数学上完美的计算结果。现代 AI 在这方面表现惊人;在许多情况下,它比人眼精确得多。

但问题在于: 人类眼中的世界并非数学般完美。 我们的视觉皮层会走捷径。我们会经历视错觉。我们在概念上对物体进行分组,而不是追踪每一个像素。我们会忽略飘落的雪花,专注于道路。

如果汽车中的 AI 助手看到了意味着碰撞的“完美”物理流,但人类驾驶员由于视错觉而对此场景有不同的感知,系统可能会意外介入,造成困惑或恐慌。为了构建真正能与我们互动的 AI——无论是在自动驾驶、动画工具还是视频生成中——我们需要模型不仅理解世界如何运动,还要理解我们如何感知它的运动。

在这篇文章中,我们将深入探讨 HuPerFlow , 这是一篇引人入胜的论文,它介绍了第一个大规模的基准测试,用于对比人类感知机器视觉物理真值 。 研究人员不仅运行了代码;他们还进行了一项大规模的心理学实验,以准确描绘人类视觉在何处偏离现实——以及当前的 AI 模型如何未能捕捉到这些人类特质。

物理与感知之间的鸿沟

在计算机视觉 (CV) 的世界里, 光流是视觉场景中物体、表面和边缘的视运动模式,由观察者和场景之间的相对运动引起。

传统上,为了训练模型估计光流,你会给它两帧连续的视频帧和一个“真值” (GT) 图。GT 图是基于物理的现实: “位于坐标 (x, y) 的像素 A 移动到了 (x+1, y+2)。”

然而,人类视觉不是物理引擎。它是一个为了生存而进化的生物过程,而不是为了像素级的精确度。

孔径问题与分组

人类面临着诸如孔径问题 (Aperture Problem) 等限制,即通过一个小窗口 (如眼中的感受野) 观察移动物体时,如果没有更多背景信息,就不可能确定其真实方向。此外,人类倾向于对运动进行“分组”。如果一个人在走路,我们会将这个人感知为一个整体单元在移动,通常会忽略其衣服褶皱或发丝等复杂微小的独特运动。

直到现在,还没有大规模的数据集来量化这些差异。以前的研究仅限于少量的人工刺激 (如移动的点) 或极少数的自然场景。

介绍 HuPerFlow

研究人员推出了 HuPerFlow (Human-Perceived Flow,人类感知流) ,这是一个旨在弥合 CV 模型与人类视觉之间鸿沟的海量数据集。

项目规模

这不是一个小型的实验室测试。该基准测试包括:

  • 38,400 个人类响应向量。
  • 2,400 个在不同视频中探测的特定位置。
  • 10 个不同的光流数据集 , 范围从逼真的驾驶场景到奇幻的卡通。
  • 480 个参与者会话。

目标是创建一个“人类真值”——一个“正确”答案不是像素实际去了哪里,而是人类认为它去了哪里的数据集。

图 1. HuPerFlow 示例。红箭头表示人类对感知光流的反应,绿箭头表示真值运动向量。圆圈表示终点误差的大小,即感知光流与真值之间的差异。

图 1 所示,数据集可视化了三层不同的信息:

  1. 红箭头: 人类观察者认为物体移动的方向。
  2. 青/蓝箭头: 真值 (物体实际移动的位置) 。
  3. 绿圆圈: “终点误差” (EPE) ,代表两者之间差异的幅度。

注意图中红箭头和蓝箭头有时完全重合 (人类是准确的) ,而在其他场景中,它们则明显分叉。

如何捕捉人类感知

测量光流感知众所周知地困难。你不能直接问参与者: “那棵树的向量坐标是多少?”研究人员必须设计一种新颖的心理物理学实验 , 既可以在线进行,又能保持严格的科学控制。

调整法

研究人员采用了“调整法 (Method of Adjustment) ”。实验对参与者来说是这样的:

  1. 刺激: 参与者观看一段短视频片段 (约 500 毫秒) 。
  2. 探针: 视频中特定位置出现短暂的闪烁 (一个绿点) ,告诉用户: “关注就在这里的运动。”
  3. 匹配任务: 视频结束后,出现一块“布朗噪声” (一种类似静电干扰的图案) 。用户用鼠标控制这块区域。他们必须调整噪声的速度和方向,直到它看起来与视频中目标点的运动方式完全一致。

图 2. 实验过程: 在每次试验开始时,会出现一个绿圈标记选定区域。接下来,交替呈现运动序列和匹配刺激,直到做出响应。

图 2 展示了这个工作流程。参与者可以在视频和噪声块之间来回切换任意次数,直到他们确信两者的运动匹配为止。这允许对主观感知进行精确的定量测量 (速度和角度) 。

多样化的数据集

为了确保发现不仅仅局限于一种类型的视频,团队从 10 个著名的计算机视觉数据集中选取了片段。

表 1. 选定光流数据集的摘要。

表 1 所列,这些数据集涵盖了广泛的范围:

  • 逼真驾驶: KITTI, TartanAir, VIPER。
  • 复杂动画: MPI Sintel (龙,非刚性运动) ,Monkaa (毛茸茸的怪物) 。
  • 人类运动: MHOF (多人光流) 。

这种多样性至关重要,因为人眼处理汽车刚性运动的方式与处理卡通人物的流体运动或行人的关节运动是不同的。

分析人类数据: 我们何时会出错?

收集数据后,研究人员分析了终点误差 (Endpoint Error, EPE) 。 该指标计算人类响应与物理真值之间的欧几里得距离。

EPE 公式

使用公式 1 (其中 \((u, v)\) 代表运动的向量分量) ,他们可以精确量化参与者有多“错误” (或者更确切地说,有多“像人类”) 。

“光流错觉”

结果显示,人类的错误不是随机的;它们是系统性的 “光流错觉 (Flow Illusions) ”

图 3. 人类感知运动向量演示。

图 3 提供了对不同数据集中这些偏差的迷人观察:

  1. 平稳驾驶 (左上 - Driving) : 在像 KITTI 或 Driving 这样运动平稳且可预测的场景中,人类非常准确。红箭头 (人类) 和蓝箭头 (真理) 大多重叠。
  2. 全局与局部 (右中 - MHOF) : 当观察行走的人类时,观察者倾向于感知整体身体运动 , 而不是四肢的具体运动。如果一个人向前走但向后摆臂,计算机看到手臂向后;人类通常只看到人向前。
  3. 上下文影响 (左下 - Monkaa) : 在摄像机围绕静止物体剧烈旋转的场景中,人类经常经历诱导运动——认为物体在移动,而实际上是摄像机 (和背景) 在移动。

哪些因素会困扰人类?

研究人员根据场景的视觉属性对错误进行了细分。

图 4. 人类响应和两个机器视觉模型的终点误差 (EPE) 作为光流属性的函数。

图 4 强调了场景属性与错误率之间的关系:

  • 速度 (左上) : 随着真值速度增加,人类误差增加。我们很难准确追踪非常快的物体。
  • 图像梯度 (右上) : 当存在强边缘 (高梯度) 时,我们表现更好。模糊、无特征的区域对人类来说更难追踪。
  • 自身运动 (中下) : 当摄像机本身移动很快 (模拟观察者移动) 时,我们的错误率飙升。这表明,虽然我们的大脑试图补偿自身的运动以分离物体运动,但我们在数学上并不完美。

对机器进行基准测试

论文的终极问题是: 当前的 AI 模型看世界像人类吗?

研究人员测试了各种光流算法,范围从标准的深度学习模型 (如 RAFT 和 FlowFormer) 到受生物学启发的模型 (如 FFV1MT) 。

为了衡量“像人类的程度”,他们不能只使用标准准确率。如果一个模型对物理世界的准确率是 100%,那么在人类看到错觉的情况下,它像人类的程度就是 0%。他们使用了偏相关性 (Partial Correlation) 指标。

偏相关性公式

这个公式 (公式 2) 计算了模型预测人类响应之间的相关性,同时控制了真值。本质上,它在问: “当人类犯错 (偏离 GT) 时,模型会犯同样的错误吗?”

结果

对比结果总结在表 2 中,讲述了一个在物理准确性和感知对齐之间进行权衡的故事。

表 2. 光流算法预测与人类响应或真值 (GT) 的对比。

  • 物理学家:VideoFlowRAFT (SOTA 深度学习模型) 这样的模型与真值的相关性非常高 (表格右侧) 。然而,它们与人类感知的偏相关性 (左侧,\(\rho\)) 非常低。它们“太好了”。它们看到了人类忽略的像素。
  • 人类模仿者: 受生物学启发的模型 FFV1MT 与人类的偏相关性要高得多。它会犯与我们类似的错误。然而,它在物理真值上的整体准确率较低。

可视化这种脱节

让我们看看这种分歧在实践中是什么样子的。

图 5. 光流算法的预测向量。

图 5 并排比较了这些模型。

  • A 列 (上) : 以此图为例。红箭头 (人类) 指向大致的右下方。 FFV1MT 模型 (黄箭头,左侧) 指向类似的方向。 VideoFlow 模型 (黄箭头,右侧) 指向更急剧的下方 (物理真相) 。受生物启发的模型捕捉到了“迟滞感”或人类运动的总体感觉,而 SOTA 模型虽然数学上精确,但在感知上是“错”的。
  • C 列 (下) : 这展示了一个摩托车场景。强烈的摄像机运动产生了令人困惑的信号。人类 (红色) 在很大程度上忽略了背景噪声以专注于物体。 V1Attention 模型 (左) 比 RAFT 模型 (右) 更好地模仿了这一点,后者试图解析每一个不同的运动向量,导致结果与人类体验脱节。

结论与启示

HuPerFlow 基准揭示了当前计算机视觉中严重的错位。我们花了数年时间优化 AI 使其成为完美的物理学家,但在这样做的过程中,我们忽略了教它们成为人类观察者。

为什么这很重要?

  1. 人机交互: 如果半自动驾驶汽车看到了人类驾驶员视而不见的危险 (由于错觉) ,它需要知道驾驶员没看到它,以便有效地发出警告。
  2. 动画与艺术: 自动生成视频或填充帧 (插值) 的工具需要创造出对我们来说看起来“正确”的运动。如果数学上完美的插值违反了我们的感知分组,它看起来可能会抖动或怪异。
  3. 神经科学: 通过构建能够复制 HuPerFlow 中发现的错误的模型,我们可以更好地理解人类视觉皮层的算法本质。

HuPerFlow 是迈向“与人类对齐的计算机视觉”的第一步——教机器不仅要看到世界的本来面目,还要像我们一样看待它。