引言
在快速发展的具身智能 (Embodied AI) 领域,四足机器人——通常被称为“机器狗”——正逐渐成为巡检、搜救和工业安防的重要工具。为了在复杂的环境中实现自主导航,这些机器人严重依赖视觉感知。全景相机能够捕捉 360 度的全面视野,这使得它特别适合此类任务,提供了标准相机无法比拟的视场角。
然而,训练这些机器人的感知模型面临着一个巨大的瓶颈: 数据稀缺。收集高质量的全景视频数据不仅耗时耗力、成本高昂,而且在技术上也颇具难度。与轮式机器人或无人机不同,四足机器人具有独特的步态,会产生高频的垂直振动——简单来说,它们在行走时会发生颠簸。这种“抖动”产生了难以模拟的运动模式,并经常导致真实世界的数据模糊或无法使用。
为了填补这一空白,研究人员推出了 QuaDreamer , 这是首个专为四足机器人量身定制的全景数据生成引擎。

如图 1 所示,QuaDreamer 作为一个“世界模型”运行。通过接收简单的输入——例如单张全景图像和一个物体的边界框——它可以生成高度逼真且可控的全景视频,这些视频模仿了行走的机器狗特定的运动和振动模式。至关重要的是,研究人员证明了这种合成数据的质量足以用于训练现实世界的感知模型,并显著提高了多目标跟踪任务的性能。
背景: 全景生成的挑战
为机器人生成视频不仅仅是创造漂亮的画面;其物理特性必须正确。标准的视频生成模型,如 Stable Video Diffusion (SVD),是在通用的互联网视频上训练的。它们无法捕捉四足机器人行走时固有的、有节奏的垂直抖动。此外,全景图像 (通常以等距柱状投影表示) 在帧的顶部和底部存在严重的畸变。标准的卷积神经网络 (CNN) 通常难以处理这种情况,导致生成的视频出现几何上的不一致。
研究人员确定了一个成功的四足机器人世界模型必须具备的三个主要要求:
- 运动保真度 (Motion Fidelity) : 它必须复制机器人的高频垂直抖动。
- 可控性 (Controllability) : 它需要根据提示生成特定场景 (例如,“一个人走在这里”) 。
- 全景一致性 (Panoramic Consistency) : 它必须在不破坏场景几何结构的情况下处理 360 度镜头的畸变。
QuaDreamer 方法论
为了解决这些挑战,QuaDreamer 引入了一个建立在潜在扩散模型 (Latent Diffusion Models, LDM) 之上的复杂架构。该框架由三个新颖的组件组成: 垂直抖动编码 (Vertical Jitter Encoding, VJE) 、场景-对象控制器 (Scene-Object Controller, SOC) 和全景增强器 (Panoramic Enhancer, PE) 。

1. 垂直抖动编码 (VJE)
机器狗视频流最显著的特征就是其颠簸感。如果生成模型无法复制这一点,那么数据对于训练导航算法就是无用的。研究人员观察到,视频中的垂直运动可以分解为两部分: 低频轨迹 (机器人向前移动) 和高频抖动 (机器人的步伐) 。
VJE 模块采用频谱分析方法。它对场景中物体的垂直坐标应用高通滤波器,以分离出抖动信号。

提取该信号的数学基础涉及巴特沃斯 (Butterworth) 高通滤波器。滤波器的频率响应 \(H(f)\) 定义为:

通过应用此滤波器,研究人员提取了机器人的特定振动模式,表示为 \(y_w(t)\):

一旦提取出来,这些抖动数据不仅仅被视为数字。它被投影到 3D 世界坐标中,然后映射到相机的坐标系中。为了确保对视觉细节的精确控制,研究人员将这些相机位姿转换为 Plücker 嵌入 (Plücker embeddings) 。 这种表示方法使模型能够比使用原始坐标更有效地学习相机振动与产生的像素偏移之间的关系。
2. 场景-对象控制器 (SOC)
提取抖动信号后,下一步是控制场景内容。场景-对象控制器 (SOC) 负责协调背景 (流逝的世界) 和前景 (行人或汽车等物体) 的运动。
SOC 有效地将场景分解为两个场:
- 背景运动场: 利用来自 VJE 的特征 (相机抖动) 来告知模型静态世界应该如何晃动和移动。
- 对象运动场: 这决定了特定物体如何在世界中移动。
为了表示物体运动,模型使用了 傅里叶嵌入 (Fourier Embeddings) 。 这将边界框坐标映射到高维频率空间,使神经网络能够比简单的坐标输入更好地捕捉多尺度运动模式。

该模型还考虑了可见性——物体可能会被遮挡或移出画面。可见性掩码 \(m_t\) 作为一个开关:

最后,背景特征 (\(A_{bg}\)) 和对象特征 (\(B\)) 被融合。这种融合后的表示 (\(F_{sum}\)) 通过 门控自注意力机制 (Gated Self-Attention mechanism) 注入到扩散过程中。这确保了生成的视频同时遵循相机的抖动和物体的轨迹。

3. 全景增强器 (PE)
生成 360 度视频会引入标准模型无法修正的几何畸变。为了解决这个问题,研究人员提出了全景增强器,这是一个双流模块,可以同时在空间域和频率域处理特征。
该模块对称地插入到 U-Net 架构中 (见图 2) 。它由两项协同工作的专门技术组成:
A. 状态空间模型 (SSM): 为了处理空间结构和全景图像的全局一致性 (确保左边缘与右边缘匹配) ,研究人员利用了 S6 块 (一种状态空间模型) 。SSM 非常擅长建模长程依赖关系,这对于展开的球面图像至关重要,因为图像中相距甚远的像素在现实世界中可能在几何上是相邻的。

B. 快速傅里叶卷积 (FFC): 虽然 SSM 负责处理结构,但模型还需要保留高频纹理和细节。标准卷积通常会在全景生成中产生网格状伪影。FFC 在频谱域中运行,这使它们能够捕捉全局周期性结构和精细细节,而没有标准 CNN 的分辨率敏感性问题。

这两股流的结合使 QuaDreamer 能够生成既具有几何一致性又具有丰富纹理的视频,即使在高频抖动的压力下也是如此。
实验与结果
研究人员使用 QuadTrack 数据集 评估了 QuaDreamer,该数据集包含从四足机器人视角拍摄的超过 19,000 帧全景图像。他们将自己的模型与 Stable Video Diffusion (SVD) 和 TrackDiffusion 等最先进的视频生成模型进行了基准测试。
视觉保真度与控制
这篇论文的一个主要创新是引入了一个名为 PTrack 的新指标。现有的指标主要衡量视频质量 (如 FVD 或 LPIPS) ,但无法衡量视频模仿机器人特定相机抖动的程度。PTrack 使用点跟踪算法 (CoTracker) 分析生成视频中的像素轨迹,并将其与真值振动曲线进行比较。

结果非常显著。如下面的可视化所示,QuaDreamer (Ours) 生成的轨迹紧密跟随真值 (GT) 不稳定、抖动的路径,而基线模型往往会平滑运动,失去了“机器狗”的感觉。

定量结果也支持了这一点。在表 1 中,QuaDreamer 在视觉质量指标 (LPIPS, SSIM) 上优于基线 (TrackDiffusion) ,并且显著提高了可控性,这体现在 PTrack 分数的大幅降低 (越低越好) 。

消融实验: 这些组件重要吗?
研究人员进行了消融实验,以验证场景-对象控制器 (SOC) 和全景增强器 (PE) 是否真的必要。

结果显示了一个清晰的趋势:
- 添加 SOC 极大地提高了跟踪指标 (MOTA),证明它有助于控制物体放置。
- 添加 PE 显著提高了视频质量 (FVD),证明它有助于生成更清晰、更一致的全景图像。
- 两者结合产生了最佳的整体性能。
终极测试: 下游感知任务
对于一个世界模型来说,最关键的问题是: 机器人能从这个梦中学到东西吗?
为了回答这个问题,研究人员使用真实数据和 QuaDreamer 生成的合成数据的混合数据训练了一个多目标跟踪模型 (OmniTrack)。如果合成数据质量高,跟踪器在真实世界测试数据上的性能应该会提高。

表 3 中的结果令人信服。与仅使用真实数据相比,使用 QuaDreamer 数据进行训练将 HOTA (高阶跟踪准确度) 提高了 10.1%,将 MOTA (多目标跟踪准确度) 提高了 14.8%。这证实了 QuaDreamer 能够很好地捕捉机器人运动的挑战性动态,足以成为一种有价值的数据增强工具。
应对现实世界的挑战
QuaDreamer 的一个微妙优势是,即使源域很混乱,它也能生成干净的数据。在现实世界的数据集中,机器人的振动通常会导致捕获的图像出现运动模糊。然而,QuaDreamer 可以生成清晰、干净的视频序列,同时保持运动动态,有效地为下游模型“去模糊”训练数据。

结论
QuaDreamer 代表了具身智能迈出的重要一步。通过显式地建模四足机器人独特的垂直抖动并解决全景图像的几何挑战,研究人员创建了一个强大的数据生成引擎。
该系统不仅仅是生成视频;它提供了一种可扩展的方法来训练鲁棒的感知系统,而无需进行数百小时昂贵的实地测试。正如作者所指出的,未来的工作可能会将其扩展到包括其他传感器 (如深度或红外) 和更复杂的机器人动作,为机器人迈出第一步之前就学会如何在这个世界上导航铺平道路。
](https://deep-paper.org/en/paper/2508.02512/images/cover.png)