虚拟现实 (VR) 的梦想一直是“全息甲板 (Holodeck) ”的概念——能够步入现实世界的数字录像中,并获得身临其境的体验。你希望能四处走动,凑近观察细节,回头张望,并随着你的移动听到音景的变化。

虽然我们在神经辐射场 (NeRF) 和 3D 高斯泼溅 (3D Gaussian Splatting) 等技术上取得了巨大进步,但在处理动态场景时却遇到了瓶颈。目前大多数数据集要么是静态的 (时间冻结) ,要么是以物体为中心的 (从外部观察单个物体) ,要么是无声的 (没有音频) 。

为了实现真正的沉浸感,我们需要一个新的标准。我们需要沉浸式体积视频 (Immersive Volumetric Video)

在这篇文章中,我们将深入探讨一篇题为 “ImViD: Immersive Volumetric Videos for Enhanced VR Engagement” 的论文。这项研究背后的团队介绍了一个开创性的数据集和重建流程,旨在满足沉浸式媒体的四大支柱:

  1. 全 360° 视图 (前景和背景) 。
  2. 六自由度 (6-DoF) 交互 (你可以在视频中四处走动) 。
  3. 多模态 (同步的空间音频和视频) 。
  4. 高保真动态 (5K 分辨率,60FPS,长时间录制) 。

让我们来探索他们是如何构建硬件来捕捉现实,以及如何构建软件来重建现实的。

图1. 我们推出了 ImViD,一个用于沉浸式体积视频的数据集。ImViD 使用一种以空间为导向的方式移动的多视角视音频采集设备记录动态场景。

问题: 为何现有数据集存在不足

要训练能重建现实的 AI 模型,你需要数据——具体来说,是从多个角度同时拍摄的视频数据。然而,现有的数据集存在破坏沉浸感错觉的局限性。

大多数数据集陷入了两个陷阱:

  1. 单目/手持: 有人拿着单个相机四处走动。这对静态场景很好,但如果场景是移动的 (动态的) ,单个相机无法从多个角度捕捉“时间冻结”的状态。
  2. 固定相机阵列: 一个相机圆顶包围着一个小区域。这允许实现“子弹时间”效果,但观看者通常被限制在向内观看中心物体。你无法探索周围环境。

此外,几乎没有数据集重视音频 。 在现实世界中,如果你走近钢琴,声音会变大。如果你转头,声音会切换耳朵。现有的数据集在很大程度上忽略了这种多模态方面。

表8. 现有的用于动态新视角合成的真实世界数据集。

如上表所示,以前的数据集如 PanopticSports 或 ZJU-Mocap 通常分辨率低、是静态的或缺乏音频。 ImViD (最后一行) 脱颖而出,它结合了 46 个相机、移动设备、高分辨率 (5K) 、高帧率 (60FPS) 和同步音频。

解决方案: 移动采集设备

为了捕捉“面向空间”的视频——即用户在场景内部向外看——研究人员构建了一个定制的移动设备。

这不仅仅是一个三脚架。它是一个遥控移动小车,配备了由 46 个同步 GoPro 相机组成的半球形阵列。

图3. 我们的设备支持两种采集策略,用于高分辨率、高帧率和 360 度动态数据采集。

硬件设置

  • 相机: 40 多个运动相机,以 5K 分辨率和 60 FPS 拍摄。
  • 同步: 定制的控制系统确保每个相机在毫秒级精确同步拍摄。
  • 移动性: 整个阵列安装在一个轮式小车上,像“机器人”一样在环境中移动以捕捉更多体积。

两种采集策略

研究人员采用了两步策略来确保高保真度:

  1. 静态采集: 首先,他们用高密度照片捕捉静态环境 (房间、树木) 。
  2. 动态采集: 然后,他们记录动作。这可以通过固定设备 (设备静止,演员移动) 或移动设备 (设备驶过场景) 来完成。

“移动”策略尤为新颖。通过在场景中移动相机阵列,研究人员大幅提高了时空采集密度 (Spatiotemporal Capture Density)

图4. 时空采集密度的计算方法。

如图 4 所示,手持相机 (1) 捕捉的是一条细线数据。固定阵列 (2) 捕捉的是一个小气泡。ImViD 移动设备 (3) 扫过空间,随着时间的推移捕捉大量的视觉数据 (\(0.10 m^3/s\)) 。这允许在 VR 中有更大的可探索区域。

重建流程

捕捉数据只是战斗的一半。原始素材由 46 个独立的视频文件组成。我们如何将其变成一个你可以在头显中查看的连贯 3D 全息图?

研究人员提出了一个完整的流程,涵盖了动态光场重建 (视觉) 和声场重建 (音频) 。

图2. 实现多模态六自由度沉浸式 VR 体验的流程。

第一部分: 使用时空高斯泼溅 (STG++) 的视觉效果

对于视觉部分,团队选择基于 3D 高斯泼溅 (3DGS) 进行构建。如果你不熟悉 3DGS,可以想象将场景不表示为三角形 (网格) ,而是表示为数百万个模糊的、彩色的 3D 斑点 (高斯球) 。

标准的 3DGS 非常适合静态图像。对于视频,研究人员利用了一种称为时空高斯 (Spacetime Gaussians, STG) 的方法。

在 STG 中,高斯球的不透明度和运动随时间变化。特定时间 \(t\) 的不透明度 \(\alpha\) 使用径向基函数 (RBF) 建模,而运动和旋转则用多项式拟合。时间 \(t\) 时的高斯方程如下所示:

时空高斯不透明度和几何形状随时间变化的方程。

“闪烁”问题与 STG++

研究人员在将标准 STG 应用于他们的真实世界数据时发现了一个缺陷。即使使用高端相机,自动曝光和白平衡在不同镜头之间也会略有差异。当你在 VR 中移动头部时,从相机 A 的视图过渡到相机 B 的视图会导致颜色偏移或闪烁。这会破坏沉浸感。

为了解决这个问题,他们引入了 STG++ 。 他们添加了一个可学习的仿射颜色变换 (Affine Color Transformation)

仿射颜色变换方程。

这里,渲染颜色 \(C'\) 通过变换矩阵 \(W\) 和偏移量 \(T\) 进行调整,以匹配特定相机视图的特征。这确保了当你转头时,颜色保持一致,平滑了 46 个相机之间的差异。

这一改进显着减少了“漂浮物” (空间中漂浮的伪影) 和闪烁。

图6. 不同帧和片段中同一位置像素的连续性。

图 6 展示了这一改进。顶行 (原始 STG) 显示随时间变化的亮度 (绿色通道) 不一致。底行 (带有颜色映射) 则更加平滑和一致。

第二部分: 声场重建

真正的沉浸式视频不仅仅是无声的。研究人员开发了一种几何方法来重建声场,而无需对音频进行复杂的神经网络训练。

他们将录音麦克风视为原点 \((0,0)\)。他们计算声源 (演员) 和听众 (VR 用户) 的位置。

利用这些坐标,他们计算两个关键因素:

  1. 方向映射 (\(\theta_s\)): 声音相对于用户头部的角度。 计算声源角度的方程。
  2. 距离映射 (\(\lambda\)): 声音有多远 (这决定了音量/衰减) 。 根据距离计算声音衰减的方程。

一旦他们有了角度和距离,他们就会应用头部相关传输函数 (HRTF) 。 HRTF 修改音频频率以模拟声波如何从你的耳朵和头部反弹,欺骗你的大脑听到来自特定方向的声音。

左右耳音频合成方程。

这创建了一个双耳 3D 音频流,随着用户在虚拟房间中走动而实时更新。

实验与结果

研究人员将他们的方法 (STG++) 与其他领先的动态渲染技术进行了对比基准测试: 4DGS4D 旋转高斯泼溅 (4D Rotor Gaussian Splatting)

视觉性能

他们在歌剧演员、实验室和户外玩耍的小狗等场景上评估了这些方法。他们使用了 PSNR (峰值信噪比——越高越好) 和 LPIPS (感知相似度——越低越好) 等指标。

表3. 基于 3DGS 的动态场景重建方法在 ImViD 数据集上的测试视角性能。

如表 3 所示, STG++ 始终优于其他方法,实现了更高的 PSNR 得分 (在歌剧场景中超过 31 dB) 和更低的感知误差。

在视觉上,差异是明显的。在下图中,请观察歌剧演员的面部和实验室设备的清晰度。4DGS 经常模糊运动中的细节,而 STG++ 保持了清晰的边缘。

图5. 四种基线方法在场景 1 歌剧、场景 2 实验室和场景 6 小狗上的渲染结果对比。

在场景 6 (小狗) 中,这是一个复杂的户外环境,有草地和毛发 (计算机视觉的噩梦) ,STG++ 设法保留了其他方法会平滑掉的纹理。

音频性能

由于没有关于重建声场在主观上应该是什么感觉的“真值 (ground truth) ”,研究人员对 21 位专家进行了用户研究。

表5. 声场构建的用户研究。

结果绝大多数是积极的。超过 60% 的参与者将空间感知评为“优秀”,超过 90% 的人认为体验具有沉浸感。这验证了简单的几何映射结合高质量采集对于 VR 是有效的。

最终体验

通过结合 STG++ 的高保真视觉重建和空间音频流程,研究人员创建了一个完全可漫游的体积视频。

图7. 交互轨迹及相应视听结果的可视化。

在图 7 中,你可以看到用户在虚拟空间中的路径 (蓝线) 的可视化。当用户从点 1 移动到点 5 时,视觉视角平滑切换,音频波形根据他们与声源 (橙色点) 的距离改变强度和声道平衡。

结论: VR 的新基准

ImViD 论文代表了体积视频领域的重大成熟。通过摆脱静态、无声的数据集,并拥抱移动相机和多模态采集的复杂性,研究人员为社区提供了一个具有挑战性的新基准。

给学生和研究人员的关键要点:

  1. 数据至关重要: 你无法在低分辨率、静态数据上构建沉浸式 VR 算法。ImViD 数据集填补了一个关键空白。
  2. 硬件创新: 有时,仅有更好的软件是不够的。你需要构建机器人 (采集设备) 来获取你需要的数据。
  3. 颜色一致性: 在多视图几何中,相机之间的颜色和曝光归一化与几何本身一样重要。
  4. 音频至关重要: 几何声音重建是一种大幅增加沉浸感且计算效率高的方法。

这项工作为未来的 VR 体验铺平了道路,我们可以重温记忆——音乐会、家庭聚会或历史事件——不仅仅是在屏幕上观看,而是站在它们内部