2020 年 3 月,《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》这篇论文提出了一个看似简单却影响深远的想法,重塑了我们对 3D 场景表示的认知。仅凭一组带有位姿的二维照片,一个紧凑的神经网络便能学习出连续且视图一致的场景外观与几何模型,并能合成具有照片真实感的新视角图像。在接下来的五年里,NeRF 激发了大量后续研究: 更快的训练速度、更优的几何表现、更稳健的稀疏视图方法、生成式 3D 合成,以及面向城市场景、虚拟人 (human avatar) 与 SLAM 的应用系统。
随后在 2023 年,3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 问世,并凭借显著的速度和质量优势,迅速在许多新视角合成任务中成为焦点。这引发了一个问题: NeRF 是否已经过时?简短的回答是: 没有。NeRF 的隐式、连续表示在内存受限环境、体积现象 (volumetric phenomena) ,以及紧密集成的 3D 视觉管线 (如 SLAM、可动虚拟人和基于语言的场景理解) 中,依然具有独特优势。本文将带您回顾这五年的发展历程——涵盖基础概念、2023 年前的重要里程碑、之后的变化,以及 NeRF 风格的神经场在何处依然大放异彩。
图 1 展示了从 NeRF 时代到高斯泼溅兴起阶段的重要论文时间线。
图 1 — 2020–2025 年重要且有影响力的 NeRF 与神经渲染方法时间线。垂直标注表示 2023 年末高斯泼溅的诞生。
一段话讲清核心思想
NeRF 将场景表示为由神经网络实现的连续 5D 函数: 给定 3D 位置 x = (x, y, z) 和观察方向 d (3D 单位向量) ,网络预测体积密度 σ(x) 与颜色 c(x, d),即:
\[ F(\mathbf{x}, \mathbf{d}) \mapsto (\mathbf{c}, \sigma). \]为了合成像素,我们发射相机光线 r(t) = o + t d,沿 t 采样,在采样点查询网络,并通过可微体渲染整合颜色。训练为自监督: 将渲染像素与真实照片通过光度损失 (photometric loss) 比较,梯度沿整个体渲染过程反传至网络权重。
图 2 总结了这一流程。
图 2 — NeRF 管线: 沿光线采样,用 MLP 预测颜色和密度,通过体渲染积分,并用真实图像监督渲染像素。
数学原理简明入门
体渲染沿光线积分辐射度贡献:
\[ C(\mathbf{r}) = \int_{t_1}^{t_2} T(t)\ \sigma(\mathbf{r}(t))\ \mathbf{c}(\mathbf{r}(t),\mathbf{d})\ dt, \qquad T(t)=\exp\Big(-\int_{t_1}^{t}\sigma(\mathbf{r}(u))du\Big). \]实际中将积分区间离散化并近似为:
\[ \hat{C}(\mathbf{r}) = \sum_{i=1}^N \alpha_i T_i\ \mathbf{c}_i, \qquad \alpha_i = 1 - \exp(-\sigma_i \delta_i), \]其中 δi 为相邻采样点距离,Ti 为至第 i 采样点的透射率。类似地可计算期望深度并用于几何正则化。
NeRF 高效运行依赖两个关键技巧: (1) 位置编码 (positional encoding) ——用正弦基映射坐标,使 MLP 能表达高频细节;(2) 分层采样 (hierarchical sampling) ——用粗网络引导光线上更精细的采样。
数据集与评估指标 (简明指南)
NeRF 研究通常结合使用合成与真实数据集:
- NeRF Synthetic (Blender) — 物体级密集、受控视图 (原型与基准测试常用) 。
- LLFF (前向真实场景) — 手持拍摄的真实场景用于评估。
- DTU — 校准的多视角物体扫描 (高分辨率,可提供深度监督) 。
- ScanNet、Replica、Matterport、KITTI / Waymo — 大规模室内/室外与自动驾驶数据集,支持场景级 NeRF 与 SLAM。
- 人体数据集: ZJU-MoCap、Nerfies / HyperNeRF,用于动态与可形变人体建模。
常用评估指标为 PSNR、SSIM 与 LPIPS (感知距离) ,表格对比模型时常同时报告训练/推理速度。
前高斯泼溅时代 (2020–2023): 主要方向与里程碑
早期研究可分为几个方向:
- 提升光度与几何质量
- 加速训练与渲染
- 降低输入视图需求 (少样本/稀疏)
- 生成式 3D (GANs 与后来的扩散模型)
- 场景组合与编辑 (无边界场景、瞬态物体)
- 联合位姿估计与 SLAM
- 特定应用: 城市场景、虚拟人、表面重建
图 3 — NeRF 创新论文分类: 光度/几何质量、速度、稀疏视图、生成模型、组合能力、位姿估计等。
提升光度质量与视角相关效果
- Mip-NeRF (2021): 通过将像素足迹建模为锥台而非无限细光线,缓解混叠,引入积分位置编码 (IPE) 表达样本空间范围内在抗混叠,适用于多尺度与小像素渲染。
图 4 — Mip-NeRF: 圆锥采样 (IPE) 降低混叠,生成多尺度一致渲染。
- Ref-NeRF (2021): 重新参数化辐射度以显式建模反射与高光,恢复法线,大幅提升反光场景表现。
图 5 — Ref-NeRF 改进镜面反射建模并恢复反光表面法线。
- 其他几何感知方法则采用 SDF 或占用表示 (NeuS、UNISURF) 以得更干净的表面用于重建 (见表面重建部分) 。
速度: 从小时到秒
加速方法主要有:
- 烘焙表示: 先训练 NeRF,再将结果烘焙为高效数据结构 (稀疏体素、八叉树、球谐缓存) 。例: SNeRG、PlenOctree、FastNeRF。
- 混合/显式表示与高效编码: 用紧凑特征网格表示大部分场景,辅以小型解码 MLP。代表作 Instant-NGP (2022) 提出多分辨率哈希网格编码,将训练从数小时降到数分钟甚至秒,同时提升质量。其他方法 (Plenoxels、TensoRF、DVGO) 进一步减少甚至去除 MLP。
图 6 — Instant-NGP: 多分辨率哈希编码 + 小型 MLP 使 NeRF 训练大幅提速并保持高质量。
图 7 — NeRF 变体质量与速度权衡示例比较 (标准合成基准) 。
稀疏/少样本视图合成
原始 NeRF 需数十至数百视角,减少视图的策略:
- 引入 2D 先验 (pixelNeRF、MVSNeRF、GeoNeRF) : 提取 CNN 特征作为 3D 查询条件,或生成 3D 特征体引导预测。
- 架构与正则化技术 (RegNeRF) : 采用深度与颜色正则、分块似然模型、几何先验防退化。
RegNeRF 可仅用 3–9 视角实现合理重建。
图 8 — RegNeRF 在稀疏视图下较其他方法更稳健。
生成式 3D (GANs → 扩散)
- DreamFusion (2022): 用预训练文本-图像扩散模型提供梯度 (SDS) ,从文本提示训练 NeRF。
- Magic3D: 粗到精流程 (低分辨率 NeRF → 网格提取 → 高分辨率潜在扩散优化) 。
图 9 — DreamFusion: 通过蒸馏文本到图像扩散模型至 NeRF,实现文本到 3D。
图 10 — Magic3D: 粗到精高分辨率文本-3D 生成流程。
组合、无边界场景与瞬态外观
NeRF-W 引入外观与瞬态嵌入应对光照变化与瞬态物体。NeRF++ 与 mip-NeRF 360 通过特殊参数化与多尺度采样处理无边界场景。Fig-NeRF 及对象组合模型可学习分离的神经场以支持编辑与非显式分割。
位姿估计与 SLAM
早期依赖 COLMAP,后续实现了位姿与辐射场的联合优化:
- iNeRF: 给定已训练 NeRF,通过优化光度误差求相机位姿。
- BARF、SCNeRF: 束调整式 (bundle adjustment) 联合优化位姿与权重,课程策略应对困难初始化。
- iMAP、NICE-SLAM: 在线 SLAM,神经隐式建图 + 实时跟踪,实现实时稠密建图与位姿估计。
驱动创新的应用
- 城市重建: Mega-NeRF、Block-NeRF 将 NeRF 扩展至城市规模,分区处理瞬态物与光照变化。
- 虚拟人与动态场景: Nerfies、HyperNeRF、Neural Body 等构建形变场与规范空间,建模非刚性人体,实现照片级、可动画虚拟人。
- 图像处理: HDR 视角合成 (RawNeRF / HDR-NeRF) 、去模糊 (DeblurNeRF) 、去噪 (NaN) 、超分 (NeRF-SR) 。
- 表面重建: NeuS、UNISURF 用 SDF 或占用表示代替体积密度,提取更干净网格。
图 11 — NeRF 应用: 城市建模、生成模型、表面重建、虚拟人、SLAM、编辑、图像恢复。
图 12 — NeuS (SDF-based) 产生高质量网格,适合重建。
高斯泼溅的兴起 (2023 年后) 与变化
3DGS 将场景表示为大量各向异性 3D 高斯 (位置、协方差、颜色、不透明度) 。通过投影并在屏幕空间混合 (splatting) ,用类光栅化可微管线渲染。优势包括:
- 更快收敛
- 实时/近实时高质渲染
- 易转为点云格式 3D 输出
缺点是显式存储占用大、难以自然表示连续体积效应 (雾、尘) 。后续研究多为混合方案: 高斯+视角神经编码,或神经场+泼溅。
NeRF 风格神经场的价值
即便高斯泼溅占据主流,隐式与混合神经场仍有显著优势:
- 高效存储: MLP NeRF 磁盘占用远小于存储百万图元的高斯模型。
- 连续可微查询: 对空间查询天然连续可微,利于可微优化、点属性查询与连续空间推理。
- 体积现象: 雾、烟等参与介质用体积密度+体渲染更自然。
- SLAM 整合: SLAM/建图偏好紧凑可查询隐式场用于设备建图与回环变形。
- 虚拟人和运动模型: 骨骼驱动形变场与神经场结合自然,连续形变比点泼溅融合度高。
- 语言与语义场: 多尺度语义或语言特征嵌入连续 3D 场 (如 LERF) 可生成稳健 3D 相关性图。
图 13 — LERF: 语言嵌入辐射场将文本查询映射为 3D 相关热图。
图 14 — CP-SLAM 等神经 SLAM 系统利用混合点/场表示实现建图与多智能体一致。
图 15 — BakedAvatar: 神经场派生分层代理实现实时头像渲染。
近期前沿与融合 (2023–2025)
- 网格+MLP 混合继续演进 (哈希网格、分解张量、径向基、乘法滤波) 以提升频谱容量与鲁棒性。
- 广泛使用扩散先验进行 3D 编辑、修复、超分、单视图提升 (Score Distillation 等) 。
- 语言与关联结合 CLIP/视觉-语言模型与 3D 场景,实现开放词汇 3D 分割与语言驱动编辑 (OV-NeRF、LERF、HNR) 。
- SLAM 采用混合隐式表示以高效建图、回环变形、多智能体一致性。
- 虚拟人趋向混合架构: 结合网格先验 (SMPL、3DMM) 、逐顶点或逐点学习特征、小型 MLP,实现照片级可控形象。
这一趋势表明,加速 NeRF 的思想 (高效编码、混合存储、2D 蒸馏) 与新图元 (高斯泼溅、扩散先验、语言模型) 融合,推动实用高质量 3D 系统发展。
实用建议
- 最快高品质新视角合成与渲染: 优先选高斯泼溅与烘焙显式表示。
- 注重紧凑性、连续可微查询、体积效应或需与优化紧密结合 (SLAM、物理、可微编辑) : 隐式神经场更优。
- 稀疏视图重建: 利用预训练 2D 特征提取器或强正则 (语义/深度先验) ,可参考 RegNeRF 风格正则与特征条件混合模型。
- 生成式/文本驱动 3D 合成: 扩散先验 (DreamFusion、Magic3D 等) 可控性好、质量高,最佳方案为迭代粗到精流程。
- 虚拟人/动画: 基于骨骼或可变形模型的规范空间+形变场架构稳健灵活。
总结与展望
NeRF 概念简单却深刻: 用连续神经场表示场景,通过可微体渲染生成图像。2020–2023 年间,质量、速度、数据效率均显著提升。2023 年起,高斯泼溅提供了强力显式替代,但并未动摇 NeRF 的价值。
NeRF 风格神经场在需连续表示、紧凑存储、体积建模或与 SLAM、机器人、虚拟人、视觉-语言融合等优化系统紧密整合的领域仍不可或缺。当下形成了混合方法、泼溅、扩散先验、语言关联、隐式 SLAM 融合的生态。研究 NeRF 演进可得实用配方 (哈希编码、混合网格、SDF 几何、扩散蒸馏) 与构建未来 3D 系统的思路。
新手可从几个可复现基线着手: NeRF/Mip-NeRF (理论) 、Instant-NGP (速度与编码) 、NeuS/UNISURF (几何) 、DreamFusion/Magic3D (生成) 。再根据问题选择显式、混合或隐式表示工具箱。
更多内容可参考综述《NeRF: Neural Radiance Field in 3D Vision: A Comprehensive Review》,该文涵盖 2020–2025 年的代表性实现、数据集与后续系统,是极佳的详细路线图。