Papers

[Compressed 3D Gaussian Splatting for Accelerated Novel View Synthesis 🔗](https://arxiv.org/abs/2401.02436)

将3D高斯溅射场景压缩31倍，渲染速度提升4倍

3D高斯溅射技术因其仅需少量图像即可实现照片级场景重建和实时渲染，在计算机图形学界引起了广泛关注。该技术通过数百万个微小、半透明、带颜色的斑点——即3D高斯——来建模场景，每个高斯都对最终图像做出贡献。问题在于，这些重建场景的体积非常庞大，通常达到数GB。这使得它们难以进行流式传输，不适合在移动设备上运行，更难集成到对每一兆字节和每一毫秒都至关重要的VR/AR或游戏中。来自慕尼黑工业大学的一个团队在他们的论文《压缩3D高斯溅射以加速新视角合成》中解决了这一挑战。他们设计的多阶段压缩流程使文件大小最多减少 31倍，渲染速度提升至 4倍，同时几乎不影响视觉质量。图1. 未压缩与压缩后渲染效果的并排比较。压缩显著减小了文件大小并提高了帧率，而对质量的影响微乎其微。在本文中，我们将深入解析他们成果背后的技术——敏感度感知压缩的工作原理、量化感知训练如何在低比特率下保持质量，以及他们重新设计的渲染器如何利用紧凑格式实现最大速度。快速回顾: 3D高斯溅射的背景在深入探讨压缩之前，让我们先回顾一下其底层技术。多年来，神经辐射场 (NeRFs) 在新视角合成领域占据主导地位——即从输入图像生成新的视角——它通过训练神经网络来表示连续的体积场景。虽然NeRFs可以实现很高的保真度，但其训练和渲染速度较慢，因为每个像素都需要进行昂贵的网络查询。 2023年，Kerbl等人提出了3D高斯溅射 (3DGS) ，用一种显式的基于点的方法替代了隐式的神经表示: 每个高斯由以下参数定义: 位置 (\(x\)): 3D坐标。协方差 (\(\Sigma\)): 形状与方向，通过旋转四元数 (\(q\)) 和缩放向量 (\(s\)) 表示。不透明度 (\(\alpha\)): 透明程度。视角相关颜色 (球谐系数) : 编码随视角变化的RGB颜色的球谐参数。渲染过程涉及将每个3D高斯投影成一个2D椭圆: \[ \Sigma' = J W \Sigma W^{T} J^{T} \]其中 \(W\) 是视图变换矩阵，\(J\) 是投影的雅可比矩阵。像素按从后到前的顺序混合排序后的溅射体: \[ C = \sum_{i \in N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j) \]这种显式表示相比NeRFs显著加快了渲染速度。但为数百万个高斯存储位置、旋转、缩放、不透明度以及数十个球谐系数，数据量会迅速膨胀至数GB。压缩流程: 优先保留关键参数这一压缩方案的核心洞见是，部分参数对最终图像几乎没有影响，而另一些参数则至关重要。通过测量参数的敏感度，对影响较小的部分进行更高比例的压缩，团队在减小数据规模的同时尽量保留了视觉质量。 ...

[GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces 🔗](https://arxiv.org/abs/2311.17977)

GaussianShader：为实时渲染带来逼真的反射效果

3D 图形世界的发展一日千里。多年来，我们一直追逐着创造与现实无异的数字场景的梦想。神经辐射场 (NeRF) 的出现带来了一次重大飞跃，它能通过少量照片生成惊艳的、照片级逼真的视图。但 NeRF 有一个问题: 它非常慢。随后，在 2023 年，3D 高斯泼溅 (3D Gaussian Splatting) 横空出世，改变了一切。它以极快的实时速度提供了媲美 NeRF 的质量。突然之间，高保真 3D 渲染在交互式应用中成为可能。然而，这项新技术有一个致命弱点: 闪亮、反光的表面。抛光金属、光滑塑料、釉面陶瓷——这些物体常常看起来扁平、模糊，或者干脆就是错的。高斯泼溅简单的颜色模型无法捕捉光线在反射表面上的复杂、与视角相关的变化。这正是论文 GaussianShader: 3D Gaussian Splatting with Shading Functions for Reflective Surfaces 所要解决的问题。问题是: 我们能否将高斯泼溅的速度与复杂的着色模型相结合，以渲染出优美逼真的反射，同时又不牺牲性能？答案是肯定的。GaussianShader 将一个简化但功能强大的着色函数直接集成到高斯泼溅框架中。如图 1 所示，与原始方法相比，它显著提高了反射物体的渲染质量，同时其训练速度比现有的反射建模方法 (如 Ref-NeRF) 快了几个数量级。图 1. GaussianShader 在反射表面上实现了高保真效果 (a)，同时在速度和准确性方面与其他方法相比保持了很好的平衡 (b)。在本文中，我们将探讨 GaussianShader 的工作原理——它如何用材质属性扩展 3D 高斯体，如何解决在点云中估计表面法线的棘手问题，以及如何将这些创新融合为一个兼顾真实感与实时速度的系统。从 NeRF 到高斯泼溅: 基础为了理解 GaussianShader 的贡献，让我们先回顾一下它所基于的技术。神经辐射场 (NeRF) 将场景表示为一个神经网络，该网络将 3D 坐标和观察方向映射到颜色和密度。通过从相机发出射线并沿途对该网络进行数百万次采样，NeRF 可以生成细节丰富的图像——代价是极高的计算量。 3D 高斯泼溅则转向了一种显式的、离散的表示方法: 数百万个微小的、半透明的 3D 椭球体 (高斯体) ，每个都由以下属性定义: ...

[GaussianDreamer: Fast Generation from Text to 3D Gaussians by Bridging 2D and 3D Diffusion Models 🔗](https://arxiv.org/abs/2310.08529)

GaussianDreamer：融合2D与3D AI，15分钟从文本生成惊艳3D模型

创建3D资产在传统上一直是熟练艺术家使用复杂软件的专属领域——这个过程即使不是几天，也通常要耗费数小时。生成式AI的兴起，尤其是扩散模型，正在重塑这一现实，让任何人都有机会通过简单的文本提示生成精致的3D对象。但一直存在一个问题: 现有的两种方法各有利弊。一方面是3D扩散模型。这些模型直接在3D数据上训练，擅长保持结构和空间一致性，能生成几何一致性极佳的对象。但高质量3D数据集的稀缺与昂贵，限制了它们的创作范围与细节真实度。遇到复杂的提示时，往往会生成过于简化的结果。另一方面是“提升并适配”方法: 利用在海量2D图像数据集上训练的2D扩散模型，尝试将其强大的生成能力推广到3D。这类模型在纹理、多样性和照片级真实感方面表现惊艳，但缺乏对3D空间的原生理解。结果常常出现奇怪的瑕疵，比如臭名昭著的“雅努斯问题”——对象莫名地有两个正面，或者不同视角下几何形态不一致。于是出现了一个两难格局: 原生3D模型 → 形状稳健，但细节有限。 2D提升模型 → 细节丰富，但几何有缺陷。如果能两者兼得呢？新的论文 GaussianDreamer 提出了一个巧妙而高效的桥梁，融合了这两个世界。它利用3D扩散模型创建几何上合理的“骨架”，再用2D扩散模型绘制丰富细节，并结合超高速的3D高斯溅射表示法——仅需在单块GPU上15分钟即可生成高质量3D资产。图1. GaussianDreamer通过高斯溅射技术连接2D和3D扩散模型，与以往方法相比，在极短的时间内实现了3D一致性与精细细节的兼备。背景: 现代3D生成的基石在深入解析GaussianDreamer的架构之前，需要先了解两个关键基础概念:** 分数蒸馏采样 (SDS)** 与 3D高斯溅射 (3D-GS) 。分数蒸馏采样 (SDS) : 担当艺术总监的2D AI 一个2D图像生成器如何帮助生成一致的3D对象？突破在于 SDS，它最初发表于 DreamFusion。想象你有一个简单的3D模型——例如一个打算变成苹果的球体。你从随机角度渲染它，将渲染图传入功能强大的2D扩散模型 (如Stable Diffusion) ，并提问: “这张图如何修改才能契合提示词‘一张苹果的照片’？” 2D模型会以梯度形式返回指引——一组调整像素的方向。SDS并不直接改变图像，而是利用这个梯度来更新3D模型的参数。从不同视角重复这一过程，3D模型便逐渐成为一个任何视角渲染都能匹配提示的苹果。数学表达为: \[ \nabla_{\theta} \mathcal{L}_{\text{SDS}}(\phi, \mathbf{x} = g(\theta)) \triangleq \mathbb{E}_{t,\epsilon} \left[ w(t) \left( \hat{\epsilon}_{\phi}(\mathbf{z}_t; y, t) - \epsilon \right) \frac{\partial \mathbf{x}}{\partial \theta} \right] \]其中，\(\epsilon\) 是添加到渲染图像中的噪声，\(\hat{\epsilon}_{\phi}\) 是2D扩散模型预测的噪声，两者差值用于推断如何调整3D模型参数 \(\theta\) 以匹配文本提示 \(y\)。 ...

[GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2404.19702)

从 2D 像素到 3D 溅射：GS-LRM 如何仅凭几张图像重建世界

图 1: GS-LRM 从物体采集 (左上) 、文本条件生成的物体图像 (右上) 、场景采集 (左下) 和文本条件生成的场景图像 (右下，来自 Sora，提示为“参观一个拥有许多不同风格美丽艺术品的美术馆”) 预测的新视角渲染。GS-LRM 能以惊人的保真度处理物体和复杂场景。为现实世界的物体或场景创建数字 3D 模型是计算机视觉和图形学的基石。几十年来，这意味着一个名为摄影测量法的繁琐流程，需要数十甚至数百张照片以及缓慢而复杂的软件。但如果你仅凭几张图像，就能在不到一秒内完成高质量 3D 重建呢？这正是一类名为大型重建模型 (LRM) 的新型人工智能所带来的可能。这些基于 Transformer 的模型在海量 3D 内容数据集上进行训练，学习到关于形状和结构的通用“先验”知识，从而能够仅凭两到四张图像智能重建完整的 3D 几何体。然而早期的 LRM 遇到了瓶颈: 它们依赖于“三平面 NeRF”表示，这种方法在速度、细节保真和对复杂场景的扩展上表现不佳。 Adobe Research 和康奈尔大学最近发表的论文 GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting 介绍了一种强大的新方法，突破了这些限制。通过结合简洁、可扩展的 Transformer 架构与快速且高质量的 3D 高斯溅射表示，GS-LRM 在独立物体及完整场景的重建上均达到了业界顶尖水平——而且可以瞬时生成结果。本文将探讨 GS-LRM 的工作原理、意义，以及它如何重塑 3D 内容创作的未来。背景: 通往即时 3D 之路在深入了解 GS-LRM 之前，让我们快速回顾两项核心技术:** 3D 高斯溅射** 和大型重建模型。 ...

[Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields 🔗](https://arxiv.org/abs/2312.03203)

超越真实感：Feature 3DGS 为 3D 场景带来 AI 理解能力

仅凭几张 2D 图像就能创建出照片般逼真的 3D 场景，我们已经见证了这方面令人惊叹的进展。像神经辐射场 (NeRFs) 以及近期的 3D 高斯溅射 (3DGS) 这样的技术，能够生成场景中令人惊艳的全新视角，让你仿佛驾驶无人机飞越一张静态照片。但如果我们想做的不仅仅是看呢？如果我们还希望能够与刚创建的 3D 世界进行交互、编辑并真正理解它呢？试想一下，指着 3D 场景中的一辆车说“删除它”，或者要求模型“只显示树木”。标准的 3DGS 和 NeRF 模型无法做到这一点。它们是外观的高手——精细地学习空间中每个点的颜色和透明度——但它们并不理解这些点代表什么。它们看到的是像素，而不是物体。这正是开创性论文 Feature 3DGS 旨在填补的空白。研究人员开发了一种方法来增强超高速的 3D 高斯溅射框架，使其能够理解并操控场景内容。通过从强大的二维 AI 基础模型 (如 CLIP 和 Segment Anything Model (SAM)) 中蒸馏知识，他们将 3DGS 从一个简单的渲染器转变为动态、可编辑、且具有语义感知能力的世界表示。这项工作为交互式 3D 体验的新时代铺平了道路——在这个时代，我们可以像编辑文本文档一样轻松操控数字世界。图 1: Feature 3DGS 增强了标准 3D 高斯溅射技术，使其能够执行除简单新视角合成之外的多种场景理解任务。快速回顾: NeRFs vs. 3D 高斯溅射要理解 Feature 3DGS 的创新，我们首先需要熟悉现有的 3D 场景表示技术。 ...

[GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2311.11700)

GS-SLAM：高斯溅射开启实时3D建图新纪元

想象一下，一个机器人在你家中穿行——它不仅能避开障碍物，还能在移动的同时构建一个逼真度极高的三维环境模型。或者，设想一副增强现实头显，它能将虚拟物体无缝锚定在物理世界，实现完美对齐，并呈现逼真的光照与阴影。这些充满未来感的应用都依赖于一项核心技术——同步定位与地图构建 (SLAM) 。几十年来，SLAM研究人员一直致力于打造既快速、精确、又能生成稠密且细致地图的理想系统。但事实证明，要同时达成这三者极为困难。传统方法通常偏重速度而牺牲细节；而近年的神经辐射场 (NeRFs) 方法虽能生成惊艳的地图，却因渲染速度过慢而难以满足实时需求。如今，GS-SLAM打破了这一瓶颈。该突破性系统首次将3D高斯溅射 (3DGS) 引入SLAM，消除了速度与地图质量之间的取舍，实现了实时跟踪与超高速的照片级真实感渲染。图1. GS-SLAM引入了快速、显式的3D高斯场景表示方法，实现了386 FPS的实时跟踪与建图——速度比先前方法快100倍以上，同时生成高保真的渲染效果。 SLAM长期存在的瓶颈 SLAM技术使机器人或设备能够在未知环境中同时构建地图并定位自身位置。 **经典SLAM **(如ORB-SLAM2) 在定位方面表现优异，但使用的是稀疏点云——这对于需要详细几何信息的应用来说不足。 **稠密建图方法 **(如KinectFusion) 基于截断符号距离场 (TSDF) 将场景数据存储在体素网格中，几何细节更丰富，但消耗大量内存。 **基于NeRF的SLAM **(如iMAP、NICE-SLAM) 通过神经网络隐式表示场景，可生成高质量且内存高效的地图，但其体渲染——即向每个像素发射光线并对网络进行数百次采样——速度极慢。为满足实时性，这些系统仅渲染稀疏像素，限制了细节的充分利用。瓶颈在于渲染速度。GS-SLAM的关键在于: 用快速、显式的3D高斯溅射管线取代缓慢的神经隐式渲染。不同于光线追踪与MLP查询，3DGS将地图表示为数百万个微小的、彩色的、半透明高斯“椭圆斑点”，可迅速投影 (“溅射”) 到图像平面并进行alpha混合。 GS-SLAM内部探秘 GS-SLAM是一个完整的RGB-D SLAM系统，包含三个核心组件: 3D高斯场景表示自适应建图由粗到精的跟踪图2. GS-SLAM管线: 从使用3D高斯初始化场景表示，到自适应扩展建图，再到鲁棒的由粗到精跟踪——全程实现实时渲染。 1. 用3D高斯表示世界场景建模为: \[ \mathbf{G} = \{G_i : (\mathbf{X}_i, \boldsymbol{\Sigma}_i, \boldsymbol{\Lambda}_i, \boldsymbol{Y}_i) \mid i = 1, ..., N\}. \]其中每个高斯 \(G_i\) 包含: 位置 \(\mathbf{X}_i \in \mathbb{R}^3\) 协方差 \(\boldsymbol{\Sigma}_i\) 定义形状与方向，并参数化为: \[ \Sigma = \mathbf{R}\mathbf{S}\mathbf{S}^T\mathbf{R}^T \] 其中尺度 \(\mathbf{S}\) 与旋转 \(\mathbf{R}\) (来自四元数) 不透明度 \(\boldsymbol{\Lambda}_i\) 颜色通过球谐函数 \(\boldsymbol{Y}_i\) 表示，支持逼真且随视角变化的光照渲染将每个高斯投影至图像平面: ...

[Mip-Splatting: Alias-free 3D Gaussian Splatting 🔗](https://arxiv.org/abs/2311.16493)

Mip-Splatting：三维高斯溅射中实现清晰变焦的秘密

引言在快速发展的计算机图形学与计算机视觉领域，很少有技术能像三维高斯溅射 (3D Gaussian Splatting, 3DGS) 那样引起如此广泛的关注。自 2023 年问世以来，它凭借照片级的新视角合成能力和实时渲染速度，让研究人员与开发者印象深刻。对许多人而言，它就是期待已久、实用且高效的神经辐射场 (NeRFs) 继任者。然而，当人们开始将 3DGS 推向极限时，缺陷逐渐暴露。尽管它在训练数据中相似的相机视角下表现惊艳，但一旦观察尺度发生变化，性能就会严重下滑。放大时，物体可能变得过于纤细且带有噪点；缩小时，精细细节则容易模糊成泛光的伪影。这正是论文 “Mip-Splatting: Alias-free 3D Gaussian Splatting” 要解决的问题。作者找出了这些缩放伪影的根源，并提出了一个优雅且有理论支持的解决方案。他们的方法——Mip-Splatting——在原始 3DGS 管线基础上改进，使其能够稳健应对相机距离与焦距的变化，从而在各种尺度下生成清晰、无伪影的图像。让我们将这个问题可视化: 图 1: 标准 3DGS 在训练尺度 (a) 下表现良好，但缩小时 (c) 轮辐变粗，放大 (d) 则变得过细且充满噪声。本文将一步步解析 Mip-Splatting 论文。我们首先解释三维高斯溅射的原理，再分析它在不同尺度下失效的原因，最后介绍 Mip-Splatting 的双重解决方案: 针对放大的三维平滑滤波器和针对缩小的二维 Mip 滤波器。背景: 三维高斯溅射的工作原理与基于网格的渲染或神经网络不同，三维高斯溅射用大量半透明、各向异性的斑点——高斯体——来表示场景。每个高斯体由以下参数定义: 位置 (\(\mathbf{p}_k\)): 它在三维空间中的坐标。协方差 (\(\boldsymbol{\Sigma}_k\)): 一个 3×3 矩阵，定义形状与大小。颜色 (\(c_k\)): 可能依赖视角，使用球谐函数建模。不透明度 (\(\alpha_k\)): 透明程度。数学上，一个高斯体表示为: ...

[MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images 🔗](https://arxiv.org/abs/2403.14627)

MVSplat：仅用几张照片，构建令人惊叹的 3D 世界

从一小组照片中创建真实世界场景的数字 3D 副本，是计算机视觉和图形学领域的长期目标之一。这种能力——通常称为新视角合成或3D 重建——驱动着从虚拟现实体验、电影视觉特效，到数字孪生与建筑可视化等多种技术的发展。多年来，神经辐射场 (NeRF) 等方法能够生成令人惊叹的照片级真实感效果。但它们有一个显著不足: 通常需要几十张甚至上百张场景图片，而且训练与渲染过程速度极慢。近来出现的*3D 高斯溅射 *(3D Gaussian Splatting，简称 3DGS) 技术，在保持相当质量的同时实现了实时渲染。然而，这类方法仍依赖于密集的输入影像。那么，如果你只有寥寥几张照片——比如仅有两三张视角呢？这种稀疏视角的情况非常棘手。由于数据量极少，3D 结构会高度模糊，使得模型难以忠实重建场景。这正是论文《MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images》所应对的挑战。研究人员提出了 MVSplat，一种可以用少至两张图片高效构建高质量 3D 场景的方法。正如下方比较所示，MVSplat 不仅能渲染更精美的图像，还能生成更清晰、更准确的底层 3D 几何结构，其模型大小比主要竞争对手小十倍，推理速度快两倍以上。图 1: 与 pixelSplat 相比，MVSplat 在外观和几何质量上更优，参数量减少 10 倍，推理速度提升超过 2 倍。本文将探讨 MVSplat 背后的理念——特别是它如何通过重新引入经典计算机视觉中的一个强大概念:** 代价体积 (cost volume)** ，来规避稀疏视角重建的常见陷阱。你将看到，将几何优先的思路与现代深度学习结合，如何引领最先进的 3D 重建。背景: 通往实时 3D 之路要理解 MVSplat 的创新，我们先简要回顾一下神经场景表示的发展历程。 NeRF: 照片级真实感的革命神经辐射场 (NeRF) 将场景表示为连续函数——一个小型 MLP 网络，输入 3D 坐标 \((x, y, z)\) 和观察方向 \((\theta, \phi)\)，输出该点的颜色与密度。渲染时，相机发出的光线穿过每个像素，在光线上采样多个点，将颜色与密度的输出沿途积分。 ...

[3D Gaussian Splatting for Real-Time Radiance Field Rendering 🔗](https://arxiv.org/abs/2308.04079)

实时辐射场：深入解析3D高斯溅射技术

在过去几年里，计算机图形学领域一直为神经辐射场 (NeRFs) 所着迷。这些方法提出了一种突破性的方式来捕捉和探索3D场景——仅需几张照片，就能从任意新视角生成惊人逼真的图像。这些成果令人叹为观止，但代价是巨大的计算成本: 训练一个高质量的NeRF可能耗时数天，而渲染一张高分辨率图像也可能需要数秒，实时探索根本无法实现。这带来了一个令人沮丧的取舍: 慢但高质量: 如 Mip-NeRF360 能生成极致的细节，但训练需数十小时，渲染速度也极其缓慢。快但质量较低: 如 Instant-NGP 和 Plenoxels 将训练时间削减到几分钟，但常常牺牲精细细节和视觉保真度。对于虚拟现实、游戏或电影级可视化等真正沉浸式体验，我们亟需同时具备顶尖质量和实时帧率。迎来了2023年的一项突破: 用于实时辐射场渲染的3D高斯溅射技术。该方法不仅是微小改进，而是一次巨大飞跃，它实现了照片级真实感的渲染，训练仅需数分钟，且——最令人惊叹的是——可在实时下渲染高分辨率视图。图1: 作者的方法实现实时渲染 (高达135 fps) ，质量与 Mip-NeRF360 (0.071 fps) 相当或更优，且训练时间仅为其一小部分 (51分钟 vs 48小时) 。本文将深入解析3D高斯溅射技术的工作机制——探讨其三大核心支柱: 一种基于各向异性3D高斯函数的新颖场景表示。可同时构建并精化场景的自适应优化策略。一个为GPU高度优化的极速可微光栅化器。背景: 通往实时辐射场之路在深入高斯溅射技术本身之前，我们先看看促使其诞生的技术背景。 NeRF时代: 美丽的代价传统 NeRF 将场景表示为一个连续函数——通常是MLP (多层感知机) ，输入为3D位置和观察方向，输出为颜色和密度。渲染过程需要体积射线步进: 从每个像素射出一条射线，对网络进行数百次查询以累积颜色与不透明度。核心的体积渲染方程为: \[ C = \sum_{i=1}^{N} T_i \big(1 - \exp(-\sigma_i \delta_i)\big) \mathbf{c}_i \] \[ \text{with} \quad T_i = \exp\left(-\sum_{j=1}^{i-1} \sigma_j \delta_j\right) \]这一过程可生成优美连续的图像，但计算开销巨大，实时交互渲染几乎不可行。 ...

[Visualizing and Understanding Recurrent Networks 🔗](https://arxiv.org/abs/1506.02078)

打开黑箱：LSTM 如何学习长程依赖

循环神经网络 (RNN) 及其更强大的近亲——长短期记忆网络 (LSTM) ，是处理序列数据的基础工具。它们促成了从语言翻译、图像字幕生成到语音和手写生成等领域的重大突破。然而，尽管 LSTM 表现出色，它们长期以来却被视为“黑箱”。我们知道它们有效，但它们如何工作、学到了什么、为什么成功、以及在哪些方面会失败，这些问题仍缺乏深入认识。这种可解释性的缺失是一个重大障碍。如果不能理解模型，就很难设计出更优的架构。斯坦福大学 2015 年的一篇经典论文 “Visualizing and Understanding Recurrent Networks” 正面应对了这一挑战。作者没有提出新的架构，而是对 LSTM 的内部工作机制进行了深入的实证研究。他们使用字符级语言模型作为可解释的试验平台，可视化网络学到的内容、信息的表示方式，以及模型出错的地方。他们的发现颇为引人注目。不仅证实了 LSTM 能捕捉长程依赖，还揭示了它们是如何做到的——发现了可以跟踪行长度、引号、代码缩进层级等的单个记忆单元。本文将解析他们的方法、结果以及这些发现对序列建模未来的意义。 RNN、LSTM 和 GRU: 简要回顾在深入探讨实验之前，先回顾一下论文中研究的关键模型。它们都以逐个元素的方式处理序列，并维护一个内部的“状态”或“记忆”，用于捕捉过去的上下文。标准循环神经网络 (RNN) RNN 在时间步 \(t\) 更新隐藏状态 \(h_t\)，该更新依赖于当前输入 \(x_t\) 和前一隐藏状态 \(h_{t-1}\): 基本的 RNN 循环: 前一状态与当前输入结合后通过非线性函数。虽然在概念上很优雅，但标准 RNN 存在梯度消失和梯度爆炸的问题: 梯度在经过多个时间步反向传播时，可能缩小到几乎为零或失控增长，导致长程依赖的学习非常困难。长短期记忆网络 (LSTM) LSTM 通过更复杂的内部结构解决了这个问题。除了隐藏状态，它们还维护一个单元状态 \(c_t\)，作用类似传送带——使信息在较少修改下流动，从而缓解梯度消失。信息流由三个门控制: 遗忘门 (\(f\)) – 决定丢弃哪些信息。输入门 (\(i\)) – 决定存储哪些新信息。输出门 (\(o\)) – 决定单元状态的哪部分被输出。 LSTM 单元更新: 通过门调节记忆的读取、写入和输出。 ...