Papers

[A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods 🔗](https://arxiv.org/abs/2305.15027)

深度集成为何有效？新理论将其与贝叶斯方法统一

量化不确定性是构建真正可信赖人工智能系统的最大障碍之一。一个模型要可靠，就必须能够识别它所不知道的东西。无论是自动驾驶汽车遇到异常障碍物，还是医疗 AI 在分析罕见病症时，我们都希望模型可以回答“我不确定”，而不是给出一个自信却错误的预测。多年来，机器学习社区针对这个问题发展出了几种截然不同的方法。一方面，我们有遵循原则、概率优先的贝叶斯方法。这些方法，包括变分推断 (VI) 和朗之万采样等技术，不将模型参数视作单一的点估计，而是看作完整的概率分布——这可以自然地捕捉不确定性。另一方面，我们有一种出奇有效且简单的启发式方法:** 深度集成**——用不同的随机初始化多次训练同一个神经网络，并对它们的预测进行平均。尽管深度集成在实践中取得了显著成功，但在理论上它一直是个谜团。它们是隐性的贝叶斯方法吗？还是完全不同的东西？相关的讨论一直十分激烈。最近，一篇 NeurIPS 2023 的论文 “A Rigorous Link between Deep Ensembles and (Variational) Bayesian Methods” 提出了一个统一理论，将深度集成、变分推断以及全新的算法纳入同一个概念框架之下。其核心洞见在于重构整个问题: 不是在复杂、非凸的损失景观中直接优化模型参数，而是将问题提升到无限维的概率测度空间，在这个空间中，优化问题变得凸且性质良好。借助 Wasserstein 梯度流 (WGF) 的数学工具，这一视角不仅解释了深度集成为何有效，还催生了具有收敛性理论保证的全新集成算法。从崎岖小路到平坦大道: 通过概率提升实现凸性在深度学习中，我们要最小化的损失函数通常是高度非凸的。想象一个广阔的山地景观，布满山峰和山谷。标准的梯度下降就像让一个球从高处滚落——它会停在最近的山谷 (局部最小值) ，而这个位置可能距离整个最深的山谷 (全局最小值) 很远。这种复杂性让理论分析和保证变得困难。作者提出，通过将优化问题从参数空间 \(\theta \in \mathbb{R}^J\) 提升到参数的概率测度空间 \(\mathcal{P}(\mathbb{R}^J)\)，可以“夷平”这片景观。图 1: 概率提升与凸化的分步骤示意。具体过程如下: 标准问题: \[ \min_{\theta \in \Theta} \ell(\theta) \] 寻找一组最优参数 \(\theta\)。概率提升: 将寻找单个 \(\theta\) 的任务，替换为寻找一个关于 \(\theta\) 的分布 \(Q\): \[ \min_{Q \in \mathcal{P}(\mathbb{R}^J)} \int \ell(\theta) \, dQ(\theta) \] 该目标函数在 \(Q\) 上是线性的，因此为凸的。 ...

[Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective 🔗](https://arxiv.org/abs/2305.15408)

解锁黑箱：大语言模型中思维链背后的理论

解锁黑箱: 大语言模型中思维链背后的理论如果你曾使用过现代大语言模型 (LLM) 解决难题，你可能知道这个技巧: 在提示中加上一句“让我们一步一步地思考”，模型通常会生成中间推理过程并给出正确答案。这个看似简单的改变，被称为思维链 (Chain-of-Thought, CoT) 提示，已成为提升模型在数学、逻辑和推理任务表现的常用方法。但为什么 CoT 的效果如此显著？它只是引导模型说出已有的知识，还是从根本上改变了模型的计算能力？论文《揭示思维链之谜: 一个理论视角》 (Feng 等) 给出了清晰且令人意外的答案: CoT 不仅仅是推动模型一把——它从根本上改变了模型的计算模式。简而言之，自回归 Transformer 通过生成逐步推导步骤，可以解决一些同等模型直接一次性计算无法完成的问题类别，除非模型规模大到不切实际。本文将梳理论文的主要思想，解释背后的直觉 (避免陷入繁复技术细节) ，并将理论与验证其结论的实验联系起来。路线图快速入门: 自回归 Transformer 与思维链核心理论张力: 并行浅层计算 vs. 串行深度计算两个具体数学任务: 算术表达式与线性方程组为什么直接预测在理论上很难 CoT 如何让常数规模 Transformer 成功更广泛的类别: 动态规划 (DP) 及 CoT 的泛化能力实验: CoT 训练 vs. 直接监督实践启示与开放问题简要入门: 自回归 Transformer 与思维链自回归 Transformer (包括 GPT 系列) 以一次一个词元 (token) 的方式生成文本。在每一步，Transformer 会关注所有先前生成的词元 (使用因果掩码) ，并生成下一个词元。不断重复此过程，就能得到完整的答案或推导过程。两个关键要素与本次讨论密切相关: Transformer 架构: 由堆叠的自注意力模块 + 位置信息 + 前馈网络 (FFN) 构成。每次前向传播都在整个输入序列上进行一次浅层但宽度较大的计算。自回归循环: 在生成一个词元后，模型将该词元作为下一步的输入。重复这一循环，可以将多个相同的前向传播变为串行 (迭代) 的计算过程。 ...

打破速度极限：新算法如何彻底改变极小极大优化

引言: 极小极大优化的高风险博弈想象一个有两名玩家的游戏。一名玩家——最小化方 (Minimizer) ——希望某个值越小越好。另一名玩家——最大化方 (Maximizer) ——则希望同一个值越大越好。他们轮流行动，每一方都试图智取对方。这就是极小极大 (minimax) 问题的本质，一个位于许多现代机器学习核心的概念。从训练能够生成逼真图像的生成对抗网络 (GANs) ，到构建能抵御对抗攻击的鲁棒 AI 模型，极小极大优化无处不在。其核心任务是解决如下形式的问题: 极小极大优化问题的标准数学形式。在这里，我们希望在第二名玩家在 \( y \) 上最大化函数 \( f(x, y) \) 之后，找到一个点 \( x \) 来最小化它。当 \( f \) 在 \( x \) 上是凸的，在 \( y \) 上是凹的 (即凸–凹设定) 时，存在大量高效的算法。但在许多前沿应用中，\( f(x, y) \) 对最小化方是非凸的，对最大化方是非凹的。这个优化的“狂野西部”——非凸–非凹 (NC-NC) ——是出了名的困难且计算成本高昂。现有的算法要么过于复杂 (多循环结构) ，要么速度太慢，其收敛速度在大规模问题中不切实际。正是在这里，一篇近期的 NeurIPS 2023 论文《A Single-Loop Accelerated Extra-Gradient Difference Algorithm with Improved Complexity Bounds for Constrained Minimax Optimization》登场了。作者提出了额外梯度差分加速 (Extra-Gradient Difference Acceleration, EGDA) 算法: 一种单循环方法——实现简单却速度惊人——它在理论上达到了 \( O(\epsilon^{-2}) \) 的复杂度，打破了此前 \( \widetilde{\mathcal{O}}(\epsilon^{-4}) \) 和 \( \widetilde{\mathcal{O}}(\epsilon^{-2.5}) \) 的界限。 ...

[MONARCH MIXER: A Simple Sub-Quadratic GEMM-Based Architecture 🔗](https://arxiv.org/abs/2310.12109)

超越 Transformer：用 Monarch Mixer 实现深度学习的亚二次方扩展

在过去十年中，深度学习的发展始终围绕一个主题——规模: 更大的模型、更长的上下文、更宽的特征空间。规模化带来了令人惊叹的能力，但也遇到了一个现实瓶颈——计算成本。许多当前最先进的模型，其核心操作在时间和内存上的开销均呈二次方增长: 序列长度为 \(N\) 的注意力机制，以及特征维度为 \(d\) 的密集型 MLP。序列长度或模型宽度翻倍，计算量可能增加四倍。随着我们迈向更长的上下文和更宽的网络，二次方的增长成本很快会变得难以承受。 MONARCH MIXER (M2) 是斯坦福大学和纽约州立大学研究人员提出的一种新架构，它提出了一个简单而大胆的问题: 我们能否设计一个单一的、硬件友好的原语，同时在序列维度和特征维度上混合信息，并在这两个维度上都实现亚二次方扩展？答案是:** 可以**。它的构建模块是 Monarch 矩阵，一种结构化、对 GEMM (通用矩阵乘法) 友好的对象，能够推广像 FFT 这样的变换，并可用块矩阵乘法高效实现。将基于 Monarch 的混合器堆叠构建模型 (即 M2) 后，我们得到了具备亚二次方复杂度、在现代 GPU 上高效、且在语言和视觉任务中与 Transformer 竞争力不相上下的架构。本文将解析 M2 背后的直觉、数学原理与系统设计思路，重点关注三个方面: 什么是 Monarch 矩阵，以及它们为何既有表达力又能在硬件上高效运行。 M2 层如何以亚二次方成本混合序列和特征信息。如何通过关键理论技巧，使 M2 在保持亚二次方扩展的同时实现因果性 (自回归) 。同时，我们也会看到实证结果: M2 在多项任务中与 Transformer 持平或超越，同时参数更少，或在长上下文中显著提升吞吐量。图 1: Monarch 矩阵由块对角因子与置换交错相乘构成。M2 先沿序列轴进行 Monarch 混合，再沿特征轴混合，仅使用矩阵乘法、重塑、转置和逐点操作 (这些都是对 GEMM 友好的原语) 。为什么关注结构化矩阵？一个神经网络原语在加速器上的性能取决于两个关键且相互独立的因素: 算法的渐进复杂度，以及它与硬件高效原语 (如 GEMM、张量核心) 的适配程度。注意力和密集 MLP 功能强大，但在它们混合的维度上具有二次方复杂度。基于 FFT 的长卷积在理论复杂度上很诱人 (\(O(N \log N)\)) ，但在实践中常受限于内存带宽，难以充分利用 GPU 的计算能力。Monarch 矩阵则试图在二者间找到平衡: 既有亚二次方的复杂度，又能用高 FLOPs GEMM 高效实现。 ...

[Random Cuts are Optimal for Explainable k-Medians 🔗](https://arxiv.org/abs/2304.09113)

为什么随机切分是解释聚类的最佳方法

机器学习模型常因其黑箱特性而饱受诟病。我们输入数据，它输出结果，但其决策背后的逻辑却不透明。在医疗诊断或贷款审批等高风险领域，这种缺乏透明性的状况是不可接受的，因为在这些场景下，理解为什么与知道是什么同样重要。聚类——即将相似的数据点分组的任务——也不例外。如果无法理解模型创建簇的逻辑，我们又怎能信任它的聚类结果呢？于是，可解释 AI 应运而生。目标是设计既准确又易于人类理解的模型。对于聚类，Dasgupta 等人 (2020) 提出了一个简单而强大的想法——用阈值决策树来定义簇。取代复杂、不规则的边界，簇由简单的轴对齐切割界定，比如“年龄 > 30”或“收入 ≤ 50000 美元”。这样的边界让聚类的逻辑一目了然。当然，这种简洁性是有代价的: 强制限制簇在整齐的矩形框中，可能会扭曲数据的自然分组并增加聚类成本。这种权衡被称为可解释性的代价。关键问题是: 这个代价有多高？我们能否找到一种算法，让这个代价尽可能低？近期一篇论文《随机切割是可解释 k-中值聚类的最优方法》给出了肯定答案。作者分析了一种极其简单的算法 RANDOMCOORDINATECUT，并证明其竞争比达到最优。这项研究不仅提出了一个优秀算法，还弥合了理论缺口，将复杂的几何问题重构为一个简洁的概率博弈。什么是可解释聚类？在深入探讨论文核心贡献之前，先直观感受一下这个问题。标准的 k-中值聚类会将数据集 \(X\) 划分为 \(k\) 个簇，选取 \(k\) 个中心点，使得每个数据点到其分配中心的距离总和最小化。这里我们关注的是 \(\ell_1\)-范数，即曼哈顿距离，公式为: \[ \|x - c\|_1 = \sum_j |x_j - c_j| \]在标准 k-中值聚类中，簇由 Voronoi 分割定义: 每个点属于离它最近的中心。如 **图 1 **(左) 所示，这可能形成复杂的非矩形边界——尤其在 \(\ell_1\) 距离下——使得解释一个点为何属于某个簇变得困难。图 1: 左: 无约束 k-中值聚类在 \(\ell_1\) 距离下的 Voronoi 分割。中: 具有矩形区域的可解释分割。右: 对应的决策树。 ...

[Human-like Few-Shot Learning via Bayesian Reasoning over Natural Language 🔗](https://arxiv.org/abs/2306.02797)

我们如何从少量信息中学到如此之多：一个用自然语言思考的贝叶斯模型

我们是如何如此迅速地学习新概念的？一个孩子看一两次“击掌” (high-five) ，就能泛化到“击低掌” (low-five) 。一个研究人员听说“小样本提示” (few-shot prompting) ，就能迅速领会其核心思想。从“1, 4, 16, 64”，我们能立即推断出模式是“4的幂”。这种从少量具体示例中归纳出通用规则的能力——一个称为*归纳 *(induction) 的过程——是人类智能的基石。我们能毫不费力地在几乎无限的概念范围内完成这一过程。对于人工智能而言，这仍然是一个巨大的挑战。机器学习模型通常需要海量数据，而且它们的泛化能力可能很脆弱。这种差距凸显了构建智能系统的一个核心矛盾:** 我们如何像人类那样在一个庞大且富有表达力的概念空间中进行搜索，而不被评估所有概念所需的计算量压垮？** 康奈尔大学最近的一篇论文《通过自然语言上的贝叶斯推理实现类人小样本学习》 (Human-like Few-Shot Learning via Bayesian Reasoning over Natural Language) 提出了一种颇具吸引力的方法。论文认为，秘诀可能在于一种人类独有的能力: 用自然语言思考。作者引入了一个模型，该模型通过内部“自言自语”来学习新概念——用英语生成假设，然后利用贝叶斯推断来决定哪个假设最能解释数据。这种方法结合了语言的表达能力与严谨的概率推理，创造出一个既能高效学习、又能捕捉人类判断细微之处的模型。贝叶斯大脑与规模问题归纳的核心在于管理不确定性。如果你看到数字16作为一个示例，其背后的概念可能是“2的幂”、“平方数”、“偶数”，甚至是“只包括数字16和97”的规则。一个强大的推理建模方式是贝叶斯定理: \[ p(C|D) \propto p(D|C) \, p(C) \]其中: \( p(C|D) \) — 后验概率: 在看到数据 \( D \) 后对概念 \( C \) 的信念； \( p(D|C) \) — 似然: 如果 \( C \) 是真实概念，我们看到数据 \( D \) 的可能性； \( p(C) \) — 先验概率: 在看到数据前对 \( C \) 的初始信念，代表我们对某类解释的偏好。如果我们将概念视为计算机程序，这就变成了贝叶斯程序学习 (BPL) ——用特定领域的编程语言 (DSL) 来表达概念，并推断出与数据匹配的程序。BPL很强大，但需要为每个领域设计一个DSL，并进行耗时且昂贵的搜索。 ...

[Sampling from Gaussian Process Posteriors using Stochastic Gradient Descent 🔗](https://arxiv.org/abs/2306.11589)

用…SGD求解巨型高斯过程？深入探究良性非收敛现象

在不确定性量化方面，高斯过程 (GPs) 堪称机器学习领域的“瑞士军刀”。它们提供了一种强大且有原则的方法，不仅能进行预测，还能评估我们对这些预测的置信度。这使得它们在药物研发、机器人技术和自动化科学探索等高风险应用中具有不可估量的价值，因为在这些领域，了解模型不知道什么与它预测什么同样重要。然而，高斯过程有一个众所周知的“阿喀琉斯之踵”:** 计算复杂度**。精确的高斯过程推断的计算复杂度与数据点数量呈三次方关系，即 \(O(N^3)\)。这意味着，虽然高斯过程在处理几千个观测数据时可能表现优异，但当面对现代数据集中常见的数百万个数据点时，它就会陷入停滞。几十年来，研究人员开发了各种巧妙的方法来解决这个扩展性问题。大多数解决方案可归为两类: 诱导点方法: 用一小组伪输入来概括数据集。迭代求解器，如共轭梯度法 (CG) ，它能更高效地逼近精确的高斯过程解。最近的一篇论文《使用随机梯度下降从高斯过程后验进行采样》提出了一种引人入胜的新方法:** 随机梯度下降 (SGD)** 。这听起来可能有些反直觉: SGD 是深度学习的主力军——简单、常被认为是“朴素”的——而大多数人不会选择它来解决高斯过程核心的那些精确、结构化的线性代数问题。然而，作者们表明，SGD 不仅可以用于高斯过程推断，而且还能取得顶尖水平的结果——尤其是在处理大型或病态 (ill-conditioned) 数据集时。其秘诀在于一个他们称为**良性非收敛 **(benign non-convergence) 的反直觉现象，即 SGD 不完全收敛的倾向实际上可以成为一种优势。在这篇文章中，我们将剖析他们的方法，看看他们如何调整 SGD 用于高斯过程后验采样，并理解其惊人效果背后的优美理论。高斯过程简述高斯过程是函数的分布。与拟合多项式中的权重等参数不同，高斯过程定义了一个函数上的先验，由一个均值函数 \(\mu(\cdot)\) (通常设为零) 和一个协方差函数 (核函数) \(k(\cdot, \cdot')\) 指定，后者用于衡量输入之间的相似性。给定训练输入 \(\mathbf{x}\) 和带噪声的观测值 \(\mathbf{y}\)，我们使用贝叶斯规则将这个先验更新为后验高斯过程。后验均值给我们预测值；后验协方差则量化了不确定性。在测试点 \((\cdot)\) 处的高斯过程后验均值和协方差为: \[ \mu_{f|\boldsymbol{y}}(\cdot) = \mathbf{K}_{(\cdot)\boldsymbol{x}} (\mathbf{K}_{\boldsymbol{x}\boldsymbol{x}} + \boldsymbol{\Sigma})^{-1} \boldsymbol{y} \] \[ k_{f|\boldsymbol{y}}(\cdot, \cdot') = \mathbf{K}_{(\cdot,\cdot')} - \mathbf{K}_{(\cdot)\boldsymbol{x}}(\mathbf{K}_{\boldsymbol{x}\boldsymbol{x}} + \boldsymbol{\Sigma})^{-1} \mathbf{K}_{\boldsymbol{x}(\cdot')} \]计算瓶颈在于 \((\mathbf{K}_{\boldsymbol{x}\boldsymbol{x}} + \boldsymbol{\Sigma})^{-1}\)——对这个稠密的 \(N\times N\) 矩阵求逆的成本为 \(O(N^3)\)。 ...

[Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models 🔗](https://arxiv.org/abs/2305.12827)

超越微调：深入探究任务算术与权重解耦

引言: 编辑 AI 模型的艺术像 CLIP、GPT 和 T5 这样的大型预训练模型已成为现代人工智能的支柱。它们拥有极其丰富的通用知识，但要真正发挥作用，通常需要进行一些有针对性的编辑。我们可能想教它们一项新技能，使它们与人类价值观对齐，或者让它们忘记不良行为。标准方法是 **微调 **(fine-tuning) ，即在专门的数据集上进行进一步训练。然而，微调的计算成本可能很高，并且常常伴随着一个不受欢迎的权衡: 为一个任务微调后的模型，可能会在其他任务上失去部分原有的 *零样本 *(zero-shot) 能力。于是，**任务算术 **(task arithmetic) 应运而生——这是一种出奇简单且经济高效的替代方案。你无需从头开始重新训练，而是通过直接对其权重进行算术运算来操控模型的技能。例如: 在两个任务上分别对模型进行微调。计算每个任务相对于原始预训练模型的权重 *变化 *(称为其任务向量) 。将这些任务向量加到原始权重上，从而得到一个能同时胜任这两个任务的模型。减去一个任务向量，让模型“忘记”一项技能。任务算术前景广阔，但直到最近，一个关键问题仍未得到解答:** 它为什么能起作用？** 如果没有坚实的理论基础，这感觉就像猜测——难以信任，更难以改进。最近的一篇论文《切线空间中的任务算术》 (Task Arithmetic in the Tangent Space) 深入探讨了这个问题。作者挑战了主流假设，引入了 **权重解耦 **(weight disentanglement) 的概念，并提出了一种改进方法——**线性化微调 **(linearized fine-tuning) ，使得编辑预训练模型变得更有效、更可靠。在本文中，我们将解析这项工作的主要发现: 为什么旧理论站不住脚、权重解耦的真正含义，以及在模型切线空间中进行微调如何为任务算术创造新的技术高度。背景: 任务向量与切线空间什么是任务向量？让我们从简单的概念开始。你有一个预训练模型，其初始权重为 \(\theta_0\)。你针对某个特定任务 (比如分类汽车) 对其进行微调，得到新的权重 \(\theta_{\text{cars}}^*\)。任务向量定义为: \[ \tau_{\text{cars}} = \theta_{\text{cars}}^* - \theta_0 \]这个向量编码了为该任务所获得的知识。如果你有另一个任务向量 \(\tau_{\text{flowers}}\) (用于分类花卉) ，你可以将它们组合: \[ \theta_{\text{multi-task}} = \theta_0 + \alpha_1 \tau_{\text{cars}} + \alpha_2 \tau_{\text{flowers}} \]系数 \(\alpha_1, \alpha_2\) 让你能够控制每项技能的添加程度。 ...

[Entropic Neural Optimal Transport via Diffusion Processes 🔗](https://arxiv.org/abs/2211.01156)

从薛定谔桥到神经网络：一种新的端到端熵正则化最优传输求解器

引言: 对齐复杂数据分布的挑战想象一下，你有两组图像: 一组是模糊的照片，另一组是清晰的高分辨率照片。你将如何教一个模型将任何一张模糊照片转换成逼真的清晰版本？或者考虑将夏日风景图转换为冬日雪景图。这些都是现代机器学习中根本性挑战的例子: 找到一种有意义的方式，将一个复杂的概率分布映射到另一个。最优传输 (Optimal Transport, OT) 为这项任务提供了严谨的数学框架。OT 旨在寻找从一个分布到另一个分布的最高效映射，以最小化给定的运输成本。尽管功能强大，但标准 OT 给出的映射是单一且确定的。对于像图像超分辨率这样的不适定问题，同一个低分辨率图像可能对应许多合理的高分辨率输出。我们需要的是随机映射——一对多的变换，既能生成多样化的结果，又保持真实感。熵正则化最优传输 (Entropic Optimal Transport, EOT) 通过在 OT 问题中加入随机性 (熵) 来解决这一问题，其程度由正则化参数 \( \varepsilon \) 控制。较大的 \( \varepsilon \) 会增加多样性；较小的 \( \varepsilon \) 则趋近于确定性 OT。但问题在于，小 \( \varepsilon \) 恰恰是在高质量、可控生成中最有用的区间，而大多数现有的 EOT 算法在这一情况下会变得不稳定或不可行。 NeurIPS 2023 论文 “Entropic Neural Optimal Transport via Diffusion Processes” 提出了一种名为 ENOT 的方法，它是稳健的端到端 EOT 神经求解器，即使在小 \( \varepsilon \) 情况下也能保持稳定。作者通过将 EOT 与统计物理中的薛定谔桥 (Schrödinger Bridge) 问题联系起来，重构了 EOT，并设计出一种优雅的鞍点优化方案。该方法可扩展到大规模任务，并在合成数据和大规模图像任务上取得了当前最佳表现。背景知识: OT、EOT 与薛定谔桥最优传输 —— 高效移动概率质量 OT 将从一个分布 \( \mathbb{P}_0 \) 到另一个分布 \( \mathbb{P}_1 \) 移动“物质” (概率质量) 并最小化成本的问题形式化。使用二次代价的 Kantorovich 公式如下: ...

[LightGaussian: Unbounded 3D Gaussian Compression with 15x Reduction and 200+ FPS 🔗](https://arxiv.org/abs/2311.17245)

LightGaussian：将 3D 场景压缩 15 倍，同时提升渲染速度

图 1: LightGaussian 将大规模 3D 高斯溅射场景从 782 MB 压缩到 45 MB，同时将渲染速度从 144 FPS 提升至 237 FPS，视觉保真度损失几乎不可察觉。想象一下，创建一个令人惊叹、照片般逼真的真实场景 3D 复制品，并可以实时探索。这正是*新视角合成 *(novel view synthesis) 的魅力——利用一组输入图像生成场景中未曾见过的视角。在该领域的最新突破中，**3D 高斯溅射 **(3D Gaussian Splatting, 3D-GS) 重新定义了速度与质量的平衡，使交互帧率下的场景逼真度达到令人惊叹的水平。但问题在于: 模型体积巨大。一个复杂场景的存储可以轻松超过 1GB。这种数据膨胀让存储、分享和部署变得困难——尤其是在容量或带宽有限的设备上。而管理数百万个高斯点也会拖慢渲染速度。问题是: 能否在不牺牲美感或速度的情况下为这些庞大的 3D 场景“瘦身”？来自德克萨斯大学奥斯汀分校和厦门大学的研究人员用 LightGaussian 给出了答案——这个压缩框架平均将 3D-GS 模型缩小 15 倍，同时渲染速度提升超过 60%，且质量损失几乎无法察觉。本文将剖析 LightGaussian 的奥秘: 一个巧妙的三阶段流程——剪枝、知识蒸馏和自适应量化，将臃肿的 3D 资产转化为轻量高效的强力引擎。背景: 3D 高斯溅射的兴起与“重量” 在了解 LightGaussian 之前，先看看它的基石——3D 高斯溅射。多年来，**神经辐射场 **(NeRFs) 在新视角合成上设立了标杆，借助神经网络来建模场景，画质无与伦比——但渲染速度极慢 (每帧耗时数秒) ，限制了实时应用。 ...