Papers

[VideoMamba: State Space Model for Efficient Video Understanding 🔗](https://arxiv.org/abs/2403.06977)

超越 Transformer：VideoMamba 如何解锁高效的长视频理解

视频的世界正在爆炸式增长。从社交媒体上的短视频到完整的长篇电影，我们正在生成和消费比以往任何时候都多的视频内容。对于人工智能来说，真正理解这些内容是一项艰巨的任务。一个视频可以包含海量的时空信息——从细微的手势到长达数分钟的复杂叙事。现代视频理解模型的核心挑战归结为两个相互冲突的需求: 效率 — 视频数据量庞大且通常高度冗余。模型必须在不耗尽计算资源的情况下快速处理它。全局上下文 — 视频不仅仅是孤立的帧。理解它们需要捕捉可能跨越数百或数千帧的依赖关系。历史性的权衡多年来，两大模型家族一直占据主导地位: 3D 卷积神经网络 (CNNs): 擅长捕捉局部的时空模式，但在处理长程依赖方面表现不佳。视频 Transformer: 其自注意力机制让它们能够将每一帧与所有其他帧联系起来——非常适合长程依赖。但缺点是，注意力的二次方复杂度使其在处理长且高分辨率的视频时，速度慢得令人痛苦，且极其消耗内存。这种权衡留下了一个空白: 我们需要一个像 CNN 一样高效，但又像 Transformer 一样具有全局感知能力的模型。状态空间模型 (SSM) 应运而生——这是一个源自控制理论的思想。最近，一个名为 Mamba 的突破性模型表明，SSM 能够以线性复杂度对长序列进行建模，其效果可与 Transformer 媲美，而成本仅为其一小部分。这引出了一个诱人的问题:** Mamba 能否用于视频理解？** 一篇新论文——VideoMamba: 用于高效视频理解的状态空间模型——给出了一个响亮的肯定回答。研究人员推出了 VideoMamba，一个纯粹基于 SSM 的架构，它重新定义了实用视频分析领域的最新技术水平。正如你将看到的，这不仅仅是一次渐进式的改进——它是我们思考长视频任务方式的一次根本性转变。图 1: TimeSformer 与 VideoMamba 的吞吐量和内存比较。对于长视频序列，VideoMamba 的速度可达 6 倍，使用的 GPU 内存可减少 40 倍。理解状态空间模型 (SSMs) SSM 通过维护一个隐藏状态来对序列进行建模——这个隐藏状态本质上是对迄今为止所见内容的紧凑总结——并逐步更新它。其连续形式为: \[ h'(t) = \mathbf{A} h(t) + \mathbf{B} x(t) \] ...

[Hungry Hungry Hippos: Towards Language Modeling with State Space Models 🔗](https://arxiv.org/abs/2212.14052)

Pile 数据集上的饿饿河马：Transformer 王座的新挑战者

在过去几年里，Transformer 架构一直是语言建模领域无可争议的王者。从 GPT-3 到 PaLM，大规模 Transformer 模型重新定义了业界的顶尖水平。但这种强大力量是有代价的: 作为 Transformer 核心的注意力机制，其计算和内存开销随序列长度呈二次方增长。处理一个两倍长的序列需要四倍的计算和内存。这使得处理超长文档、代码库或音频文件成为一项重大挑战。有没有另一种方式？一种架构，其扩展性几乎与序列长度呈线性关系——在处理长序列时极为高效——同时仍然能匹敌注意力机制的建模能力？状态空间模型 (SSM) 登场了。SSM 在音频生成和时间序列分析等领域表现出色，但在复杂的语言领域一直落于 Transformer 之后。斯坦福大学的一篇新论文《饿饿河马: 迈向基于状态空间模型的语言建模》(Hungry Hungry Hippos: Towards Language Modeling with State Space Models) 深入剖析了这一性能差距，诊断了其根本原因，并提出了一种新颖架构，不仅弥补了差距，在某些情况下甚至超越 Transformer。这篇论文做出了两大贡献: H3 (Hungry Hungry Hippo): 一个基于 SSM 的新网络层，旨在解决以往 SSM 在语言任务中的特定短板。 FLASHCONV: 一种硬件感知的算法，使 SSM 的训练和运行速度显著提升，克服了长期以来阻碍其发展的效率瓶颈。让我们深入了解，看看这些饿饿河马是如何挑战 Transformer 的统治地位的。背景: 什么是状态空间模型？在介绍河马之前，我们需要了解状态空间模型的基本原理。SSM 源于控制理论，是用于对随时间演变的系统进行建模的强大工具。离散时间 SSM 的核心，是通过一个隐藏的“状态”向量 \(x_i\)，将输入序列 \(u_1, u_2, \ldots\) 映射到输出序列 \(y_1, y_2, \ldots\)。状态是序列历史到当前时刻的压缩摘要。该过程由两个简单的线性方程控制: 一个离散时间 SSM: 隐藏状态 \(x_i\) 使用当前输入 \(u_i\) 从 \(x_{i-1}\) 更新而来，输出 \(y_i\) 则由该状态计算得出。矩阵 A、B、C 和 D 是通过学习得到的。 ...

[LocalMamba: Visual State Space Model with Windowed Selective Scan 🔗](https://arxiv.org/abs/2403.09338)

超越 Transformer：LocalMamba 如何释放状态空间模型在视觉领域的潜力

多年来，计算机视觉领域一直由两大架构巨头主导:** 卷积神经网络 (CNNs)** 和视觉 Transformer (ViTs)。CNN 通过滑动卷积核擅长捕捉局部特征，而 ViT 则利用自注意力机制来建模整个图像的全局关系。现在，一个新的竞争者从序列建模的世界中脱颖而出:** 状态空间模型 (SSM)**，特别是其现代高性能变体 Mamba。 Mamba 在处理如文本和基因组学等长一维序列方面展现了非凡的能力，提供了线性时间复杂度和令人印象深刻的性能。研究人员自然希望将其优势引入视觉任务中。然而，尽管 Vision Mamba (Vim) 和 VMamba 等早期尝试很有前景，但它们并未决定性地超越 CNN 和 ViT。这就提出了一个关键问题: 为什么一个在 1D 数据上如此强大的模型，在 2D 图像上却难以发挥其全部潜力？最近的一篇论文《LocalMamba: Visual State Space Model with Windowed Selective Scan》指出，答案不在于模型本身，而在于我们如何向其输入视觉信息。核心挑战在于一种不匹配: 图像是具有强局部相关性的二维像素网格，而 Mamba 是一个一维序列处理器。将图像展平为一个长序列会破坏这些至关重要的局部关系。 LocalMamba 引入了一个巧妙的修正方法: 窗口化选择性扫描，保留局部二维依赖关系。为每一层自动搜索最佳扫描模式。这不仅仅是一项渐进式的改进——它从根本上重新思考了 SSM 应该如何看待图像，从而在分类、检测和分割任务中取得了显著的进步。路线图在本文中，我们将探讨: 状态空间模型的基础知识及其效率。将 1D 序列模型应用于 2D 图像的核心问题。 LocalMamba 的优雅解决方案: 局部扫描 + 自动化方向搜索。证明该方法是视觉 SSM 迈出的重要一步的实验结果。背景: 从卷积到状态空间状态空间模型 (SSM) 简介状态空间模型源于控制理论，后被应用于深度学习中进行序列建模。它们通过一个中间的潜在状态来描述序列的演变: ...

[Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers 🔗](https://arxiv.org/abs/2110.13985)

序列模型的瑞士军刀：深入探究线性状态空间层

循环神经网络 (RNN) 、卷积神经网络 (CNN) 和 Transformer 已经彻底改变了我们处理文本、音频和时间序列等序列数据的方式。每种范式都很强大，但也都有其自身的局限性: RNN 在推理时效率很高，但在长序列上训练缓慢，并且存在梯度消失问题。 CNN 可以并行训练，速度快，但它们在固定感受野之外表现不佳，且推理成本高。 Transformer 能够捕捉全局上下文，但其内存和计算量会随序列长度呈二次方增长。如果我们能将这些方法的优点结合起来会怎样？想象一个具有以下特性的模型: CNN 的可并行化训练速度。 RNN 的快速且有状态的推理能力。神经微分方程 (NDE) 的连续时间灵活性。这正是斯坦福大学和布法罗大学研究人员在 2021 年一篇论文中的宏伟目标。他们提出了线性状态空间层 (Linear State-Space Layer, LSSL) ——一个看似简单却功能强大的构建模块，结合了上述三种视角。本文将剖析 LSSL 的特别之处、工作原理，以及它为何能在长达数万步的序列上取得顶尖 (state-of-the-art) 的成果。长序列的问题无论是预测医疗传感器数据、分类语音，还是解读视频，序列模型都必须捕捉跨越多个时间步的依赖关系。在长序列下，主流方法各自面临不同的瓶颈: RNN: 像 LSTM 和 GRU 这样的模型按步处理序列，并维护一个隐藏状态。虽然每步的内存和推理成本是常数级的，但它们训练缓慢且无法并行，长期依赖的梯度容易消失。 CNN: 时间卷积网络可并行应用滤波器，从而加快训练。然而固定的卷积核限制了上下文范围，并且在推理阶段需重新处理大量数据。 NDE: 这类模型将隐藏状态建模为连续时间函数，可处理不规则采样，并支持有理论基础的数学建模。但数值求解代价昂贵。理想的模型应能结合并行训练、高效的循环推理以及连续时间的适应性——且不过丢长依赖的建模能力。LSSL 的目标正是如此。背景: 状态空间与连续时间记忆理解 LSSL 需要掌握两方面的理论:** 线性状态空间模型**以及 HiPPO 连续时间记忆。状态空间模型: 源自控制理论的理念状态空间模型不是直接将输入映射到输出，而是通过一个隐藏状态向量 \( x(t) \) 传递信息。其动态公式如下: 连续时间状态空间表示。 \(u(t)\) 是输入，\(x(t)\) 是内部状态，\(y(t)\) 是输出。矩阵 A、B、C、D 定义了系统动态。 ...

[On the Parameterization and Initialization of Diagonal State Space Models 🔗](https://arxiv.org/abs/2206.11893)

更简单的 S4：对角状态空间模型（S4D）如何以更低复杂度实现同等性能

引言: 高效序列模型的探索之路对长序列数据 (无论是音频波形、医学信号、文本，还是展平的图像) 进行建模，是机器学习领域的一项基础性挑战。多年来，循环神经网络 (RNNs) 和卷积神经网络 (CNNs) 一直是标准工具。近年来，Transformer 异军突起，取得了惊人的成果。但所有这些模型在应对超长序列时都面临各种权衡。这时，状态空间模型 (SSMs) 登场了。一种名为 **S4 **(Structured State Space for Sequences，结构化状态空间序列) 的新架构，凭借强大的长程记忆能力，在多项任务中超越了以往方法。S4 建立在经典控制理论坚实的数学基础上，通过一个名为 HiPPO 矩阵的特殊状态矩阵，高效建模连续信号——这是专为长时间保留信息而设计的数学构造。然而问题在于: HiPPO 矩阵非常复杂。为了在深度学习中使用它，S4 采用了对角加低秩 (DPLR) 结构。这种表示方法虽然强大，但也使得 S4 更难理解、实现和定制——有时甚至像一个上锁的黑盒。于是我们会问: 能不能简化它？如果直接用一个纯粹的对角状态矩阵，会发生什么？这样数学和代码都会变得极其简单。早期的简化尝试导致性能显著下降。然而，最近的 DSS 模型显示，一个特定的对角矩阵——直接源自 S4 自身的 HiPPO 结构——竟然能有惊人的表现。这正是论文《关于对角状态空间模型的参数化与初始化》的切入点。研究者系统探索了如何构建、参数化并初始化这种更简单的对角 SSM，并推出了 S4D (“S4 on Diagonals”，基于对角矩阵的 S4) ——一个将对角状态矩阵的简单性与 S4 的原则性设计相融合的模型。最终，他们构建出这样一个模型: 简单: 其卷积核计算只需两行代码即可实现。有理论支撑: 首次给出了对角方法为何有效的理论解释。强大: S4D 在图像、音频、医疗时间序列等任务上与原始 S4 性能相当，并在挑战性的 Long Range Arena 基准中取得 85% 平均准确率。让我们深入看看他们是如何做到的。 ...

[Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 🔗](https://arxiv.org/abs/2401.09417)

Vision Mamba：Transformer 在计算机视觉领域的新挑战者？

在过去几年里，视觉 Transformer (ViT) 一直主导着计算机视觉领域。通过将图像视为图像块序列并应用自注意力机制，这些模型在图像分类、目标检测和语义分割方面树立了新的标杆。然而，这种强大的能力是以高昂的计算成本为代价的。 Transformer 核心的自注意力机制存在二次方复杂度的问题。简单来说，如果你将图像块的数量增加一倍 (例如，通过提高分辨率) ，计算量和内存需求不仅仅是翻倍，而是翻四倍。这使得高分辨率图像处理变得缓慢、消耗大量内存，并且在没有专用硬件或繁琐架构优化的情况下往往难以实现。但如果我们能在保留 Transformer 的全局上下文感知能力的同时，又避免二次方复杂度的瓶颈，那会怎样呢？这个问题引导研究人员探索替代方案。一个很有前途的候选方案来自一个意想不到的领域:** 经典控制理论**。状态空间模型 (SSM) 就此登场，以及其最新的强大化身——Mamba。在自然语言处理领域，Mamba 凭借其随序列长度线性扩展的能力，已经达到了甚至在某些情况下超越了 Transformer 的水平。一篇新论文《Vision Mamba: 基于双向状态空间模型的高效视觉表示学习》迈出了合乎逻辑的下一步: 将 Mamba 应用于计算机视觉。所提出的 Vision Mamba (Vim) 骨干网络使用 SSM 处理图像，达到了 Transformer 级别的性能——甚至更好——同时效率显著提高。图 1: Vim 与 DeiT 视觉 Transformer 的正面对比。Vim 在各项任务的准确率上持续优于 DeiT，同时在速度和内存效率方面表现更佳，尤其是在高分辨率下。在本文中，我们将深入解读 Vision Mamba 这篇论文，介绍状态空间模型的基础知识，了解作者如何将其应用于视觉领域，并审视这些可能预示着计算机视觉骨干网络设计转变的惊人成果。从 Transformer 到状态空间模型为了理解 Vim 的影响力，让我们从它要解决的问题开始。视觉 Transformer (ViT) 的工作方式是将图像切成多个图像块 (例如 16×16 像素) ，将它们展平为向量，并将这些向量视为一个序列——类似于句子中的单词。自注意力机制会计算每对图像块之间的相互作用，使模型能够捕捉全局上下文。例如，猫耳朵的一个图像块可以“关注”到它尾巴的一个图像块，无论它们之间的空间距离有多远。缺点是: 计算长度为 N 的序列中每对元素的相互作用会导致 O(N²) 的复杂度。 ...

[Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 🔗](https://arxiv.org/abs/2405.21060)

Mamba‑2 解析：连接状态空间模型与注意力机制的对偶性

Transformer 在许多序列建模任务中占据主导地位，但其核心的自注意力机制在计算上与上下文长度成二次方关系。这种设计选择使得处理超长上下文在计算和内存方面代价高昂。与此同时，以 S4 和 Mamba 为代表的结构化状态空间模型 (SSM) 在序列长度上实现了线性扩展，并在自回归生成中保持恒定的状态维度。两种模型体系在发展过程中几乎沿着完全独立的路径成熟: 数学理论不同，优化方法不同，工程权衡也不同。论文《Transformers 是 SSMs》在这两种范式之间架起了桥梁，并基于这种联系设计出一种更快、更加硬件友好的 SSM 变体: Mamba-2。核心洞见是，在以下三者之间存在原则性的对应关系: (i) SSM、(ii) 一类称为结构化掩码注意力 (SMA) 的广义注意力机制家族、(iii) 一类被称为半可分矩阵的经典结构化矩阵。这种“结构化状态空间对偶性” (SSD) 框架产生了既能兼具 SSM 递推的渐近效率，又能享受密集矩阵乘法硬件友好性的算法。本文将逐步介绍主要思想，展示这种对偶性的来源，并解释驱动 Mamba-2 的 SSD 算法。在此过程中，我会引用论文中的图示使概念更直观。图 1: 高层路线图。结构化矩阵在状态空间模型 (SSM) 与注意力机制之间架起桥梁，形成结构化状态空间对偶性 (SSD) 框架，催生 Mamba-2 架构。本文的整体安排: 以能够显现联系的方式重温 SSM 与注意力机制。介绍半可分矩阵，并展示 SSM 如何映射到结构化矩阵。将线性注意力推广为结构化掩码注意力 (SMA) 。阐述对偶性: 特定 SSM ↔ 特定 SMA。解释混合型 SSD 算法 (分块分解) ，既在线性序列长度上工作，又对矩阵乘法友好。介绍 Mamba-2 的架构设计、系统优化以及实验证据。 1 — 技术速览 1.1 什么是结构化 SSM？结构化状态空间模型 (SSM) 是一种线性递推，更新内部状态并输出结果。在离散时间下，一个选择性 (时变) SSM可以写成: ...

[VMamba: Visual State Space Model 🔗](https://arxiv.org/abs/2401.10166)

VMamba：计算机视觉领域 CNN 与 Transformer 的新挑战者

在过去十年中，计算机视觉领域一直由两大架构巨头主导:** 卷积神经网络 (CNN)**，以及近来兴起的视觉 Transformer (ViT)。CNN 以其高效性和对局部模式的强大归纳偏置而著称，而 ViT 则凭借自注意力机制，在捕捉图像全局关系方面表现出色。然而，这种强大的能力是有代价的——自注意力机制的**复杂度与图像块数量呈二次关系 **(\(O(N^2)\)) ，这使得 ViT 的计算成本高昂且运行缓慢，尤其是在目标检测和分割等任务中常见的高分辨率图像场景下。如果存在第三种途径呢？一种既具备 Transformer 的全局上下文建模能力，又拥有 CNN 的线性时间高效性的架构？自然语言处理 (NLP) 领域的研究人员一直在探索一种新的模型类别——状态空间模型 (SSM)。其中，近期最具潜力的进展之一是 Mamba，它在长序列语言任务中表现卓越，同时保持了线性复杂度。受 Mamba 突破性成果的启发，论文《VMamba: Visual State Space Model》将这种强大的 NLP 架构迁移到计算机视觉领域。研究人员提出了 VMamba，一种旨在融合两者优势的新型视觉骨干网络: 像 Transformer 一样具备全局感受野和动态、内容感知的权重。像 CNN 一样具有高效率和良好可扩展性。本文将深入解析 VMamba 的工作原理，剖析其核心理念、创新架构以及令人印象深刻的基准测试成果。背景: 从卷积到状态空间要理解 VMamba 的创新意义，首先需要回顾当前视觉模型的格局，并简介状态空间的概念。 CNN 与 Vision Transformer **CNN **(如 ResNet、ConvNeXt) 通过在整幅图像上应用可学习滤波器 (卷积核) 构建分层特征表示。它们能高效捕捉边缘、纹理等局部特征，但需要依赖多层堆叠来实现长程依赖建模。 ViT 将图像视作一系列图像块，并采用自注意力机制，使所有图像块从第一层开始即可直接交互。这带来了全局感受野，但其二次方的计算复杂度对大尺寸图像而言十分昂贵。图 1: 自注意力机制 (a) 在所有图像块之间建立全连接，实现了全局上下文但计算成本高昂。SS2D (b) 则通过结构化扫描路径连接图像块，更高效地实现全局覆盖。 ...

从原子到应用：深入解析一款全功能二维闪存芯片

引言: 一场蓄势待发的纳米级革命十多年来，石墨烯和二硫化钼 (MoS₂) 等二维 (2D) 材料一直是材料科学领域的超级明星。这些原子尺度的薄片比人类 DNA 单链还要薄，却拥有非凡的电子特性，有望彻底改变计算领域——从超高速晶体管到超高效存储器。它们为延续摩尔定律的惊人进步提供了一条潜在路径，突破硅的物理极限。但这其中有一个难题。尽管这些材料在研究实验室的纯净、受控环境中表现出色，但要将它们应用到商业芯片制造这个复杂而混乱的世界中，却面临巨大挑战。制造一个完美的二维晶体管是一回事；而将成千上万个这样的晶体管集成到一块标准硅芯片上，并让它们全部可靠地协同工作，则完全是另一回事。这就是臭名昭著的 *实验室到工厂 *(lab-to-fab) 鸿沟——一道让许多突破性技术无法走向现实世界的深谷。最近发表在《Nature》杂志上的一篇论文直面了这个问题。研究人员开发了一个名为 ATOM2CHIP 的综合蓝图——一个完整的策略，用于弥合从单个原子器件概念到功能齐全的封装芯片之间的差距。利用这一蓝图，他们成功构建了一款 1-Kb 的二维 NOR 闪存芯片，展示了一条将二维电子学优势整合到实用、系统级应用中的可行途径。这项工作不仅仅是一次渐进式的改进，更是一份为电子学未来绘制的详细路线图。巨大的集成挑战: 当两个世界碰撞要理解这项成就的重大意义，我们首先需要明白，为什么将二维材料与传统的硅 CMOS (互补金属氧化物半导体) 技术集成如此困难。这几乎在每一个层面都存在不匹配。 1. 物理上的不匹配: 一块标准的 CMOS 晶圆，即使经过抛光，在原子尺度上依然崎岖不平。由于底层密集的电路，其表面粗糙度为 1–2 纳米。现在，想象一下试图将一张完美的、单原子厚度的 MoS₂ 薄片 (厚度小于 1 纳米) 铺在这片凹凸不平的表面上。二维材料会被拉伸、褶皱并产生应力——导致不可预测的电学行为和高器件失效率。 2. 电学上的不匹配: 二维器件的运行规则通常与硅不同。例如，本研究中的二维闪存芯片在执行某些操作时需要负电压。在标准 CMOS 电路上施加负电压可能触发寄生 PN 结，导致巨大的电流泄漏，并可能烧毁芯片——这种现象被称为闩锁效应。 3. 封装上的难题: 芯片封装——将硅裸片置于带有引脚的保护外壳中以连接外部世界——是一个相当“粗暴”的过程。它涉及高温、机械压力以及静电放电 (ESD) 风险。对于坚固的硅，这些都是常规操作；但对于脆弱的原子级薄材料来说，这可能是“致命”的。解决这些问题需要的不仅仅是更好的二维晶体管，而是一种从根本上重新设计制造与集成流程的整体方法。这正是 ATOM2CHIP 蓝图所提供的。 ATOM2CHIP 蓝图: 两大支柱策略研究人员的 ATOM2CHIP 技术是系统集成的典范，建立在两大核心支柱之上: 全栈片上工艺，解决物理制造挑战。跨平台系统设计，解决电学与逻辑兼容性问题。 ...

噪声的力量：去噪自编码器如何学习鲁棒特征

深度神经网络已成为现代人工智能的基石，在图像识别、自然语言处理等领域取得了卓越的成就。但在它们占据主导地位之前，曾有一个巨大的障碍: 训练它们极其困难。网络越深，就越难让它学到任何有用的东西。2000 年代中期，一个关键的突破随之而来，那就是无监督预训练思想的提出，这是一种在对特定任务进行微调之前，逐层初始化深度网络的方法。这项技术引出了一个根本性的问题: 在无监督阶段，网络学习到的“好”表示应具备什么特征？正如 Pascal Vincent、Hugo Larochelle、Yoshua Bengio 和 Pierre-Antoine Manzagol 在 2008 年一篇开创性论文中所提出的，答案出人意料地简单而优雅。他们假设，一个好的表示应该具备鲁棒性——即使输入数据部分损坏或缺失，也能够捕捉其本质。为此，他们在一种经典的神经网络模型上加入了新思路，创造了去噪自编码器。本文将深入探讨他们的工作，揭示添加噪声的这个简单想法如何引出强大的特征学习、更佳的模型性能，以及对机器“学习”含义的更深刻理解。背景: 标准自编码器在理解“去噪”部分之前，需要先了解基本的自编码器。自编码器是一种神经网络，它被训练来执行一个看似平淡无奇的任务: 重构其输入本身。这听起来似乎无关紧要，但关键在于中间环节的表示学习。一个自编码器由两部分组成: 编码器 (Encoder) : 接收一个输入向量 \(\mathbf{x}\)，并将其映射到一个压缩的隐藏表示 \(\mathbf{y}\)，通常使用如下映射: \[ \mathbf{y} = f_{\theta}(\mathbf{x}) = s(\mathbf{W}\mathbf{x} + \mathbf{b}) \] 其中 \(s\) 是一个激活函数，例如 sigmoid 函数。解码器 (Decoder) : 接收隐藏表示 \(\mathbf{y}\)，并将其映射回原始输入空间，得到重构向量 \(\mathbf{z}\)。目标是让 \(\mathbf{z}\) 尽可能接近 \(\mathbf{x}\)。网络通过最小化一个重构损失来进行训练，该损失衡量输入 \(\mathbf{x}\) 与输出 \(\mathbf{z}\) 之间的差异: 图: 基本自编码器的重构损失目标。对于取值在 0 到 1 之间的二进制或实值输入，常用的选择是重构交叉熵: ...