[VideoMamba: State Space Model for Efficient Video Understanding 🔗](https://arxiv.org/abs/2403.06977)

超越 Transformer:VideoMamba 如何解锁高效的长视频理解

视频的世界正在爆炸式增长。从社交媒体上的短视频到完整的长篇电影,我们正在生成和消费比以往任何时候都多的视频内容。对于人工智能来说,真正理解这些内容是一项艰巨的任务。一个视频可以包含海量的时空信息——从细微的手势到长达数分钟的复杂叙事。 现代视频理解模型的核心挑战归结为两个相互冲突的需求: 效率 — 视频数据量庞大且通常高度冗余。模型必须在不耗尽计算资源的情况下快速处理它。 全局上下文 — 视频不仅仅是孤立的帧。理解它们需要捕捉可能跨越数百或数千帧的依赖关系。 历史性的权衡 多年来,两大模型家族一直占据主导地位: 3D 卷积神经网络 (CNNs): 擅长捕捉局部的时空模式,但在处理长程依赖方面表现不佳。 视频 Transformer: 其自注意力机制让它们能够将每一帧与所有其他帧联系起来——非常适合长程依赖。但缺点是,注意力的二次方复杂度使其在处理长且高分辨率的视频时,速度慢得令人痛苦,且极其消耗内存。 这种权衡留下了一个空白: 我们需要一个像 CNN 一样高效,但又像 Transformer 一样具有全局感知能力的模型。 状态空间模型 (SSM) 应运而生——这是一个源自控制理论的思想。最近,一个名为 Mamba 的突破性模型表明,SSM 能够以线性复杂度对长序列进行建模,其效果可与 Transformer 媲美,而成本仅为其一小部分。这引出了一个诱人的问题:** Mamba 能否用于视频理解?** 一篇新论文——VideoMamba: 用于高效视频理解的状态空间模型——给出了一个响亮的肯定回答。研究人员推出了 VideoMamba,一个纯粹基于 SSM 的架构,它重新定义了实用视频分析领域的最新技术水平。正如你将看到的,这不仅仅是一次渐进式的改进——它是我们思考长视频任务方式的一次根本性转变。 图 1: TimeSformer 与 VideoMamba 的吞吐量和内存比较。对于长视频序列,VideoMamba 的速度可达 6 倍,使用的 GPU 内存可减少 40 倍。 理解状态空间模型 (SSMs) SSM 通过维护一个隐藏状态来对序列进行建模——这个隐藏状态本质上是对迄今为止所见内容的紧凑总结——并逐步更新它。其连续形式为: \[ h'(t) = \mathbf{A} h(t) + \mathbf{B} x(t) \] ...

2024-03
[Hungry Hungry Hippos: Towards Language Modeling with State Space Models 🔗](https://arxiv.org/abs/2212.14052)

Pile 数据集上的饿饿河马:Transformer 王座的新挑战者

在过去几年里,Transformer 架构一直是语言建模领域无可争议的王者。从 GPT-3 到 PaLM,大规模 Transformer 模型重新定义了业界的顶尖水平。但这种强大力量是有代价的: 作为 Transformer 核心的注意力机制,其计算和内存开销随序列长度呈二次方增长。处理一个两倍长的序列需要四倍的计算和内存。这使得处理超长文档、代码库或音频文件成为一项重大挑战。 有没有另一种方式?一种架构,其扩展性几乎与序列长度呈线性关系——在处理长序列时极为高效——同时仍然能匹敌注意力机制的建模能力? 状态空间模型 (SSM) 登场了。SSM 在音频生成和时间序列分析等领域表现出色,但在复杂的语言领域一直落于 Transformer 之后。斯坦福大学的一篇新论文《饿饿河马: 迈向基于状态空间模型的语言建模》(Hungry Hungry Hippos: Towards Language Modeling with State Space Models) 深入剖析了这一性能差距,诊断了其根本原因,并提出了一种新颖架构,不仅弥补了差距,在某些情况下甚至超越 Transformer。 这篇论文做出了两大贡献: H3 (Hungry Hungry Hippo): 一个基于 SSM 的新网络层,旨在解决以往 SSM 在语言任务中的特定短板。 FLASHCONV: 一种硬件感知的算法,使 SSM 的训练和运行速度显著提升,克服了长期以来阻碍其发展的效率瓶颈。 让我们深入了解,看看这些饿饿河马是如何挑战 Transformer 的统治地位的。 背景: 什么是状态空间模型? 在介绍河马之前,我们需要了解状态空间模型的基本原理。SSM 源于控制理论,是用于对随时间演变的系统进行建模的强大工具。 离散时间 SSM 的核心,是通过一个隐藏的“状态”向量 \(x_i\),将输入序列 \(u_1, u_2, \ldots\) 映射到输出序列 \(y_1, y_2, \ldots\)。状态是序列历史到当前时刻的压缩摘要。该过程由两个简单的线性方程控制: 一个离散时间 SSM: 隐藏状态 \(x_i\) 使用当前输入 \(u_i\) 从 \(x_{i-1}\) 更新而来,输出 \(y_i\) 则由该状态计算得出。矩阵 A、B、C 和 D 是通过学习得到的。 ...

2022-12
[LocalMamba: Visual State Space Model with Windowed Selective Scan 🔗](https://arxiv.org/abs/2403.09338)

超越 Transformer:LocalMamba 如何释放状态空间模型在视觉领域的潜力

多年来,计算机视觉领域一直由两大架构巨头主导:** 卷积神经网络 (CNNs)** 和 视觉 Transformer (ViTs)。CNN 通过滑动卷积核擅长捕捉局部特征,而 ViT 则利用自注意力机制来建模整个图像的全局关系。 现在,一个新的竞争者从序列建模的世界中脱颖而出:** 状态空间模型 (SSM)**,特别是其现代高性能变体 Mamba。 Mamba 在处理如文本和基因组学等长一维序列方面展现了非凡的能力,提供了线性时间复杂度和令人印象深刻的性能。研究人员自然希望将其优势引入视觉任务中。然而,尽管 Vision Mamba (Vim) 和 VMamba 等早期尝试很有前景,但它们并未决定性地超越 CNN 和 ViT。这就提出了一个关键问题: 为什么一个在 1D 数据上如此强大的模型,在 2D 图像上却难以发挥其全部潜力? 最近的一篇论文《LocalMamba: Visual State Space Model with Windowed Selective Scan》指出,答案不在于模型本身,而在于我们如何向其输入视觉信息。核心挑战在于一种不匹配: 图像是具有强局部相关性的二维像素网格,而 Mamba 是一个一维序列处理器。将图像展平为一个长序列会破坏这些至关重要的局部关系。 LocalMamba 引入了一个巧妙的修正方法: 窗口化选择性扫描,保留局部二维依赖关系。 为每一层自动搜索最佳扫描模式。 这不仅仅是一项渐进式的改进——它从根本上重新思考了 SSM 应该如何看待图像,从而在分类、检测和分割任务中取得了显著的进步。 路线图 在本文中,我们将探讨: 状态空间模型的基础知识及其效率。 将 1D 序列模型应用于 2D 图像的核心问题。 LocalMamba 的优雅解决方案: 局部扫描 + 自动化方向搜索。 证明该方法是视觉 SSM 迈出的重要一步的实验结果。 背景: 从卷积到状态空间 状态空间模型 (SSM) 简介 状态空间模型源于控制理论,后被应用于深度学习中进行序列建模。它们通过一个中间的潜在状态来描述序列的演变: ...

2024-03
[Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers 🔗](https://arxiv.org/abs/2110.13985)

序列模型的瑞士军刀:深入探究线性状态空间层

循环神经网络 (RNN) 、卷积神经网络 (CNN) 和 Transformer 已经彻底改变了我们处理文本、音频和时间序列等序列数据的方式。每种范式都很强大,但也都有其自身的局限性: RNN 在推理时效率很高,但在长序列上训练缓慢,并且存在梯度消失问题。 CNN 可以并行训练,速度快,但它们在固定感受野之外表现不佳,且推理成本高。 Transformer 能够捕捉全局上下文,但其内存和计算量会随序列长度呈二次方增长。 如果我们能将这些方法的优点结合起来会怎样?想象一个具有以下特性的模型: CNN 的可并行化训练速度。 RNN 的快速且有状态的推理能力。 神经微分方程 (NDE) 的连续时间灵活性。 这正是斯坦福大学和布法罗大学研究人员在 2021 年一篇论文中的宏伟目标。他们提出了线性状态空间层 (Linear State-Space Layer, LSSL) ——一个看似简单却功能强大的构建模块,结合了上述三种视角。本文将剖析 LSSL 的特别之处、工作原理,以及它为何能在长达数万步的序列上取得顶尖 (state-of-the-art) 的成果。 长序列的问题 无论是预测医疗传感器数据、分类语音,还是解读视频,序列模型都必须捕捉跨越多个时间步的依赖关系。在长序列下,主流方法各自面临不同的瓶颈: RNN: 像 LSTM 和 GRU 这样的模型按步处理序列,并维护一个隐藏状态。虽然每步的内存和推理成本是常数级的,但它们训练缓慢且无法并行,长期依赖的梯度容易消失。 CNN: 时间卷积网络可并行应用滤波器,从而加快训练。然而固定的卷积核限制了上下文范围,并且在推理阶段需重新处理大量数据。 NDE: 这类模型将隐藏状态建模为连续时间函数,可处理不规则采样,并支持有理论基础的数学建模。但数值求解代价昂贵。 理想的模型应能结合并行训练、高效的循环推理以及连续时间的适应性——且不过丢长依赖的建模能力。LSSL 的目标正是如此。 背景: 状态空间与连续时间记忆 理解 LSSL 需要掌握两方面的理论:** 线性状态空间模型**以及 HiPPO 连续时间记忆。 状态空间模型: 源自控制理论的理念 状态空间模型不是直接将输入映射到输出,而是通过一个隐藏状态向量 \( x(t) \) 传递信息。其动态公式如下: 连续时间状态空间表示。 \(u(t)\) 是输入,\(x(t)\) 是内部状态,\(y(t)\) 是输出。矩阵 A、B、C、D 定义了系统动态。 ...

2021-10
[On the Parameterization and Initialization of Diagonal State Space Models 🔗](https://arxiv.org/abs/2206.11893)

更简单的 S4:对角状态空间模型(S4D)如何以更低复杂度实现同等性能

引言: 高效序列模型的探索之路 对长序列数据 (无论是音频波形、医学信号、文本,还是展平的图像) 进行建模,是机器学习领域的一项基础性挑战。多年来,循环神经网络 (RNNs) 和卷积神经网络 (CNNs) 一直是标准工具。近年来,Transformer 异军突起,取得了惊人的成果。但所有这些模型在应对超长序列时都面临各种权衡。 这时,状态空间模型 (SSMs) 登场了。一种名为 **S4 **(Structured State Space for Sequences,结构化状态空间序列) 的新架构,凭借强大的长程记忆能力,在多项任务中超越了以往方法。S4 建立在经典控制理论坚实的数学基础上,通过一个名为 HiPPO 矩阵的特殊状态矩阵,高效建模连续信号——这是专为长时间保留信息而设计的数学构造。 然而问题在于: HiPPO 矩阵非常复杂。为了在深度学习中使用它,S4 采用了对角加低秩 (DPLR) 结构。这种表示方法虽然强大,但也使得 S4 更难理解、实现和定制——有时甚至像一个上锁的黑盒。 于是我们会问: 能不能简化它?如果直接用一个纯粹的对角状态矩阵,会发生什么?这样数学和代码都会变得极其简单。早期的简化尝试导致性能显著下降。然而,最近的 DSS 模型显示,一个特定的对角矩阵——直接源自 S4 自身的 HiPPO 结构——竟然能有惊人的表现。 这正是论文 《关于对角状态空间模型的参数化与初始化》 的切入点。研究者系统探索了如何构建、参数化并初始化这种更简单的对角 SSM,并推出了 S4D (“S4 on Diagonals”,基于对角矩阵的 S4) ——一个将对角状态矩阵的简单性与 S4 的原则性设计相融合的模型。 最终,他们构建出这样一个模型: 简单: 其卷积核计算只需两行代码即可实现。 有理论支撑: 首次给出了对角方法为何有效的理论解释。 强大: S4D 在图像、音频、医疗时间序列等任务上与原始 S4 性能相当,并在挑战性的 Long Range Arena 基准中取得 85% 平均准确率。 让我们深入看看他们是如何做到的。 ...

2022-06
[Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 🔗](https://arxiv.org/abs/2401.09417)

Vision Mamba:Transformer 在计算机视觉领域的新挑战者?

在过去几年里,视觉 Transformer (ViT) 一直主导着计算机视觉领域。通过将图像视为图像块序列并应用自注意力机制,这些模型在图像分类、目标检测和语义分割方面树立了新的标杆。然而,这种强大的能力是以高昂的计算成本为代价的。 Transformer 核心的自注意力机制存在二次方复杂度的问题。简单来说,如果你将图像块的数量增加一倍 (例如,通过提高分辨率) ,计算量和内存需求不仅仅是翻倍,而是翻四倍。这使得高分辨率图像处理变得缓慢、消耗大量内存,并且在没有专用硬件或繁琐架构优化的情况下往往难以实现。 但如果我们能在保留 Transformer 的全局上下文感知能力的同时,又避免二次方复杂度的瓶颈,那会怎样呢?这个问题引导研究人员探索替代方案。一个很有前途的候选方案来自一个意想不到的领域:** 经典控制理论**。状态空间模型 (SSM) 就此登场,以及其最新的强大化身——Mamba。在自然语言处理领域,Mamba 凭借其随序列长度线性扩展的能力,已经达到了甚至在某些情况下超越了 Transformer 的水平。 一篇新论文《Vision Mamba: 基于双向状态空间模型的高效视觉表示学习》迈出了合乎逻辑的下一步: 将 Mamba 应用于计算机视觉。所提出的 Vision Mamba (Vim) 骨干网络使用 SSM 处理图像,达到了 Transformer 级别的性能——甚至更好——同时效率显著提高。 图 1: Vim 与 DeiT 视觉 Transformer 的正面对比。Vim 在各项任务的准确率上持续优于 DeiT,同时在速度和内存效率方面表现更佳,尤其是在高分辨率下。 在本文中,我们将深入解读 Vision Mamba 这篇论文,介绍状态空间模型的基础知识,了解作者如何将其应用于视觉领域,并审视这些可能预示着计算机视觉骨干网络设计转变的惊人成果。 从 Transformer 到状态空间模型 为了理解 Vim 的影响力,让我们从它要解决的问题开始。 视觉 Transformer (ViT) 的工作方式是将图像切成多个图像块 (例如 16×16 像素) ,将它们展平为向量,并将这些向量视为一个序列——类似于句子中的单词。自注意力机制会计算每对图像块之间的相互作用,使模型能够捕捉全局上下文。例如,猫耳朵的一个图像块可以“关注”到它尾巴的一个图像块,无论它们之间的空间距离有多远。缺点是: 计算长度为 N 的序列中每对元素的相互作用会导致 O(N²) 的复杂度。 ...

2024-01
[Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 🔗](https://arxiv.org/abs/2405.21060)

Mamba‑2 解析:连接状态空间模型与注意力机制的对偶性

Transformer 在许多序列建模任务中占据主导地位,但其核心的自注意力机制在计算上与上下文长度成二次方关系。这种设计选择使得处理超长上下文在计算和内存方面代价高昂。与此同时,以 S4 和 Mamba 为代表的结构化状态空间模型 (SSM) 在序列长度上实现了线性扩展,并在自回归生成中保持恒定的状态维度。两种模型体系在发展过程中几乎沿着完全独立的路径成熟: 数学理论不同,优化方法不同,工程权衡也不同。 论文《Transformers 是 SSMs》在这两种范式之间架起了桥梁,并基于这种联系设计出一种更快、更加硬件友好的 SSM 变体: Mamba-2。核心洞见是,在以下三者之间存在原则性的对应关系: (i) SSM、(ii) 一类称为结构化掩码注意力 (SMA) 的广义注意力机制家族、(iii) 一类被称为半可分矩阵的经典结构化矩阵。这种“结构化状态空间对偶性” (SSD) 框架产生了既能兼具 SSM 递推的渐近效率,又能享受密集矩阵乘法硬件友好性的算法。 本文将逐步介绍主要思想,展示这种对偶性的来源,并解释驱动 Mamba-2 的 SSD 算法。在此过程中,我会引用论文中的图示使概念更直观。 图 1: 高层路线图。结构化矩阵在状态空间模型 (SSM) 与注意力机制之间架起桥梁,形成结构化状态空间对偶性 (SSD) 框架,催生 Mamba-2 架构。 本文的整体安排: 以能够显现联系的方式重温 SSM 与注意力机制。 介绍半可分矩阵,并展示 SSM 如何映射到结构化矩阵。 将线性注意力推广为结构化掩码注意力 (SMA) 。 阐述对偶性: 特定 SSM ↔ 特定 SMA。 解释混合型 SSD 算法 (分块分解) ,既在线性序列长度上工作,又对矩阵乘法友好。 介绍 Mamba-2 的架构设计、系统优化以及实验证据。 1 — 技术速览 1.1 什么是结构化 SSM? 结构化状态空间模型 (SSM) 是一种线性递推,更新内部状态并输出结果。在离散时间下,一个选择性 (时变) SSM可以写成: ...

2024-05
[VMamba: Visual State Space Model 🔗](https://arxiv.org/abs/2401.10166)

VMamba:计算机视觉领域 CNN 与 Transformer 的新挑战者

在过去十年中,计算机视觉领域一直由两大架构巨头主导:** 卷积神经网络 (CNN)**,以及近来兴起的 视觉 Transformer (ViT)。CNN 以其高效性和对局部模式的强大归纳偏置而著称,而 ViT 则凭借自注意力机制,在捕捉图像全局关系方面表现出色。 然而,这种强大的能力是有代价的——自注意力机制的**复杂度与图像块数量呈二次关系 **(\(O(N^2)\)) ,这使得 ViT 的计算成本高昂且运行缓慢,尤其是在目标检测和分割等任务中常见的高分辨率图像场景下。 如果存在第三种途径呢?一种既具备 Transformer 的全局上下文建模能力,又拥有 CNN 的线性时间高效性的架构? 自然语言处理 (NLP) 领域的研究人员一直在探索一种新的模型类别——状态空间模型 (SSM)。其中,近期最具潜力的进展之一是 Mamba,它在长序列语言任务中表现卓越,同时保持了线性复杂度。 受 Mamba 突破性成果的启发,论文《VMamba: Visual State Space Model》将这种强大的 NLP 架构迁移到计算机视觉领域。研究人员提出了 VMamba,一种旨在融合两者优势的新型视觉骨干网络: 像 Transformer 一样具备全局感受野和动态、内容感知的权重。 像 CNN 一样具有高效率和良好可扩展性。 本文将深入解析 VMamba 的工作原理,剖析其核心理念、创新架构以及令人印象深刻的基准测试成果。 背景: 从卷积到状态空间 要理解 VMamba 的创新意义,首先需要回顾当前视觉模型的格局,并简介状态空间的概念。 CNN 与 Vision Transformer **CNN **(如 ResNet、ConvNeXt) 通过在整幅图像上应用可学习滤波器 (卷积核) 构建分层特征表示。它们能高效捕捉边缘、纹理等局部特征,但需要依赖多层堆叠来实现长程依赖建模。 ViT 将图像视作一系列图像块,并采用自注意力机制,使所有图像块从第一层开始即可直接交互。这带来了全局感受野,但其二次方的计算复杂度对大尺寸图像而言十分昂贵。 图 1: 自注意力机制 (a) 在所有图像块之间建立全连接,实现了全局上下文但计算成本高昂。SS2D (b) 则通过结构化扫描路径连接图像块,更高效地实现全局覆盖。 ...

2024-01

从原子到应用:深入解析一款全功能二维闪存芯片

引言: 一场蓄势待发的纳米级革命 十多年来,石墨烯和二硫化钼 (MoS₂) 等二维 (2D) 材料一直是材料科学领域的超级明星。这些原子尺度的薄片比人类 DNA 单链还要薄,却拥有非凡的电子特性,有望彻底改变计算领域——从超高速晶体管到超高效存储器。它们为延续摩尔定律的惊人进步提供了一条潜在路径,突破硅的物理极限。 但这其中有一个难题。尽管这些材料在研究实验室的纯净、受控环境中表现出色,但要将它们应用到商业芯片制造这个复杂而混乱的世界中,却面临巨大挑战。制造一个完美的二维晶体管是一回事;而将成千上万个这样的晶体管集成到一块标准硅芯片上,并让它们全部可靠地协同工作,则完全是另一回事。这就是臭名昭著的 *实验室到工厂 *(lab-to-fab) 鸿沟——一道让许多突破性技术无法走向现实世界的深谷。 最近发表在《Nature》杂志上的一篇论文直面了这个问题。研究人员开发了一个名为 ATOM2CHIP 的综合蓝图——一个完整的策略,用于弥合从单个原子器件概念到功能齐全的封装芯片之间的差距。利用这一蓝图,他们成功构建了一款 1-Kb 的二维 NOR 闪存芯片,展示了一条将二维电子学优势整合到实用、系统级应用中的可行途径。这项工作不仅仅是一次渐进式的改进,更是一份为电子学未来绘制的详细路线图。 巨大的集成挑战: 当两个世界碰撞 要理解这项成就的重大意义,我们首先需要明白,为什么将二维材料与传统的硅 CMOS (互补金属氧化物半导体) 技术集成如此困难。这几乎在每一个层面都存在不匹配。 1. 物理上的不匹配: 一块标准的 CMOS 晶圆,即使经过抛光,在原子尺度上依然崎岖不平。由于底层密集的电路,其表面粗糙度为 1–2 纳米。现在,想象一下试图将一张完美的、单原子厚度的 MoS₂ 薄片 (厚度小于 1 纳米) 铺在这片凹凸不平的表面上。二维材料会被拉伸、褶皱并产生应力——导致不可预测的电学行为和高器件失效率。 2. 电学上的不匹配: 二维器件的运行规则通常与硅不同。例如,本研究中的二维闪存芯片在执行某些操作时需要负电压。在标准 CMOS 电路上施加负电压可能触发寄生 PN 结,导致巨大的电流泄漏,并可能烧毁芯片——这种现象被称为闩锁效应。 3. 封装上的难题: 芯片封装——将硅裸片置于带有引脚的保护外壳中以连接外部世界——是一个相当“粗暴”的过程。它涉及高温、机械压力以及静电放电 (ESD) 风险。对于坚固的硅,这些都是常规操作;但对于脆弱的原子级薄材料来说,这可能是“致命”的。 解决这些问题需要的不仅仅是更好的二维晶体管,而是一种从根本上重新设计制造与集成流程的整体方法。这正是 ATOM2CHIP 蓝图所提供的。 ATOM2CHIP 蓝图: 两大支柱策略 研究人员的 ATOM2CHIP 技术是系统集成的典范,建立在两大核心支柱之上: 全栈片上工艺,解决物理制造挑战。 跨平台系统设计,解决电学与逻辑兼容性问题。 ...

噪声的力量:去噪自编码器如何学习鲁棒特征

深度神经网络已成为现代人工智能的基石,在图像识别、自然语言处理等领域取得了卓越的成就。但在它们占据主导地位之前,曾有一个巨大的障碍: 训练它们极其困难。网络越深,就越难让它学到任何有用的东西。2000 年代中期,一个关键的突破随之而来,那就是无监督预训练思想的提出,这是一种在对特定任务进行微调之前,逐层初始化深度网络的方法。 这项技术引出了一个根本性的问题: 在无监督阶段,网络学习到的“好”表示应具备什么特征? 正如 Pascal Vincent、Hugo Larochelle、Yoshua Bengio 和 Pierre-Antoine Manzagol 在 2008 年一篇开创性论文中所提出的,答案出人意料地简单而优雅。他们假设,一个好的表示应该具备鲁棒性——即使输入数据部分损坏或缺失,也能够捕捉其本质。 为此,他们在一种经典的神经网络模型上加入了新思路,创造了去噪自编码器。本文将深入探讨他们的工作,揭示添加噪声的这个简单想法如何引出强大的特征学习、更佳的模型性能,以及对机器“学习”含义的更深刻理解。 背景: 标准自编码器 在理解“去噪”部分之前,需要先了解基本的自编码器。自编码器是一种神经网络,它被训练来执行一个看似平淡无奇的任务: 重构其输入本身。这听起来似乎无关紧要,但关键在于中间环节的表示学习。 一个自编码器由两部分组成: 编码器 (Encoder) : 接收一个输入向量 \(\mathbf{x}\),并将其映射到一个压缩的隐藏表示 \(\mathbf{y}\),通常使用如下映射: \[ \mathbf{y} = f_{\theta}(\mathbf{x}) = s(\mathbf{W}\mathbf{x} + \mathbf{b}) \] 其中 \(s\) 是一个激活函数,例如 sigmoid 函数。 解码器 (Decoder) : 接收隐藏表示 \(\mathbf{y}\),并将其映射回原始输入空间,得到重构向量 \(\mathbf{z}\)。 目标是让 \(\mathbf{z}\) 尽可能接近 \(\mathbf{x}\)。网络通过最小化一个重构损失来进行训练,该损失衡量输入 \(\mathbf{x}\) 与输出 \(\mathbf{z}\) 之间的差异: 图: 基本自编码器的重构损失目标。 对于取值在 0 到 1 之间的二进制或实值输入,常用的选择是重构交叉熵: ...