Papers

[Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers 🔗](https://arxiv.org/abs/2110.13985)

序列模型的瑞士军刀：深入探究线性状态空间层

循环神经网络 (RNN) 、卷积神经网络 (CNN) 和 Transformer 已经彻底改变了我们处理文本、音频和时间序列等序列数据的方式。每种范式都很强大，但也都有其自身的局限性: RNN 在推理时效率很高，但在长序列上训练缓慢，并且存在梯度消失问题。 CNN 可以并行训练，速度快，但它们在固定感受野之外表现不佳，且推理成本高。 Transformer 能够捕捉全局上下文，但其内存和计算量会随序列长度呈二次方增长。如果我们能将这些方法的优点结合起来会怎样？想象一个具有以下特性的模型: ...

[On the Parameterization and Initialization of Diagonal State Space Models 🔗](https://arxiv.org/abs/2206.11893)

更简单的 S4：对角状态空间模型（S4D）如何以更低复杂度实现同等性能

引言: 高效序列模型的探索之路对长序列数据 (无论是音频波形、医学信号、文本，还是展平的图像) 进行建模，是机器学习领域的一项基础性挑战。多年来，循环神经网络 (RNNs) 和卷积神经网络 (CNNs) 一直是标准工具。近年来，Transformer 异军突起，取得了惊人的成果。但所有这些模型在应对超长序列时都面临各种权衡。 ...

[Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 🔗](https://arxiv.org/abs/2401.09417)

Vision Mamba：Transformer 在计算机视觉领域的新挑战者？

在过去几年里，视觉 Transformer (ViT) 一直主导着计算机视觉领域。通过将图像视为图像块序列并应用自注意力机制，这些模型在图像分类、目标检测和语义分割方面树立了新的标杆。然而，这种强大的能力是以高昂的计算成本为代价的。 ...

[Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 🔗](https://arxiv.org/abs/2405.21060)

Mamba‑2 解析：连接状态空间模型与注意力机制的对偶性

Transformer 在许多序列建模任务中占据主导地位，但其核心的自注意力机制在计算上与上下文长度成二次方关系。这种设计选择使得处理超长上下文在计算和内存方面代价高昂。与此同时，以 S4 和 Mamba 为代表的结构化状态空间模型 (SSM) 在序列长度上实现了线性扩展，并在自回归生成中保持恒定的状态维度。两种模型体系在发展过程中几乎沿着完全独立的路径成熟: 数学理论不同，优化方法不同，工程权衡也不同。 ...

[VMamba: Visual State Space Model 🔗](https://arxiv.org/abs/2401.10166)

VMamba：计算机视觉领域 CNN 与 Transformer 的新挑战者

在过去十年中，计算机视觉领域一直由两大架构巨头主导:** 卷积神经网络 (CNN)**，以及近来兴起的视觉 Transformer (ViT)。CNN 以其高效性和对局部模式的强大归纳偏置而著称，而 ViT 则凭借自注意力机制，在捕捉图像全局关系方面表现出色。 ...

从原子到应用：深入解析一款全功能二维闪存芯片

引言: 一场蓄势待发的纳米级革命十多年来，石墨烯和二硫化钼 (MoS₂) 等二维 (2D) 材料一直是材料科学领域的超级明星。这些原子尺度的薄片比人类 DNA 单链还要薄，却拥有非凡的电子特性，有望彻底改变计算领域——从超高速晶体管到超高效存储器。它们为延续摩尔定律的惊人进步提供了一条潜在路径，突破硅的物理极限。 ...

噪声的力量：去噪自编码器如何学习鲁棒特征

深度神经网络已成为现代人工智能的基石，在图像识别、自然语言处理等领域取得了卓越的成就。但在它们占据主导地位之前，曾有一个巨大的障碍: 训练它们极其困难。网络越深，就越难让它学到任何有用的东西。2000 年代中期，一个关键的突破随之而来，那就是无监督预训练思想的提出，这是一种在对特定任务进行微调之前，逐层初始化深度网络的方法。 ...

解锁深度学习：2006年的一项突破性研究如何彻底改变了神经网络

高维数据——例如拥有数百万像素的图像、包含数千词汇的文档，或是具有无数特征的基因组——其理解和分析可能极其复杂。这通常被称为维度灾难: 当变量过多时，发现有意义的模式和关系变得更加困难，这使得分类、可视化或存储等任务充满挑战。 ...

[NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search 🔗](https://arxiv.org/abs/2001.10422)

破解一次性 NAS 的密码：深入解析 NAS-Bench-1Shot1 基准

引言: 自动化 AI 的希望与风险神经架构搜索 (NAS) 是机器学习中最令人振奋的前沿领域之一。试想，一种算法能为你的特定任务自动设计出完美的神经网络，并且可能超越世界级人类专家精心打造的架构——这就是 NAS 的承诺。 ...

[NEURAL ARCHITECTURE SEARCH ON IMAGENET IN FOUR GPU HOURS: A THEORETICALLY INSPIRED PERSPECTIVE 🔗](https://arxiv.org/abs/2102.11535)

数小时而非数天找到顶尖神经网络：深入解读免训练 NAS

神经架构搜索 (Neural Architecture Search, NAS) 是深度学习领域最令人振奋的前沿之一。它的愿景简单而深远: 为特定任务自动设计出最优的神经网络，从而将人类从繁琐且依赖直觉的手动架构设计过程中解放出来。然而，这一承诺一直伴随着高昂的代价——传统的 NAS 方法可能需要耗费数千个 GPU 小时，在庞大的搜索空间中训练和评估无数候选架构。这种巨大的计算成本使 NAS 仅限于少数资金雄厚的研究实验室。 ...

[Hierarchical Neural Architecture Search for Deep Stereo Matching 🔗](https://arxiv.org/abs/2010.13501)

LEAStereo – AI 如何学会设计顶尖的 3D 视觉模型

几十年来，让计算机像人类一样理解三维世界，一直是计算机视觉领域的核心目标。这项被称为立体视觉的技术，为自动驾驶汽车在复杂街道中导航、机器人精准抓取物体，以及增强现实系统将虚拟物体无缝融入现实环境提供了动力。立体视觉的核心是解决一个看似简单的问题: 给定同一场景从两个略微不同的角度 (如同我们的双眼) 拍摄的两张图像，我们能否计算出场景中每个物体的深度？ ...

[BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models 🔗](https://arxiv.org/abs/2003.11142)

BigNAS：一次训练，随处部署的单阶段神经架构搜索

在现实世界中部署机器学习模型是一项棘手的任务。对于高端云 GPU 来说完美无缺的模型，可能完全不适合智能手机；而适合智能手机的模型，对于微型控制器来说又显得性能过剩。每种设备都有其独特的约束——延迟、内存和功耗——这种多样性催生了神经架构搜索 (Neural Architecture Search, NAS) 的迅速发展，该领域致力于自动设计针对特定硬件的神经网络。 ...

[Neural Architecture Search without Training 🔗](https://arxiv.org/abs/2006.04647)

数秒内找到顶级神经网络——无需任何训练

设计一个高性能的神经网络，长久以来都是一半艺术、一半科学，再加无数的试错过程。多年来，最顶尖的深度学习模型都是通过巨大的人力投入、直觉判断，以及无数小时的 GPU 实验锻造出来的。这种手动设计过程是一个巨大的瓶颈，也因此催生了一个令人振奋的领域:** 神经架构搜索 (Neural Architecture Search, NAS)** 。 ...

[NAS-BENCH-201: EXTENDING THE SCOPE OF RE-PRODUCIBLE NEURAL ARCHITECTURE SEARCH 🔗](https://arxiv.org/abs/2001.00326)

神经网络的公平竞技场：深入解析 NAS-Bench-201

神经架构搜索 (Neural Architecture Search, NAS) 已经改变了我们设计深度学习模型的方式。NAS 算法不再仅仅依赖人类的直觉和多年的经验，而是能够自动发现强大且高效的网络架构——其性能常常超越人工设计的前辈模型。这种范式转变为 NAS 带来了爆炸性的进展，涌现出涵盖强化学习、进化策略和可微优化的多种新方法。 ...

[Progressive Neural Architecture Search 🔗](https://arxiv.org/abs/1712.00559)

PNAS：如何在不耗尽资源的情况下找到顶级性能的神经网络

长期以来，设计神经网络的架构一直被视为一门玄学——直觉、经验与反复试验的结合。但如果我们能将这个过程自动化呢？如果一个 AI 能设计出更强大的 AI 呢？这就是神经架构搜索 (Neural Architecture Search, NAS) 的前景，该领域已经诞生了一些计算机视觉中性能最优秀的模型。 ...

[ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 🔗](https://arxiv.org/abs/1812.00332)

ProxylessNAS：直接在你的目标硬件上搜索最优神经网络

神经架构搜索 (Neural Architecture Search, NAS) 是深度学习领域最令人振奋的前沿之一。试想，有一种算法可以自动为你设计出最先进的神经网络——并且完美契合你的特定任务。NAS 的愿景是用一种有原则的、自动化的搜索过程，取代繁琐且依赖直觉的人工网络设计。 ...

[Efficient Neural Architecture Search via Parameter Sharing 🔗](https://arxiv.org/abs/1802.03268)

ENAS：让神经架构搜索快 1000 倍

设计一个高性能的神经网络通常被形容为一门玄学。它需要深厚的专业知识、直觉以及大量的反复试验。如果我们能将这个过程自动化呢？这就是神经架构搜索 (Neural Architecture Search，NAS) 的愿景——自动为特定任务寻找最佳网络架构。 ...

[G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection 🔗](https://arxiv.org/abs/2402.04672)

超越晴天：G-NAS 如何让目标检测器在黑暗中也能看清

想象一辆自动驾驶汽车，其人工智能系统在数千小时明亮、晴朗的加州日间视频中接受训练。它能以惊人的准确度识别行人、汽车和骑行者。现在，把这辆车开到伦敦雾气弥漫的清晨、西雅图细雨蒙蒙的傍晚，或东京午夜灯光昏暗的街道。它还能依然表现得完美无缺吗？ ...

[EvoPrompting: Language Models for Code-Level Neural Architecture Search 🔗](https://arxiv.org/abs/2302.14838)

EvoPrompting：如何将语言模型进化为 AI 架构大师

像 GPT-4 和 PaLM 这样的大型语言模型 (LLM) 在编写代码方面已经表现得惊人地出色。只要给它们一段描述，它们就能生成功能脚本、网页组件，甚至是复杂的算法。不过，根据明确的规格编写代码是一回事，从零开始设计出真正新颖且高性能的东西则是另一回事。LLM 能否发明一种全新的、最先进的神经网络架构？ ...

[NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 🔗](https://arxiv.org/abs/1611.01578)

如何训练一个 AI 来设计其他 AI：深入解析神经架构搜索

设计一个最先进的神经网络通常被形容为一门“玄学”。它需要深厚的专业知识、无数小时的实验，以及相当程度的直觉。从 AlexNet、VGGNet 到 ResNet 和 DenseNet，每一个突破性的架构都是人类煞费苦心设计的产物。 ...