[Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers 🔗](https://arxiv.org/abs/2110.13985)

序列模型的瑞士军刀:深入探究线性状态空间层

循环神经网络 (RNN) 、卷积神经网络 (CNN) 和 Transformer 已经彻底改变了我们处理文本、音频和时间序列等序列数据的方式。每种范式都很强大,但也都有其自身的局限性: RNN 在推理时效率很高,但在长序列上训练缓慢,并且存在梯度消失问题。 CNN 可以并行训练,速度快,但它们在固定感受野之外表现不佳,且推理成本高。 Transformer 能够捕捉全局上下文,但其内存和计算量会随序列长度呈二次方增长。 如果我们能将这些方法的优点结合起来会怎样?想象一个具有以下特性的模型: ...

2021-10 · 6 分钟 · 2731 字
[On the Parameterization and Initialization of Diagonal State Space Models 🔗](https://arxiv.org/abs/2206.11893)

更简单的 S4:对角状态空间模型(S4D)如何以更低复杂度实现同等性能

引言: 高效序列模型的探索之路 对长序列数据 (无论是音频波形、医学信号、文本,还是展平的图像) 进行建模,是机器学习领域的一项基础性挑战。多年来,循环神经网络 (RNNs) 和卷积神经网络 (CNNs) 一直是标准工具。近年来,Transformer 异军突起,取得了惊人的成果。但所有这些模型在应对超长序列时都面临各种权衡。 ...

2022-06 · 6 分钟 · 2791 字
[Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 🔗](https://arxiv.org/abs/2401.09417)

Vision Mamba:Transformer 在计算机视觉领域的新挑战者?

在过去几年里,视觉 Transformer (ViT) 一直主导着计算机视觉领域。通过将图像视为图像块序列并应用自注意力机制,这些模型在图像分类、目标检测和语义分割方面树立了新的标杆。然而,这种强大的能力是以高昂的计算成本为代价的。 ...

2024-01 · 6 分钟 · 2589 字
[Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality 🔗](https://arxiv.org/abs/2405.21060)

Mamba‑2 解析:连接状态空间模型与注意力机制的对偶性

Transformer 在许多序列建模任务中占据主导地位,但其核心的自注意力机制在计算上与上下文长度成二次方关系。这种设计选择使得处理超长上下文在计算和内存方面代价高昂。与此同时,以 S4 和 Mamba 为代表的结构化状态空间模型 (SSM) 在序列长度上实现了线性扩展,并在自回归生成中保持恒定的状态维度。两种模型体系在发展过程中几乎沿着完全独立的路径成熟: 数学理论不同,优化方法不同,工程权衡也不同。 ...

2024-05 · 10 分钟 · 4858 字
[VMamba: Visual State Space Model 🔗](https://arxiv.org/abs/2401.10166)

VMamba:计算机视觉领域 CNN 与 Transformer 的新挑战者

在过去十年中,计算机视觉领域一直由两大架构巨头主导:** 卷积神经网络 (CNN)**,以及近来兴起的 视觉 Transformer (ViT)。CNN 以其高效性和对局部模式的强大归纳偏置而著称,而 ViT 则凭借自注意力机制,在捕捉图像全局关系方面表现出色。 ...

2024-01 · 5 分钟 · 2448 字

从原子到应用:深入解析一款全功能二维闪存芯片

引言: 一场蓄势待发的纳米级革命 十多年来,石墨烯和二硫化钼 (MoS₂) 等二维 (2D) 材料一直是材料科学领域的超级明星。这些原子尺度的薄片比人类 DNA 单链还要薄,却拥有非凡的电子特性,有望彻底改变计算领域——从超高速晶体管到超高效存储器。它们为延续摩尔定律的惊人进步提供了一条潜在路径,突破硅的物理极限。 ...

7 分钟 · 3228 字

噪声的力量:去噪自编码器如何学习鲁棒特征

深度神经网络已成为现代人工智能的基石,在图像识别、自然语言处理等领域取得了卓越的成就。但在它们占据主导地位之前,曾有一个巨大的障碍: 训练它们极其困难。网络越深,就越难让它学到任何有用的东西。2000 年代中期,一个关键的突破随之而来,那就是无监督预训练思想的提出,这是一种在对特定任务进行微调之前,逐层初始化深度网络的方法。 ...

6 分钟 · 2556 字

解锁深度学习:2006年的一项突破性研究如何彻底改变了神经网络

高维数据——例如拥有数百万像素的图像、包含数千词汇的文档,或是具有无数特征的基因组——其理解和分析可能极其复杂。这通常被称为维度灾难: 当变量过多时,发现有意义的模式和关系变得更加困难,这使得分类、可视化或存储等任务充满挑战。 ...

6 分钟 · 2769 字
[NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search 🔗](https://arxiv.org/abs/2001.10422)

破解一次性 NAS 的密码:深入解析 NAS-Bench-1Shot1 基准

引言: 自动化 AI 的希望与风险 神经架构搜索 (NAS) 是机器学习中最令人振奋的前沿领域之一。试想,一种算法能为你的特定任务自动设计出完美的神经网络,并且可能超越世界级人类专家精心打造的架构——这就是 NAS 的承诺。 ...

2020-01 · 6 分钟 · 2940 字
[NEURAL ARCHITECTURE SEARCH ON IMAGENET IN FOUR GPU HOURS: A THEORETICALLY INSPIRED PERSPECTIVE 🔗](https://arxiv.org/abs/2102.11535)

数小时而非数天找到顶尖神经网络:深入解读免训练 NAS

神经架构搜索 (Neural Architecture Search, NAS) 是深度学习领域最令人振奋的前沿之一。它的愿景简单而深远: 为特定任务自动设计出最优的神经网络,从而将人类从繁琐且依赖直觉的手动架构设计过程中解放出来。然而,这一承诺一直伴随着高昂的代价——传统的 NAS 方法可能需要耗费数千个 GPU 小时,在庞大的搜索空间中训练和评估无数候选架构。这种巨大的计算成本使 NAS 仅限于少数资金雄厚的研究实验室。 ...

2021-02 · 6 分钟 · 2819 字
[Hierarchical Neural Architecture Search for Deep Stereo Matching 🔗](https://arxiv.org/abs/2010.13501)

LEAStereo – AI 如何学会设计顶尖的 3D 视觉模型

几十年来,让计算机像人类一样理解三维世界,一直是计算机视觉领域的核心目标。这项被称为立体视觉的技术,为自动驾驶汽车在复杂街道中导航、机器人精准抓取物体,以及增强现实系统将虚拟物体无缝融入现实环境提供了动力。立体视觉的核心是解决一个看似简单的问题: 给定同一场景从两个略微不同的角度 (如同我们的双眼) 拍摄的两张图像,我们能否计算出场景中每个物体的深度? ...

2020-10 · 7 分钟 · 3358 字
[BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models 🔗](https://arxiv.org/abs/2003.11142)

BigNAS:一次训练,随处部署的单阶段神经架构搜索

在现实世界中部署机器学习模型是一项棘手的任务。对于高端云 GPU 来说完美无缺的模型,可能完全不适合智能手机;而适合智能手机的模型,对于微型控制器来说又显得性能过剩。每种设备都有其独特的约束——延迟、内存和功耗——这种多样性催生了神经架构搜索 (Neural Architecture Search, NAS) 的迅速发展,该领域致力于自动设计针对特定硬件的神经网络。 ...

2020-03 · 6 分钟 · 2947 字
[Neural Architecture Search without Training 🔗](https://arxiv.org/abs/2006.04647)

数秒内找到顶级神经网络——无需任何训练

设计一个高性能的神经网络,长久以来都是一半艺术、一半科学,再加无数的试错过程。多年来,最顶尖的深度学习模型都是通过巨大的人力投入、直觉判断,以及无数小时的 GPU 实验锻造出来的。这种手动设计过程是一个巨大的瓶颈,也因此催生了一个令人振奋的领域:** 神经架构搜索 (Neural Architecture Search, NAS)** 。 ...

2020-06 · 6 分钟 · 2635 字
[NAS-BENCH-201: EXTENDING THE SCOPE OF RE-PRODUCIBLE NEURAL ARCHITECTURE SEARCH 🔗](https://arxiv.org/abs/2001.00326)

神经网络的公平竞技场:深入解析 NAS-Bench-201

神经架构搜索 (Neural Architecture Search, NAS) 已经改变了我们设计深度学习模型的方式。NAS 算法不再仅仅依赖人类的直觉和多年的经验,而是能够自动发现强大且高效的网络架构——其性能常常超越人工设计的前辈模型。这种范式转变为 NAS 带来了爆炸性的进展,涌现出涵盖强化学习、进化策略和可微优化的多种新方法。 ...

2020-01 · 6 分钟 · 2805 字
[Progressive Neural Architecture Search 🔗](https://arxiv.org/abs/1712.00559)

PNAS:如何在不耗尽资源的情况下找到顶级性能的神经网络

长期以来,设计神经网络的架构一直被视为一门玄学——直觉、经验与反复试验的结合。但如果我们能将这个过程自动化呢?如果一个 AI 能设计出更强大的 AI 呢?这就是神经架构搜索 (Neural Architecture Search, NAS) 的前景,该领域已经诞生了一些计算机视觉中性能最优秀的模型。 ...

2017-12 · 6 分钟 · 2524 字
[ProxylessNAS: Direct Neural Architecture Search on Target Task and Hardware 🔗](https://arxiv.org/abs/1812.00332)

ProxylessNAS:直接在你的目标硬件上搜索最优神经网络

神经架构搜索 (Neural Architecture Search, NAS) 是深度学习领域最令人振奋的前沿之一。试想,有一种算法可以自动为你设计出最先进的神经网络——并且完美契合你的特定任务。NAS 的愿景是用一种有原则的、自动化的搜索过程,取代繁琐且依赖直觉的人工网络设计。 ...

2018-12 · 6 分钟 · 2749 字
[Efficient Neural Architecture Search via Parameter Sharing 🔗](https://arxiv.org/abs/1802.03268)

ENAS:让神经架构搜索快 1000 倍

设计一个高性能的神经网络通常被形容为一门玄学。它需要深厚的专业知识、直觉以及大量的反复试验。如果我们能将这个过程自动化呢?这就是神经架构搜索 (Neural Architecture Search,NAS) 的愿景——自动为特定任务寻找最佳网络架构。 ...

2018-02 · 7 分钟 · 3009 字
[G-NAS: Generalizable Neural Architecture Search for Single Domain Generalization Object Detection 🔗](https://arxiv.org/abs/2402.04672)

超越晴天:G-NAS 如何让目标检测器在黑暗中也能看清

想象一辆自动驾驶汽车,其人工智能系统在数千小时明亮、晴朗的加州日间视频中接受训练。它能以惊人的准确度识别行人、汽车和骑行者。现在,把这辆车开到伦敦雾气弥漫的清晨、西雅图细雨蒙蒙的傍晚,或东京午夜灯光昏暗的街道。它还能依然表现得完美无缺吗? ...

2024-02 · 5 分钟 · 2480 字
[EvoPrompting: Language Models for Code-Level Neural Architecture Search 🔗](https://arxiv.org/abs/2302.14838)

EvoPrompting:如何将语言模型进化为 AI 架构大师

像 GPT-4 和 PaLM 这样的大型语言模型 (LLM) 在编写代码方面已经表现得惊人地出色。只要给它们一段描述,它们就能生成功能脚本、网页组件,甚至是复杂的算法。不过,根据明确的规格编写代码是一回事,从零开始设计出真正新颖且高性能的东西则是另一回事。LLM 能否发明一种全新的、最先进的神经网络架构? ...

2023-02 · 6 分钟 · 2644 字
[NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING 🔗](https://arxiv.org/abs/1611.01578)

如何训练一个 AI 来设计其他 AI:深入解析神经架构搜索

设计一个最先进的神经网络通常被形容为一门“玄学”。它需要深厚的专业知识、无数小时的实验,以及相当程度的直觉。从 AlexNet、VGGNet 到 ResNet 和 DenseNet,每一个突破性的架构都是人类煞费苦心设计的产物。 ...

2016-11 · 6 分钟 · 2772 字