[Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling 🔗](https://arxiv.org/abs/1412.3555)

LSTM vs. GRU:门控循环神经网络的对决

从我们聆听的旋律,到我们阅读的句子,再到我们语音的原始波形,我们周围的世界充满了序列。对于机器学习而言,理解和生成这类数据是一项巨大的挑战。模型如何才能掌握一个长段落的语法结构,或者创作出一首从头到尾都感觉连贯的旋律?关键在于记忆——具体来说,是跨越长时间跨度存储信息的能力。 ...

2014-12 · 6 分钟 · 2707 字
[Rethinking the Inception Architecture for Computer Vision 🔗](https://arxiv.org/abs/1512.00567)

更智能,而非更堆砌:谷歌 Inception V2 和 V3 如何重新思考深度学习架构

在深度学习的世界里,曾经有一个强大而令人着迷的口号: “只要加更多层。” 一段时间内,这似乎是通往成功的首选路径。AlexNet 让位于更深的 VGGNet,每多加一层,ImageNet 等基准测试上的性能就攀升得更高。但这种进步的代价很高——天文数字般的计算成本和飞速膨胀的参数数量。训练这些庞然大物需要大规模 GPU 集群,而将它们部署到诸如智能手机等资源受限的设备上几乎不可能。 ...

2015-12 · 6 分钟 · 2612 字
[SEARCHING FOR ACTIVATION FUNCTIONS 🔗](https://arxiv.org/abs/1710.05941)

超越 ReLU:自动化搜索如何发现 Swish 激活函数

近十年来,修正线性单元 (ReLU) 一直是深度学习领域无可争议的激活函数之王。它优雅而简单——当输入为正时直接输出输入值,否则输出零——这一突破使得超深度神经网络的训练成为现实。快速、高效、易于实现,ReLU 迅速成为整个 AI 社区的默认选择。 ...

2017-10 · 6 分钟 · 2566 字
[Representation Learning: A Review and New Perspectives 🔗](https://arxiv.org/abs/1206.5538)

从像素到概念:表征学习的力量

如果你曾经训练过模型,你就会熟悉这个流程: 收集数据、清洗数据,然后花费数周时间进行特征工程,以尽可能提升算法性能。这种手工特征工程往往是成败的关键——耗时、脆弱且高度依赖具体领域。表征学习旨在改变这一现状。它希望模型能够自动找到合适的内部描述,而不依赖人类直觉去手工构造特征——这些表征能揭示数据背后的潜在解释因素。 ...

2012-06 · 11 分钟 · 5094 字

双向观察:双向 LSTM 如何彻底改变序列处理

想象一下你在听朋友说话。你的大脑是如何理解这源源不断的声音流的?你并不是孤立地处理每个声音——对一个词的理解往往依赖于它之前说了什么,以及之后会说什么。 ...

5 分钟 · 2349 字
[xLSTM: Extended Long Short-Term Memory 🔗](https://arxiv.org/abs/2405.04517)

RNN 的回归?深入解读 xLSTM

在过去十年的大部分时间里,Transformer 一直定义着序列建模的前沿。其并行处理长上下文的能力开启了大语言模型 (LLM) 时代。但这一进步也令最初的序列引擎——循环神经网络,尤其是 Sepp Hochreiter 共同发明的 LSTM 架构——逐渐淡出人们的视野。 ...

2024-05 · 10 分钟 · 4633 字

解读 RNN 编码器–解码器:一篇教会机器翻译的论文

机器翻译是那种乍一看似乎异常简单的问题之一。我们难道不能直接把一种语言的单词替换成另一种语言的单词吗?任何尝试过这样做,或者用过早期翻译工具的人,都知道结果会多么滑稽,甚至常常毫无意义。句子“The cat sat on the mat”不仅仅是词语的集合;它是一个具有语法规则和特定含义的结构。真正的翻译必须在用另一种语言表达之前,先完整地理解整个思想。 ...

6 分钟 · 2699 字

LSTM 的“不讲道理”的有效性:深入解读 1997 年那篇改变 AI 的论文

时间回到 1997 年。辣妹组合 (Spice Girls) 正高居音乐排行榜榜首,《泰坦尼克号》即将在影院上映,而两位研究员 Sepp Hochreiter 和 Jürgen Schmidhuber 发表了一篇论文,这篇论文最终将成为现代人工智能革命的基石。 这篇题为《长短期记忆》 (Long Short-Term Memory) 的论文提出了一种新型神经网络架构,能够将信息记忆极长时间。 ...

6 分钟 · 2510 字
[FLIPPING THE DIALOGUE: TRAINING AND EVALUATING USER LANGUAGE MODELS 🔗](https://arxiv.org/abs/2510.06552)

为什么 AI 助手是糟糕的模拟用户——以及“翻转对话”如何解决这个问题

你可能和 ChatGPT、Claude 或 Llama 这样的 AI 助手聊过天。你输入一个问题,它会迅速返回一个精炼、结构良好的答案——表达清晰、内容详尽,而且总是彬彬有礼。这些模型被训练成理想的对话伙伴。 ...

2025-10 · 6 分钟 · 2959 字
[SWINBERT: End-to-End Transformers with Sparse Attention for Video Captioning 🔗](https://arxiv.org/abs/2111.13196)

教机器描述视频:深入解析 SWINBERT

你是否曾好奇过,像 YouTube 这样的平台是如何自动为视频生成字幕的?这项任务——称为 **视频字幕生成 **(video captioning) ——是计算机视觉与自然语言处理交叉领域中一个引人入胜的挑战。它要求机器不仅能够 看 到视频中发生的内容,还要理解一系列动作,并用清晰、连贯、接近人类的语言进行描述。 ...

2021-11 · 5 分钟 · 2437 字
[Efficient Content-Based Sparse Attention with Routing Transformers 🔗](https://arxiv.org/abs/2003.05997)

驯服二次方猛兽——路由 Transformer 如何扩展至超长序列

Transformer 架构凭借其强大的自注意力机制,彻底改变了机器学习领域。从 GPT 模型生成媲美人类的文本,到创造令人惊叹的图像,其影响力毋庸置疑。自注意力的核心在于: 在处理某个输入片段时,模型能够权衡所有其他输入片段的重要性;这赋予了它对数据全面、全局的理解能力。 ...

2020-03 · 6 分钟 · 2838 字
[Efficient Non-Local Contrastive Attention for Image Super-Resolution 🔗](https://arxiv.org/abs/2201.03794)

让每个像素都物尽其用:深入解析高效非局部对比注意力

你是否曾放大一张照片,结果只看到一团模糊、充满像素块的马赛克?将低分辨率 (LR) 图像转换为清晰、高分辨率 (HR) 杰作的探索,是单图像超分辨率 (SISR) 的核心挑战。这项技术应用广泛——从增强医学扫描以获得更准确的诊断,到为安全目的澄清监控录像。 ...

2022-01 · 5 分钟 · 2484 字
[SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning 🔗](https://arxiv.org/abs/2012.09852)

SpAtten:通过剪枝冗余语言,让 Transformer 更加“斯巴达”

引言: 注意力机制的难以忍受的缓慢 基于 Transformer 的模型,如 BERT 和 GPT,已经彻底改变了自然语言处理 (NLP) ,在从情感分析到文本生成的各种任务上都取得了最先进 (state-of-the-art) 的成果。它们可以编写代码、总结文章,甚至进行令人惊讶的连贯对话。但这种强大的能力背后是高昂的代价: 计算成本。 ...

2020-12 · 6 分钟 · 2869 字
[MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention 🔗](https://arxiv.org/abs/2407.02490)

从 30 分钟到 3 分钟:MInference 如何将百万词元提示的 LLM 等待时间缩短

大型语言模型 (LLM) 正在迅速扩展能力边界,现在能够处理一百万甚至更多词元的上下文窗口。这带来了令人惊叹的应用场景——从理解整个代码仓库,到回答冗长法律文件中的细微问题,再到在庞大数据集上进行复杂推理。 ...

2024-07 · 5 分钟 · 2328 字
[Faster Causal Attention Over Large Sequences Through Sparse Flash Attention 🔗](https://arxiv.org/abs/2306.01160)

超越 FlashAttention:利用动态稀疏性让 Transformer 再提速

Transformer 几乎无处不在——从 ChatGPT 到代码补全助手,各类工具背后皆有它的身影——但它有一个众所周知的短板: 自注意力机制。随着输入序列变长,注意力计算量会呈二次方增长。序列长度加倍意味着计算量翻四倍。这一计算瓶颈使得在超长文档、高分辨率图像或庞大代码库上训练变得既困难又昂贵。 ...

2023-06 · 5 分钟 · 2272 字
[DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training 🔗](https://arxiv.org/abs/2310.03294)

解锁海量上下文:深入解读 DISTFLASHATTN

大语言模型 (LLM) 正迅速发展,其最令人期待的前沿之一就是上下文窗口的扩展。试想,一个 AI 能够一次性读完整本小说、完整代码库或冗长的财务报告,并在基于对全部内容的充分理解的前提下精准回答你的问题。这就是长上下文大语言模型的愿景——但训练它们面临着巨大的技术挑战。 ...

2023-10 · 5 分钟 · 2402 字
[FLASHMASK: EFFICIENT AND RICH MASK EXTENSION OF FLASHATTENTION 🔗](https://arxiv.org/abs/2410.01359)

FLASHMASK:用超高效注意力掩码驾驭长序列

从 ChatGPT 到 Gemini,Transformer 架构凭借注意力机制为现代人工智能提供了强大动力。注意力机制让模型能选择性地聚焦输入中的相关部分。然而,强大的能力也伴随着严重的瓶颈: 当序列长度扩展到整本书或庞大的代码库时,注意力的计算和内存需求会呈二次方级增长——输入长度翻倍,计算量翻四倍。这就是臭名昭著的二次方瓶颈。 ...

2024-10 · 6 分钟 · 2643 字
[FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision 🔗](https://arxiv.org/abs/2407.08608)

深入解析 FlashAttention-3:异步与 FP8 如何为 Transformer 加速

Transformer 架构是当今人工智能革命的核心动力,但它存在一个顽固的瓶颈: 注意力机制。随着我们推动更大的模型来处理整本书籍、大型代码库或数小时的视频,注意力机制的二次方复杂度成为主要的计算障碍。简单来说,输入越长,注意力机制越吃力——计算成本也随之飙升。 ...

2024-07 · 6 分钟 · 2743 字
[FLASHATTENTION-2: Faster Attention with Better Parallelism and Work Partitioning 🔗](https://arxiv.org/abs/2307.08691)

FlashAttention-2:为 Transformer 带来更迅捷、更高效的注意力机制

如果你一直关注大语言模型领域,就会知道其中一个重要目标是扩展上下文窗口。我们希望模型能阅读整本书籍、分析冗长的代码库或处理高分辨率图像。而主要的障碍是什么?正是 Transformer 架构核心的注意力机制。它的计算和内存成本会随着序列长度按二次方增长,使得长上下文变得异常昂贵。 ...

2023-07 · 7 分钟 · 3097 字
[FLASHATTENTION: Fast and Memory-Efficient Exact Attention with IO-Awareness 🔗](https://arxiv.org/abs/2205.14135)

FlashAttention:IO 感知是解锁长上下文 Transformer 的关键吗?

Transformer 已经彻底改变了机器学习领域,但它有一个众所周知的致命弱点: 自注意力机制。自注意力虽然极其强大,但其计算和内存成本会随着序列长度呈二次方增长。这种 \(O(N^2)\) 的复杂度一直是主要障碍,使得在长文档、高分辨率图像或长音频片段上训练模型的成本高得令人望而却步。 ...

2022-05 · 6 分钟 · 2614 字