Papers

[FLASHATTENTION-2: Faster Attention with Better Parallelism and Work Partitioning 🔗](https://arxiv.org/abs/2307.08691)

FlashAttention-2：为 Transformer 带来更迅捷、更高效的注意力机制

如果你一直关注大语言模型领域，就会知道其中一个重要目标是扩展上下文窗口。我们希望模型能阅读整本书籍、分析冗长的代码库或处理高分辨率图像。而主要的障碍是什么？正是 Transformer 架构核心的注意力机制。它的计算和内存成本会随着序列长度按二次方增长，使得长上下文变得异常昂贵。 2022 年，一篇突破性的论文 FlashAttention 直面了这个问题。通过巧妙地重排注意力计算，使其更好地利用 GPU 的内存层级结构，它实现了线性内存使用和2–4 倍加速，并且没有任何近似。这是一次颠覆性的创新，并已被广泛采用。但故事并未就此结束。虽然 FlashAttention 速度很快，但它仍未充分发挥现代硬件的潜力。其性能 (以每秒浮点运算次数 FLOPs/s 衡量) 徘徊在 NVIDIA A100 等 GPU 理论峰值的 25–40% 左右。相比之下，高度优化的矩阵乘法 (GEMM) 例程可以达到该峰值的 80–90%。仍有显著的性能差距有待填补。 FlashAttention-2 应运而生。这项后续工作剖析了原始算法的剩余低效之处，并引入了一系列优化。通过重新思考如何在 GPU 的计算单元之间以及单元内部划分工作，FlashAttention-2 实现了又一次约 2 倍加速，将硬件利用率推向了令人印象深刻的理论峰值的 50–73%。在这篇文章中，我们将深入探讨论文《FLASHATTENTION-2: 通过更优并行化与工作划分实现更快的注意力机制》。我们将探讨: 快速回顾: 标准注意力机制为何缓慢，以及初代 FlashAttention 的工作原理 FlashAttention-2 的三大关键创新: 减少慢速操作、更智能的并行化以及更高效的工作划分令人瞩目的结果: 展示 FlashAttention-2 的速度已接近纯矩阵乘法背景: GPU 瓶颈与 FlashAttention-1 要理解 FlashAttention-2，我们首先需要掌握标准注意力为何效率低下，以及它的前辈 FlashAttention 如何解决了问题的初步部分。 GPU 硬件基础 GPU 不是一个单一的计算引擎，而是一个具有内存层级结构的复杂系统。对我们来说，最重要的两个层级是: 高带宽内存 (HBM): 即大容量的显存 (例如 A100 上的 40–80 GB) ，用于存放模型和数据。与常规 RAM 相比，它的“带宽”更高，但相对片上内存来说依然较慢。 SRAM (静态随机存取存储器) ，又称共享内存: 极其快速的片上内存，容量很小 (每个计算单元仅几 KB) ，但带宽远高于 HBM。 GPU 编程的黄金法则:** 尽量减少对 HBM 的读写**。最高效的算法会将数据从 HBM 加载到快速的 SRAM 中一次性完成尽可能多的计算，然后只将最终结果写回 HBM。每一次不必要的 HBM 往返都会造成严重的性能瓶颈。 ...

[FLASHATTENTION: Fast and Memory-Efficient Exact Attention with IO-Awareness 🔗](https://arxiv.org/abs/2205.14135)

FlashAttention：IO 感知是解锁长上下文 Transformer 的关键吗？

Transformer 已经彻底改变了机器学习领域，但它有一个众所周知的致命弱点: 自注意力机制。自注意力虽然极其强大，但其计算和内存成本会随着序列长度呈二次方增长。这种 \(O(N^2)\) 的复杂度一直是主要障碍，使得在长文档、高分辨率图像或长音频片段上训练模型的成本高得令人望而却步。多年间，研究人员尝试过用近似注意力方法来驯服这只二次方增长的“猛兽”。这些方法牺牲部分模型精度以换取更高的效率，通常可以将复杂度降低到线性或近线性时间。但问题是: 这些理论上更快的方法在实践中并不一定能加快训练。它们减少了计算量 (FLOPs) ，却常常忽略现代硬件 (如 GPU) 上的真正瓶颈:** 内存访问**。斯坦福大学的一篇开创性论文《FLASHATTENTION: Fast and Memory-Efficient Exact Attention with IO-Awareness》提出，我们一直找错了方向。作者认为关键不仅是减少计算量，更要做到 IO 感知——智能管理数据在 GPU 不同层级内存之间的流动。他们由此设计了 FlashAttention，这是一种计算精确注意力的算法，比标准实现更快、更高效，而且不做近似计算，而是从硬件出发，彻底重新设计整个过程。这一创新带来了端到端训练速度的大幅提升，更重要的是，它使 Transformer 能够处理此前无法想象的超长序列，从而开启全新的能力。在本文的深入解析中，我们将揭开 FlashAttention 的技术细节，探讨标准注意力机制在硬件上的限制，并看看 FlashAttention 如何凭借巧妙的分块 (tiling) 与重计算 (recomputation) 完全规避这些问题。真正的瓶颈: 两种内存的故事要理解 FlashAttention 的高效性，我们需要先了解它运行所在的硬件。现代 GPU 有着内存层级结构，不同层级内存在容量与速度上的权衡各不相同。图 1: 左: 内存层级结构中，SRAM 容量小但速度快；HBM 和 DRAM 容量大但速度慢。中: FlashAttention 在 SRAM 中循环处理 \(K, V\) 和 \(Q\) 的分块，无需在 HBM 中生成完整的 \(N \times N\) 矩阵。右: PyTorch 注意力与 FlashAttention 在 GPT-2 上的运行时间对比——FlashAttention 的融合核实现了 7.6 倍加速。 ...

[WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization 🔗](https://arxiv.org/abs/2507.15061)

超越猜测：WebShaper 如何以数学精度打造更聪明的 AI 网络智能体

引言: 精通网络的 AI 面临的数据瓶颈由大型语言模型 (LLM) 驱动的智能体正迅速从简单的聊天机器人演化为能够处理复杂、开放任务的先进数字助手。像 OpenAI 的 Deep Research、谷歌的 Gemini 和 Perplexity AI 这样的系统，能够浏览网页、从多个来源收集信息，并综合回答几年前还无法解决的问题。这一核心能力被称为**信息寻求 **(Information-Seeking, IS) ——它是驱动下一代人工智能的引擎。然而，一个主要障碍正在阻碍进展: 高质量训练数据的稀缺。要教会智能体如何高效地寻求信息，你需要海量的数据集，其中包含复杂问题及解决这些问题所需的逐步推理和网页浏览过程。手动创建这类数据极其昂贵且耗时。研究人员自然想到用 AI 来生成合成数据。目前的主流方法——作者称之为**信息驱动 **(information-driven) ——是先从网络上抓取大量语料，再提示 LLM 基于这些内容生成问题。图 2: 数据合成范式从信息驱动 (左) 到形式化驱动 (右) 的转变。WebShaper 在收集数据前先定义精确的任务结构，颠覆了传统流程。虽然这看似合理，但存在两个关键缺陷: LLM 可能难以构建推理结构完全匹配检索信息的问题，导致答案不一致或错误。 “先收集，再提问”的方法效率低，经常出现冗余数据，限制了多样性。为解决这一问题，阿里巴巴集团的研究人员在论文《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中提出了一种根本性转变。他们不再先处理杂乱、无结构的网络数据，而是从一个关于 IS 任务的形式化数学蓝图入手。这种**形式化驱动 **(formalization-driven) 的方法，使他们能在收集所需信息之前精确控制任务的复杂性和结构，从而生成质量更高、更丰富且更一致的训练数据。本文将深入解析 WebShaper 框架: 其基于集合论的 IS 任务形式化方法、用于深度问题扩展的自主智能体系统，以及实验结果如何展示这一新范式能够训练出最先进的开源 IS 智能体。寻求知识的形式化蓝图在构造更好的问题之前，我们需要一种更好的方式来定义问题。作者认为，自然语言在系统化数据生成中过于模糊。因此，他们提出了一种用于 IS 任务的基于集合论的形式化语言。考虑论文中的这个例子: 哪位球员曾在 2004–05 赛季为一支成立于 1966 年的东德足球队效力，并且出生于 90 年代？ ...

[WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent 🔗](https://arxiv.org/abs/2508.05748)

WebWatcher：训练 AI 智能体像专业研究员一样看、读、推理

人工智能在研究领域正变得异常出色。像 OpenAI 的 DeepResearch 和 Google 的 Gemini 这样的系统，现在已经能够通过网页搜索、阅读文档和多步骤综合信息来解决复杂问题。这些深度研究智能体正在推动人工智能能力的边界。但它们有一个巨大的盲点: 几乎完全依赖文本。在现实世界——尤其是在网络上——信息不仅仅存在于文本中，还包括图表、示意图、产品图片、截图和信息图。一个不能看见的智能体，就会错过一半的信息。AI 智能体的下一个重要前沿是结合视觉与语言，来执行真正全面的研究。应对这一挑战远比听起来更难。一个多模态智能体需要的不仅仅是“眼睛”，它还需要复杂的推理能力，将所见与所读相结合。它必须掌握更丰富的工具，用于感知、知识检索、计算和跨模态推理。而现有的方法往往局限于简单的视觉任务或制式化、模板化的工作流。阿里巴巴集团的一篇新论文介绍了 WebWatcher —— 一种旨在突破这些限制的视觉-语言智能体。WebWatcher 通过利用高质量、自动生成的训练数据、灵活多样的工具集，以及结合监督学习与强化学习的两阶段训练过程，来学习开展深度研究。为评估其能力，作者还创建了 BrowseComp-VL —— 一个极具挑战性的多模态研究任务集。结果如何？WebWatcher 不仅略胜一筹，更在多项难度极高的多模态评估中， decisively 超越了 GPT-4o 和 Gemini-2.5-flash 等专有模型。现代 AI 智能体的盲点要理解 WebWatcher 的影响力，我们首先要看清当前智能体在视觉-语言推理中失败的原因。许多智能体陷入以下两种困境之一: 视觉专家: 能看但无法进行深度推理。文本专家: 能推理却无法正确地看。研究人员用 GAIA 基准测试中的一个棘手案例完美展示了这一问题: 智能体必须仅凭一张动物的图片，找到该动物在维基百科页面上 (2020 年之前) “visual edit” 标签的数量。图 1: 智能体解决复杂视觉-语言任务的三种方法对比。只有 WebWatcher 的多工具集成推理得出正确答案。 (原论文图 2) 具体表现如下: 标准 VL 智能体 —— 错误地识别动物 (“看起来像鹈鹕”) ，因此陷入僵局。它过度依赖浅层视觉分析，缺乏深度推理与网页浏览能力。纯文本搜索智能体 —— 无法将搜索与给定图像对应起来。它猜测 (“可能是企鹅或海鸥”) ，结果进行无关搜索，错失答案。 WebWatcher —— 执行真正的多步骤推理，在灵活的循环中结合 OCR、网页搜索、访问页面与交叉验证，直到找到正确答案。结论很明确: 解决复杂的现实问题需要跨模态的深度推理以及多样化工具的有效使用 —— 这正是 WebWatcher 的设计目标。 ...

[CODE2VIDEO: A CODE-CENTRIC PARADIGM FOR EDUCATIONAL VIDEO GENERATION 🔗](https://arxiv.org/abs/2510.01174)

忘掉像素，生成代码：深入解读 Code2Video 如何创作教育视频

我们都见证了人工智能驱动的视频生成技术所取得的惊人飞跃。像 Sora 这样的模型，能将简单的文本提示转化为令人惊叹、媲美真实照片的视频片段。但当你需要创作的视频不仅要好看，还要能真正传授知识时，情况又会如何呢？想一想你在 3Blue1Brown 这类 YouTube 频道上看到的教育视频——它们充满了精确的动画、清晰的公式，以及引导你理解复杂主题的逻辑流程。这些视频不仅仅是娱乐，它们一步步地构建和巩固知识。目前在像素空间中运作的视频生成模型，难以胜任这项任务。它们擅长生成具有美感的纹理和流畅的动态，但缺乏结构化教育内容所必需的精细控制。生成的文本常常乱码，图表可能不一致，而课程的逻辑递进几乎无法保证。来自新加坡国立大学的 CODE2VIDEO 作者提出了一种颠覆性的构想:** 不直接生成像素，而是生成渲染视频的代码。** 这种以代码为中心的方式，提供了教育视频所需的可控性、可解释性和可扩展性。在本文中，我们将探讨他们开创性的系统——Code2Video——一个基于智能体的框架，使用大语言模型 (LLM) 编写 Python 代码来生成高质量教育视频。我们还将解析 MMMC，一个全新的基准体系，不仅衡量视频的视觉吸引力，还评估其有效传授知识的能力。图 1: Code2Video 概览。该系统包含三个智能体——规划器 (Planner) 、编码器 (Coder) 和评论家 (Critic) ——将一个学习主题转化为教育视频，并在 MMMC 基准上从效率、美学和知识传递进行评估。像素在教学中的问题标准的文本到视频模型 (无论是基于扩散还是自回归) 通过预测帧或对潜在表示进行去噪来生成视频——也就是逐个像素地合成。虽然这能生成短小且视觉上令人愉悦的片段，但在教育内容方面却常常失效: 时间连贯性: 有效的课程遵循叙事弧线——先引入概念，再用示例说明，并逐步引导到更高级的思想。像素生成器本身无法理解教学的递进。空间清晰度: 精确的视觉效果至关重要。在数学教程中，一个被动画遮挡或字迹不清的公式足以破坏理解。像素模型常常无法实现精准的元素放置和清晰的文字渲染。可控性与可编辑性: 想调整公式中的一个数字或修改动画时间？在像素生成的结果中，这需要重新生成整个片段——可能损失质量与一致性。代码解决了这些问题。每一个位置、时序和元素都被明确定义，视频可从代码重新渲染并产生可预测的变化，同时保有结构性与灵活性。 MMMC 与 TeachQuiz: 评估教育效果在深入探讨 Code2Video 的工作原理前，我们需要先了解如何衡量成功。传统的视频质量指标不适用于教育材料——清晰度、逻辑顺序和知识传递比电影般华丽的效果更重要。 MMMC——海量多学科多模态编码 (Massive Multi-discipline Multimodal Coding) ——是这项工作提出的评估基准。它包含: 117 个专业制作的教育视频，来自 3Blue1Brown，覆盖 13 门学科 (微积分、物理、拓扑学等) 。所有视频均使用 Manim 创作，这是一个功能强大的 Python 数学动画库，非常适合作为代码生成的参考。 ...

[Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents 🔗](https://arxiv.org/abs/2504.00906)

Agent S2：AI 专家团队如何掌控你的电脑

想象一下，如果有一个 AI 助手能像人类一样使用你的电脑。它可以通过直接与图形用户界面 (GUI) 交互来预订你的旅行、根据你的笔记创建演示文稿，或者管理你的文件: 点击图标、在文本框中输入文字、拖动文件。这就是计算机使用智能体的愿景——这种自主 AI 系统有潜力自动化无数数字任务，并显著提升生产力。但构建这些智能体非常困难。对于 AI 来说，电脑屏幕并不是一串整齐的命令列表，而是一堆混乱的像素集合。目前的智能体通常在三个基本挑战上举步维艰: 定位不精确 (Imprecise Grounding): 它们很难将“点击保存图标”这样的指令映射到该按钮的确切像素坐标。误点击和漏选很常见。长程规划 (Long-Horizon Planning): 多步骤任务——例如在应用程序之间切换、处理弹出窗口或适应轻微的界面变化——常常让智能体出错。它们可能在任务中途迷失方向或卡住。通用模型瓶颈 (The Generalist Bottleneck): 大多数方法都依赖一个庞大的“通用”模型来处理从宏观规划到低层点击执行的全部工作。这就像要求一位 CEO 同时担任公司的设计师和会计师——或许能力出众，但缺乏在每项工作上都做到完美的专业技能。一篇新的研究论文介绍了 Agent S2，一个直面这些问题的框架。它不依赖于单个万能模型，而是将计算机使用视为一个需要团队协作的任务——将负责规划的通用模型与负责精确交互的专家模型相结合。最终？它实现了最先进的性能，显著超越了以往的方法。图 1: Agent S2 在 OSWorld 的 15 步和 50 步评估中，成功率均创下新的 SOTA 记录。背景: 构建计算机使用智能体的两条路径在深入了解 Agent S2 的架构前，我们先回顾一下当今的主流方法。 1. 单体式方法 (The Monolithic Approach) 这种方法使用一个强大的端到端模型 (通常是巨型多模态大语言模型) 。你给它一张屏幕截图和一条用户指令，它就会输出下一个动作——例如，“点击坐标 (450, 120)”。优点: ...

[THE UNREASONABLE EFFECTIVENESS OF SCALING AGENTS FOR COMPUTER USE 🔗](https://arxiv.org/abs/2510.02250)

一个智能体很好，十个更好：扩展策略如何解锁AI计算机助手的近人类性能

人工智能正变得越来越擅长使用计算机。我们现在拥有能够通过直接控制图形用户界面 (GUI) 来预订航班、管理电子表格和编辑照片的AI系统——就像人类用户一样。这些计算机使用智能体 (CUA) 有望自动化无数繁琐的数字任务。但这里有个问题: 尽管它们有时表现出色，但往往很脆弱。在一长串动作中，一个微小的失误——比如点击了错误的按钮、误解了菜单，或被弹出窗口干扰——都可能导致整个任务失败。对于复杂的多步骤工作流，这种不可靠性是一个重大障碍。甚至同一个智能体可能一次运行完美无缺，下一次却惨败，导致令人沮丧的高方差，从而限制了实际部署。那么，如果我们不依赖于单个、不完美的智能体，而是并行运行多个智能体，然后简单地选择最佳结果呢？这种扩展方法听起来很简单，但也引出了一个棘手的问题:** 如何自动判断哪次尝试才是真正的“最佳”**？ Simular Research 的一篇新研究论文正面解决了这个挑战。作者们提出了行为最佳N选 (bBoN) ，一个让扩展CUA不仅可行，而且高效到令人惊讶的框架。他们的方法在具有挑战性的 OSWorld 基准测试中取得了新的最先进水平——绝对性能提升10%，成功率达到69.9%，距离人类水平 (≈72%) 仅一步之遥。图 1: 在 OSWorld 上 100 步的性能。bBoN 方法以 10% 的绝对提升击败了之前的 SoTA，几乎达到了人类水平性能。在本文中，我们将探讨为何扩展智能体在根本上充满挑战，bBoN 框架如何借助行为叙事解决评估问题，以及为何其结果代表了构建稳健AI助手的一次重大飞跃。为何AI智能体会失误——以及扩展的困境要理解这篇论文的贡献，我们先来看看一个典型的 CUA 是如何工作的。你可以把它想象成一个解谜的智能体: 智能体看到一个观察 \(o_t\)——一张桌面截图。它执行一个动作 \(a_t\)——例如，agent.click(x, y)。它接收一个新观察，并持续操作，直到完成任务 (由用户指令 \(I\) 定义) 。传统研究主要聚焦于改进智能体的**策略 **(\(\pi\)) ——即在给定指令和观察历史的情况下，决定采取哪个动作的“大脑”。目标是产出一个能力卓越的智能体，执行一条成功的动作轨迹。即便是最好的策略也是概率性的，这意味着它们可能会意外失败。提升可靠性的常用策略之一是测试时扩展——生成多个候选解决方案并择优选取。有些方法采取步进式方案——在每一步，智能体提出多个可能的动作，由“评判器”选定一个再继续执行。虽然这有助于解决局部不确定性，但过早锁定单一路径，如果一开始选择了较难或次优的路线，就无法再切换到可能成功的更易路径。作者们探索了一种更强大的替代方案:** 轨迹级最佳N选**，或称广域扩展——即多个智能体从头到尾运行，生成完整的解决方案轨迹，然后选出整体最优的轨迹。图 2: 三个独立智能体运行中互不重叠的任务成功。bBoN 通过选择最有希望的轨迹来整合它们的优势。这种方法利用了一个事实: 不同的智能体——甚至同一智能体的不同运行——往往会以不同方式失败，但在互补的任务集上取得成功。通过生成多个不同运行，你就增加了至少有一个成功的概率。挑战在于评估并比较完整的轨迹。单个轨迹可能包含数百步操作，每步都有高分辨率截图。这是高密度的多模态数据，其中大部分与任务成功无关，而且许多计算机任务存在多种有效完成路径。那么，一个自动化评判器如何高效锁定正确轨迹？这正是 bBoN 所解决的问题。 ...

[EVOLUTION STRATEGIES AT SCALE: LLM FINE-TUNING BEYOND REINFORCEMENT LEARNING 🔗](https://arxiv.org/abs/2509.24372)

演化反击：一种出乎意料且强大的 LLM 微调方法

微调大型语言模型 (LLM) 是使其能有效解决特定现实世界任务的关键步骤。在模型于海量文本语料上完成预训练后，微调可以让它适应指令、对齐人类偏好，或掌握编程、医学、科学推理等专业领域技能。多年来，这一过程的无可争议的“王者”一直是强化学习 (RL) ，尤其是基于人类反馈的强化学习 (RLHF) ，它驱动了 ChatGPT 等里程碑式系统的诞生。但 RL 并不完美，它常常面临以下问题: 样本效率低: 需要巨量训练数据才能显著提升性能。跨次运行不稳定: 即使在完全相同的设置下，表现也可能不一致。容易奖励作弊 (reward hacking) ——通过投机取巧提升奖励分数，而并非真正解决问题。这些挑战使微调成本高、过程脆弱，有时甚至令人沮丧。如果还有另一种方法呢？一篇新论文——《规模化演化策略: 超越强化学习的 LLM 微调》——复活了一个源自优化领域的老理念，并证明它在当代 LLM 上同样能大放异彩。作者指出，曾被认为对十亿参数模型来说过于简单、低效的演化策略 (Evolution Strategies, ES) ，如今在准确率、稳定性和效率上都能媲美乃至超越 RL。这一发现挑战了长期共识，为 LLM 优化开辟了一条大胆的新道路。 RL vs. ES: 根本区别在介绍方法之前，先看看 RL 与 ES 的差异: 强化学习 (RL) : RL 将 LLM 视为一个在动作空间探索的智能体——在语言任务中，这些“动作”就是词元 (token) 的选择。模型按顺序逐个生成词元，在末尾根据整体输出获得奖励，然后必须推断出成功背后的词元组合。这种信度分配问题在奖励只在最后出现 (“长时程奖励”) 时尤其困难。演化策略 (ES) : ES 不去调整动作，而是直接在参数空间——即模型的数十亿权重——中进行搜索。每次迭代包括: 起点: 从一个基础模型 (“父代”) 开始。扰动: 向父代参数加入少量高斯噪声，生成“种群”中的多个变体模型。评估: 在任务上测试每个扰动模型，并分配“适应度”奖励。更新: 将噪声向量按奖励加权平均，更新父代，使其朝更优解前进。重复: 直至收敛。历来很多研究者认为 ES 无法高效探索 LLM 参数空间的天文级维度——就像“在宇宙级的草堆里找针”。这篇论文证明事实并非如此。 ...

[It's Raw! Audio Generation with State-Space Models 🔗](https://arxiv.org/abs/2202.09729)

SASHIMI：用状态空间模型切分原始音频

生成逼真、高保真的音频是机器学习领域的一大难题。想一想原始音频波形是什么: 对于每一秒的声音，它是由数以万计的数字——即采样点——组成的序列。要生成哪怕几秒钟连贯的音乐或语音，模型既需要理解复杂的局部模式 (如钢琴音符的质感) ，同时又必须在数十万个时间步上维持全局结构 (如旋律的演进或一个完整的句子) 。多年来，这个问题一直由循环神经网络 (RNN) 和卷积神经网络 (CNN) 的特化版本来解决。像 SampleRNN 和著名的 WaveNet 这样的模型已经将可能性推向了极限，但它们各自都有根本性的权衡: RNN 训练速度慢，因为它们是按顺序处理数据——一次一个采样点。 CNN 由于并行化，训练速度更快，但受其感受野限制，难以捕捉非常长程的依赖关系。如果我们能两全其美呢？一个既能像 CNN 一样并行训练，又能像 RNN 一样高效生成，同时还能建模真正长程结构的模型？斯坦福大学最近的一篇论文《原始音频！使用状态空间模型生成音频》 (It’s Raw! Audio Generation with State-Space Models) 就介绍了这样一种模型: SASHIMI**。它利用深度状态空间模型 (SSM) 实现了更快的训练、高效的生成，并且其生成音频在人类评估中被认为比前辈们在音乐性和连贯性上显著更优。在本文中，我们将详细解析 SASHIMI 的工作原理: 回顾自回归音频建模及其前辈模型。 SASHIMI 核心的结构化状态空间序列模型 (S4) 。确保生成结果正常的稳定性修复方法。能够跨越从微观细节到宏观结构的多尺度架构。音乐和语音生成基准测试结果。背景: 追求完美的音频模型自回归建模: 一次一个采样点，预测未来其核心在于，自回归 (AR) 模型通过基于所有先前时间步来预测当前时间步，从而学习序列的概率分布。形式上，对于一个音频波形 \(x = (x_0, x_1, \dots, x_{T-1})\): \[ p(x) = \prod_{t=0}^{T-1} p(x_t \mid x_0, \dots, x_{t-1}) \]训练: 模型观察一个真实音频序列，并在每一步预测下一个采样点。生成: 从一小段种子音频 (或静音) 开始，模型从预测分布中采样，将采样点附加到输入上，然后重复这一过程——一次一个采样点地构建完整波形。 ...

[Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models 🔗](https://arxiv.org/abs/2208.09399)

超越缺口：深入解析 SSSD 在时间序列插补与预测中的应用

引言: 缺失时间的问题想象一下，你是一位医生，正在通过心电图 (ECG) 监测病人的心脏，但传感器突然出故障，丢失了几秒关键数据。或者，你是一位金融分析师，正在追踪股票价格，而数据源突然出现缺口。缺失数据不仅让人不便——它在现实应用中极为常见，可能破坏机器学习模型，引入偏差，并导致错误结论。对于时间序列数据——时间的连续性和顺序至关重要——这些缺口尤其具有破坏性。大多数机器学习算法无法容忍缺失值，因此常见的解决办法是**插补 **(imputation) : 用合理的估计值填补缺失条目。那么，什么才是好的估计呢？简单做平均可能会抹平重要峰值，而朴素插值可能完全忽略潜在趋势。糟糕的插补会污染下游分析结果。论文《Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models》提出了一种新模型——SSSD (Structured State Space Diffusion) ，旨在应对这一挑战。它结合了两种强大的现代深度学习技术: 扩散模型 (Diffusion Models) — 先进的生成模型，通过逆转逐渐加噪的过程来生成逼真的数据。结构化状态空间模型 (S4) — 用于捕捉序列长程依赖的高效架构，性能常常超越 RNN 和 Transformer。融合两者，作者构建了一个在多种基准测试中均取得当前最佳 (state-of-the-art) 结果的模型，即使是在最困难的情形——如填补大段连续缺失数据块——也能表现优异，而传统方法在这类场景下往往完全失效。本文将从基础理论到架构与训练策略，完整解析 SSSD 的工作原理，并展示实验结果，说明它为何代表了时间序列建模的重大进步。背景: SSSD 的核心构件在探讨架构之前，先理解 SSSD 的基础概念: 缺失类型、扩散模型原理以及状态空间模型的优势。缺失场景并非所有缺失模式的难度相同。论文主要关注以下四种场景，如下图所示。图 1: 缺失场景示例。蓝色区域为已知数据；灰色区域为待插补的缺失点。浅/深绿色带表示多次插补的预测区间；橙色为一次插补样本。随机缺失 (RM) : 序列中零散的数据点随机缺失——通常是最简单的情形，因为邻近值可提供估计依据。随机块缺失 (RBM) : 连续数据块缺失，不同通道的缺失位置不同。黑块缺失 (BM) : 所有通道缺失同一段连续数据块——严重挑战，因为无法利用其他通道的对齐信息。时间序列预测 (TF) : BM 的特例，缺失块位于序列末尾——任务变为预测未来数据点。 SSSD 针对全部上述场景，尤其擅长 BM 与 TF。 ...