深度论文轻松读懂

直观理解每一篇文章的故事

[BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 🔗](https://proceedings.mlr.press/v162/li22n/li22n.pdf)

BLIP：通过生成描述+过滤引导更好的图文模型，以实现统一的视觉-语言 AI

引言视觉-语言模型能够同时理解图像 (例如回答问题、检索匹配的描述) 并围绕图像生成语言 (例如撰写描述性标题) ，近年来取得了显著进展。然而，大多数现有的预训练模型往往在“理解” (基于编码器的任务，如检索) 或“生成” (基于解码器的任务，如图像描述) 方面表现突出，但很少能两者兼顾。此外，本领域性能提升的很大一部分来自于简单地扩大从网络上收集的嘈杂图文对训练数据量，这是一种方便但并非最佳的监督来源。 ...

[Segment Anything 🔗](https://arxiv.org/abs/2304.02643)

分割任意对象：为图像分割构建基础模型

Segment Anything: Building a Foundation Model for Image Segmentation 分割 (segmentation) 是将图像中目标的精确边界勾画出来的任务，广泛应用于照片编辑、机器人、医学影像和自动驾驶等众多场景。尽管应用普遍，分割长期缺乏一个“基础模型”——即一个单一、广泛适用并且可通过“提示 (prompt) ”驱动的模型，能够像大型语言模型那样在各种任务和领域中泛化。 Segment Anything (SA) 项目大胆地填补了这一空白。它引入了一项新任务、一种新模型架构以及一个创新的数据引擎，合力产出 Segment Anything Model (SAM) 和迄今为止最大的分割数据集: SA-1B , 包含 1100 万张图像和惊人的 11 亿个掩码。 ...

[Learning Transferable Visual Models From Natural Language Supervision 🔗](https://arxiv.org/abs/2103.00020)

CLIP 解析：用语言教视觉模型（以及为什么有效）

想象一下，你正在构建一个图像分类器，但每次想要识别新的一组类别时，都不需要重新训练它。与其为“伯恩山犬”或“停止标志”等特定类别收集数千张带标签的照片，不如你只需告诉模型: “一张{label}的照片”，它就能理解。这就是 CLIP (Contrastive Language–Image Pre-training) 的承诺，它是 OpenAI 的一个简单但强大的想法: 通过对从网上抓取的 (图像，标题) 对进行训练，学习联合的图像-文本嵌入，然后将自然语言用作零样本分类的接口。 ...

[Vision Transformers are Robust Learners 🔗](https://arxiv.org/abs/2105.07581)

为什么视觉变换器出人意料地稳健：来自《视觉变换器是稳健的学习者》的洞见

介绍多年来，视觉领域的深度学习以卷积神经网络 (CNN) 为主导。然而，最近视觉变换器 (Vision Transformers，ViTs) ——由最初在自然语言处理 (NLP) 中普及的自注意力模块构建的模型——迅速跃居该领域前沿。它们在许多标准基准上能够与 CNN 匹敌甚至超越，但在干净测试集上的准确率只是故事的一部分。如果一个视觉模型要在现实世界部署，其稳健性至关重要: 模型对常见扰动、小的扰动、分布迁移或自然界中具有挑战性的 (对抗性) 图像的处理能力如何？ ...

[Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet 🔗](https://arxiv.org/abs/2101.11986)

从像素到令牌：T2T‑ViT 如何让 Transformer 在 ImageNet 上发挥作用

Introduction Transformer 已经革新了语言处理领域，但将其成功迁移到计算机视觉任务并非易事。Vision Transformer (ViT) 证明了可以将图像视为令牌序列并应用纯 Transformer 层来进行分类。然而，ViT 通常需要大规模的预训练数据集 (如 JFT-300M) ，才能在像 ImageNet 这样的中等规模数据集上达到与精调良好的卷积神经网络 (CNN) 相当的精度。 ...

[Foundations & Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions 🔗](https://arxiv.org/abs/2209.03430)

多模态AI巡礼：塑造未来的六大核心挑战

人类通过多种感官融合来感知世界: 视觉、听觉、触觉、语言等等。现代人工智能正试图做到同样的事情。多模态机器学习研究如何结合不同类型的信号——图像、音频、文本、传感器数据——使系统能够以更丰富、更接近人类的方式理解世界。 ...

[SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing 🔗](https://arxiv.org/abs/2110.07205)

SpeechT5：一个模型统领所有语音与文本任务

在人工智能领域，模型往往是高度专业化的——一个负责将语音转换成文本，另一个负责将文本转化为语音，还有的则负责跨语言的语音翻译。它们各自在自己的领域中表现优异，却被限制在各自的模态之内。那么，如果我们能打破这些界限，构建一个能够处理所有口语相关任务的通用模型，会怎样呢？ ...

[Robust Speech Recognition via Large-Scale Weak Supervision 🔗](https://arxiv.org/abs/2212.04356)

Whisper：深入探究 OpenAI 对人类级语音识别的追求

自动语音识别 (ASR) 技术已达到非凡的高度。现代系统能够以惊人的准确性转录清晰的朗读语音，有时甚至在学术基准测试中超越人类表现。然而，这一成就背后隐藏着至关重要的弱点。当面对日常音频——带口音的语音、背景噪音、口语化表达——这些系统的准确率往往会急剧下降。它们过度拟合于纯净的实验室条件，缺乏人类听众所具备的灵活性与鲁棒性。 ...

[AST: Audio Spectrogram Transformer 🔗](https://arxiv.org/abs/2104.01778)

AST：视觉 Transformer 是如何学会聆听的

近十年来，如果你想构建一个前沿的音频分类系统，你的首选架构便是卷积神经网络 (CNN) 。从通过叫声识别鸟类到识别口语单词，CNN 长期以来一直主导着这个领域。它们能够检测音频频谱图——声音的视觉表示——中的局部结构，使其成为天然的选择。 ...

[BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 🔗](https://arxiv.org/abs/2301.12597)

BLIP-2：如何高效地教会大型语言模型“看见”

在过去的几年里，人工智能领域取得了令人瞩目的飞跃。像 GPT-4、LLaMA 和 FlanT5 这样的大型语言模型 (LLM) 已经证明，机器可以写诗、撰写论文、调试代码，并进行高度连贯的对话。然而，尽管它们在语言方面展现出卓越的能力，却有一个明显的局限: 它们无法看见。这些模型生活在一个纯文本的世界里，无法感知我们环境中丰富的视觉信息。 ...

[DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 🔗](https://arxiv.org/abs/2501.12948)

超越记忆：DeepSeek-R1 如何教会大语言模型真正地推理

大语言模型 (LLM) 在撰写邮件、总结文章甚至生成代码等任务上已变得异常熟练。但流畅的文本生成与真正的多步推理之间存在着关键差异。模型能解决一个它从未见过的竞赛级数学难题吗？它能调试一个复杂的算法吗？这些正是人工智能的前沿——模型必须从模式匹配过渡到真正的解决问题。 ...

[Why think step by step? Reasoning emerges from the locality of experience 🔗](https://arxiv.org/abs/2304.03843)

思维链为何有效：关键在于局部经验

引言: 思考的神秘力量人类拥有一种非凡的能力。当面对一个无法一蹴而就的复杂问题时——比如一道棘手的数学题、规划一次多站点的旅行，甚至理解一篇艰深的研究论文——我们能够将其分解。我们一步步地思考，将一个个较小、可管理的推断链接起来，直到得出解决方案。这种推理过程感觉如此自然，以至于我们很少停下来问一个根本性的问题: 它究竟为什么会起作用? 毕竟，思考并不会给我们带来新的外部数据——它只是重新组织我们已经知道的信息。 ...

[Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 🔗](https://arxiv.org/abs/2005.11401)

RAG：如何让你的大语言模型进行一场开卷考试

像 GPT-4 这样的大语言模型 (LLM) 非常强大。它们能够编写代码、创作诗歌、总结文章，并以惊人的流畅度解释复杂的主题。这种能力源于参数化记忆——它们在训练过程中吸收的海量知识，存储在数十亿个神经参数当中。 ...

[Gradient Variance Reveals Failure Modes in Flow-Based Generative Models 🔗](https://arxiv.org/abs/2510.18118)

当直线失效：梯度方差如何揭露整流流中的记忆化

引言生成建模取得了令人瞩目的进展，基于评分 (score-based) 的方法和神经常微分方程 (ODE) 流已能将简单噪声转化为极其清晰的图像、音频或复杂的分子结构。其中一个特别吸引人的概念是“直流” (straight flows) ——学习一个向量场，使得从已知源分布 (例如标准高斯) 到目标数据分布的轨迹几乎是直线。这种直线性使得从噪声到数据的生成变得非常快速，往往可以一步完成。Rectified Flows (整流流，ReFlow) 就是为实现这一目标而设计的，旨在通过迭代地“拉直”运输路径来实现更快、更高效的采样。 ...

[TraMamba: An Efficient and Semantic-rich Vehicle Trajectory Pre-training Model 🔗](https://arxiv.org/abs/2510.17545)

TrajMamba 解读：快速、目的感知的车辆轨迹嵌入

引言车辆的 GPS 轨迹无处不在，存在于出租车、配送车队和网约车的日志中。每条轨迹都讲述着丰富的移动故事——车辆从哪里出发、如何行驶 (直行、转弯、停车) 以及最终目的地。将这一叙事提取为紧凑的向量 (即嵌入) 对于多种智能交通系统 (ITS) 应用非常有价值，包括轨迹预测、高效路径规划、异常检测等。 ...

[Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery 🔗](https://arxiv.org/abs/2505.17677)

Seeing Surgery in 3D: How OphNet-3D Reconstructs Hands and Tools for Microsurgical Analysis

引言试想仅凭一段平面的二维视频去教授或评估眼科显微外科 (如白内障手术) 所需的极其精细的运动技能。这些手术中，外科医生手腕的细微朝向、手指放置或手术器械的精确角度——通常在亚毫米尺度——对成功结果至关重要。然而目前的技能评估往往依赖主观的专家监督，这既不可扩展也不够客观，难以满足现代培训需求。 ...

[A Unifying View of Linear Function Approximation in Off-Policy RL Through Matrix Splitting and Preconditioning 🔗](https://arxiv.org/abs/2501.01774)

介绍强化学习依赖自举 (bootstrapping) : 用估计去更新另一个估计。但当自举与函数逼近和离策略数据结合时，经常会出现不稳定性——即所谓的“致命三角”。两种广泛使用的价值估计方法在表面上的稳定性谱上位于相反两端: 时序差分学习 (TD) 简单且增量式，但在离策略时可能发散；拟合 Q 迭代 (FQI) 在实践中 (尤其是批量设置下) 通常被观察到更稳定。 ...

[Towards Physics-informed Spatial Intelligence with Human Priors: An Autonomous Driving Pilot Study 🔗](https://arxiv.org/abs/2510.21160)

Teaching Machines to 'See' Space: Grid-Based Spatial Intelligence for Autonomous Driving

Teaching Machines to ‘See’ Space: Grid-Based Spatial Intelligence for Autonomous Driving Introduction: Beyond Linguistic Shortcuts in AI Spatial Reasoning 想象询问一辆自动驾驶汽车: “哪辆车在那辆黑色卡车的后面，它有多远？” 对人类来说，回答这个问题涉及对空间关系的直观理解，依赖于内在的心理地图和选择性注意力。我们本能地理解“在左边”“在前面”等概念以及不同的距离感，并将它们与视觉焦点结合起来。 ...

[Memory-Enhanced Neural Solvers for Routing Problems 🔗](https://arxiv.org/abs/2406.16424)

MEMENTO: Teaching Neural Solvers to Remember — Faster, Smarter Routing with Memory-Augmented Inference

引言路径规划问题，例如旅行商问题 (TSP) 和带容量的车辆路径问题 (CVRP) , 是无数现实应用的基础。从优化配送路线和调度维护队伍，到复杂的芯片制造，这些问题都需要高效的解决方案。然而，它们的 NP-难性质意味着随着问题规模的增长，找到精确解在计算上变得不可行。因此，工业应用在很大程度上依赖于复杂的启发式方法和搜索算法。 ...

[Streaming Attention Approximation via Discrepancy Theory 🔗](https://arxiv.org/abs/2502.07861)

平衡过去：如何用差异理论压缩长上下文 Transformer 的 KV 缓存

Introduction Transformer 解码器，是现代大语言模型 (LLM) 背后的核心组件，通过逐个生成 token 工作。为了维护上下文并避免重复计算，它会存储不断增长的此前生成的 key (\(K\)) 和 value (\(V\)) 嵌入，这就是所谓的“KV 缓存”。这个缓存是关键组成，但也是主要的内存瓶颈，尤其当模型处理越来越长的上下文时。每增加一个新 token，就会为每个注意力头和层添加一个 \(d\) 维的 key 和一个 \(d\) 维的 value，导致内存需求随上下文长度线性增长。 ...