Deep Paper

[Towards Automated Circuit Discovery for Mechanistic Interpretability 🔗](https://arxiv.org/abs/2304.14997)

逆向工程 AI：深入探索自动化电路发现

现代 AI 模型——尤其是像 GPT-4 这样的大型语言模型——拥有惊人的能力。它们能够编写代码、总结研究论文、解释复杂的概念。然而，尽管这些成就令人瞩目，我们并不真正知道它们是如何做到的。每个模型内部都藏着一个由数十亿参数组成的迷宫，形成了一个极其复杂的网络，其逻辑几乎完全不透明。这使得 AI 系统常被称为“黑箱”。 ...

[From superposition to sparse codes: interpretable representations in neural networks 🔗](https://arxiv.org/abs/2503.01824)

破解密码：神经网络如何将可解释特征藏于显眼之处

人工智能，尤其是我们每天与之互动的大型语言模型 (LLM) ，常常让人感觉像一个黑箱。我们看到的是它引人注目的输出——连贯的文本、惊艳的图像、深刻的分析——但其内部运作机制仍被神秘笼罩。一个人工神经网络究竟是如何表征“大象”、“正义”或“粉色”这类概念的呢？这不仅仅是一个学术谜题。随着人工智能日益深入医疗、金融和政策等关键领域，理解它如何表征信息，对于确保可信、安全和可靠至关重要。 ...

[On the Complexity of Neural Computation in Superposition 🔗](https://arxiv.org/abs/2409.15318)

叠加之困：一个神经元究竟能计算多少个特征？

像 Claude 3 Sonnet 这样的现代 AI 模型是语言奇才——但在其表象之下隐藏着一个引人入胜的谜团。Anthropic 的研究人员最近在该模型中发现了大约一千二百万个独特的、人类可解释的“特征”。一个特征可以是具体的概念，如“金门大桥”，也可以是抽象的概念，如“用 Python 编写的代码”。令人困惑的是，该模型的神经元数量远少于特征数量。 ...

[SPARSE AUTOENCODERS FIND HIGHLY INTERPRETABLE FEATURES IN LANGUAGE MODELS 🔗](https://arxiv.org/abs/2309.08600)

超越神经元：用稀疏自动编码器发现语言模型中的真正特征

像 GPT-4 这样的大语言模型 (LLM) 展现了惊人的能力，但一个根本性问题依然存在——它们究竟是如何工作的? 我们可以看到它们的输入和输出，但其预测背后的内部推理过程却深埋在数十亿个参数之中。这种不透明性是构建安全、公平和可信系统的主要障碍。如果我们不理解模型为什么会做出某个决定，又如何纠正或防止有害行为呢？ ...

[Mathematical Models of Computation in Superposition 🔗](https://arxiv.org/abs/2408.05451)

超越存储：解析叠加态计算背后的数学原理

引言: 神经网络拥挤的思维如果你曾试图理解神经网络在“想”什么，你很可能遇到过一个令人困惑的现象，称为多义性 (polysemanticity) ——即单个神经元会对多个看似无关的概念产生激活。一个神经元可能同时对“猫”、“速度”和颜色“红色”做出响应。对于研究机制可解释性 (mechanistic interpretability) 的学者来说，这使得逆向工程网络变得极具挑战性。 ...

[Adversarial Examples Are Not Bugs, They Are Superposition 🔗](https://arxiv.org/abs/2508.17456)

揭开对抗攻击的面纱：神经网络如何通过叠加态欺骗自己

近十年来，一个幽灵一直萦绕在深度学习的殿堂: 对抗样本。这些输入 (通常是图像) 经过微小、人类难以察觉的扰动修改，却能完全欺骗最先进的神经网络。一张熊猫的照片，加上一点精心调整的噪声，在机器眼中就突然变成了一只长臂猿。 ...

[Toy Models of Superposition 🔗](https://arxiv.org/abs/2209.10652)

当神经元变得拥挤：深入探究叠加现象

如果你曾尝试逆向工程一个神经网络的行为，你很可能注意到一个让人沮丧的事实: 神经元很“乱”。一些神经元表现得像干净的检测器——“这里是曲线”、“那里是狗鼻子”——而许多其他神经元则是多语义的 (polysemantic) : 它们会对看似毫无关联的事物作出响应。为什么会这样？Anthropic 于 2022 年发表的论文《叠加的玩具模型》 (Toy Models of Superposition) 给出了一个简明的解释: 在许多情况下，网络试图表示的稀疏特征远超其神经元数量，因此它们将多个特征“打包” (或“叠加”) 到重叠的激活模式中。这种打包带来了多语义神经元、结构化的干扰，以及 (令人意外的) 美丽几何结构。 ...

让 AI 变得可理解：深入探索权重稀疏回路

像 GPT-4 这样的大语言模型 (LLM) 重新定义了人工智能的边界。它们能够生成代码、撰写文章，并以近乎人类的流畅度解释概念。然而，尽管它们功能强大，其内部工作机制仍然在很大程度上是个谜。这些模型内部包含数十亿个参数，构成了错综复杂的连接网络——复杂到我们常常将其称作“黑箱”。我们可以观察输入和输出，但无法理解中间的推理过程。 ...

[WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation 🔗](https://arxiv.org/abs/2511.06251)

WebVIA：探索、编码并验证交互式网站的 AI 智能体

从静态模型到可运行的原型想象一下，你是一名前端开发者，被交付了一份精美的设计稿。将这张图片转换成一个功能完备的网站——HTML 用于结构、CSS 用于样式、JavaScript 用于行为——常常是一项繁琐的重复性工作。现代的视觉语言模型 (VLM) 已经可以生成看起来正确的标记语言，但它们生成的大部分只是视觉上的“外壳”: 按钮看似可点击、菜单看似下拉、表单看似可填写——实际上却不会响应用户操作。 ...

[LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls 🔗](https://arxiv.org/abs/2511.09148)

超越静态数据：LoopTool 的自校正循环如何打造更智能的 LLM 代理

大语言模型 (LLM) 已经改变了自然语言处理领域，但只有当它们能够与外部世界互动时，其全部潜力才能得以释放。通过学习使用工具——例如 API、数据库或代码执行函数——LLM 从文本生成器进化为能够推理和行动的智能代理。想象一下，一个 AI 助手可以在一场对话中无缝地预订航班、分析销售数据并撰写商业报告。这正是工具增强型语言模型所带来的前景。 ...

[WMPO: World Model-based Policy Optimization for Vision-Language-Action Models 🔗](https://arxiv.org/abs/2511.09515)

在梦境中训练机器人：WMPO 如何教机器人从想象的失败中学习

想象一下，一个机器人能听懂你的指令: “拿起红色积木，放到蓝色积木上。” 这正是视觉-语言-动作 (VLA) 模型所承诺的未来——融合视觉、语言理解与物理控制的机器人技术新前沿。训练这类模型最常见的方法是模仿学习: 向机器人展示成千上万次人类示范的例子，让它模仿这些行为。 ...

[TiDAR: Thinking in Diffusion and Talking in Autoregression 🔗](https://arxiv.org/abs/2511.08923)

思考快，表达准：TiDAR 如何解锁 6 倍 LLM 推理速度

大型语言模型 (LLM) 席卷全球，但任何使用过它们的人都注意到，当模型生成响应时，总会出现一个轻微的停顿——模型是一 token 一 token 地生成的。这种顺序、逐步的生成方式是自回归 (AR) 模型的特征，也是 GPT、Claude 和 Llama 等模型背后的核心架构。AR 模型以其非凡的连贯性和准确性而著称，但这种高质量是以速度为代价的。因为每个新 token 都依赖于前一个，它们天生就慢。 ...

[Diffusion Models: A Comprehensive Survey of Methods and Applications 🔗](https://arxiv.org/abs/2209.00796)

扩散模型的全景之旅：从基础到前沿

从不存在的人物的超写实肖像，到仅凭一句话绘出的史诗级风景，扩散模型为当今许多最令人惊叹的生成系统提供了动力。短短几年间，它们已从一个前景广阔的理论，发展成为图像、视频、3D、音频乃至分子设计等领域中最先进系统的核心支柱。 ...

[Walking the Tightrope of LLMs for Software Development: A Practitioners’ Perspective 🔗](https://arxiv.org/abs/2511.06428)

大语言模型的钢丝——开发者如何在 AI 编程助手的机遇与风险间取得平衡

像 ChatGPT 和 GitHub Copilot 这样的大语言模型 (LLM) 已经席卷了软件开发领域，承诺带来一场真正的革命。我们都听过这样的故事——开发者在几分钟而非几小时内完成复杂任务，AI 结对程序员永不疲倦，团队运作速度似乎比以往任何时候都快。这种兴奋感是显而易见的。公司正争相将这些工具整合进工作流程，而开发者们也在重塑自己的开发方式，常常用一个对 AI 助手的快速提问代替过去对文档或 Stack Overflow 的深入查阅。 ...

[Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces 🔗](https://arxiv.org/abs/2511.07587)

赋予LLM记忆：生成式语义工作空间如何帮助AI理解故事

大型语言模型 (LLM) 令人惊叹，但它们存在记忆问题。让它总结一份10页的报告，它可能表现出色。但如果让它从一本500页的小说中回忆第七页的某个细节，并将其与第二页的一个想法联系起来，模型的短板便显现出来。这并非智力不足，而是架构上的根本限制: 上下文窗口 (context window) 。 ...

[KLASS: KL-Guided Fast Inference in Masked Diffusion Models 🔗](https://arxiv.org/abs/2511.05664)

超越置信度：KLASS 如何利用稳定性解锁更快、更优的扩散模型

掩码扩散模型 (masked diffusion models) 已成为生成式建模中最强大的框架之一。从复杂推理与语言生成到图像合成和分子设计，这些模型能够迭代地精炼被掩码的数据，以产生连贯且高质量的输出。 ...

[Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B 🔗](https://arxiv.org/abs/2511.06221)

从谱到信号原则：一个成本仅 8 千美元的小模型如何学会像 AI 巨头一样推理

在人工智能领域，*“越大越好”*长期以来一直是主流哲学。诸如 DeepSeek R1 (671B 参数) 和 Kimi K2 (超过一万亿参数) 这样的巨头定义了最前沿的推理能力，并推动了一场向规模化发展的军备竞赛。普遍的信念是: 复杂的推理是巨型模型的专属领域，而小模型根本无法竞争。 ...

[CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration? 🔗](https://arxiv.org/abs/2510.24505)

超越对错：教LLM判断自身置信度

大型语言模型 (LLM) 的能力惊人，但它们的自信也同样危险。当一个LLM生成听起来完美无瑕、但实际上完全错误的医疗诊断或法律分析时，问题不仅在于准确性，更在于错位的确定性。在高风险领域，未经校准的置信度会将错误转化为风险。 ...

[HaluMem: Evaluating Hallucinations in Memory Systems of Agents 🔗](https://arxiv.org/abs/2511.03506)

我的AI记得什么？揭示AI记忆中隐藏的幻觉

我们都曾有过这样的经历。你正与一个AI助手进行一场漫长且细致的对话——分享你的偏好、生活事件和项目进展。你感觉它终于懂你了。然后，在之后的一次聊天中，它自信地提到一个你从未告诉过它的“事实”，或忘记了你们深入讨论过的内容。这不仅仅是一个小故障——这被称为记忆幻觉 , 是构建可信赖、长期AI伙伴的主要障碍。 ...

[Jailbreaking in the Haystack 🔗](https://arxiv.org/abs/2511.04707)

藏于无形：NINJA 攻击如何利用长上下文绕过大语言模型安全机制

语言模型正在飞速发展。不久之前，一个模型能够处理几页文本就已经令人惊叹。如今，百万级 token 的模型可以一次性处理整本书籍或完整的软件代码库。这种能力正推动着诸如计算机操作智能体等应用的突破，这些智能体能够自主地与数字世界交互。 ...