](https://deep-paper.org/en/paper/2306.11695/images/cover.png)
Wanda:一种同时关注权重*和*激活值的 LLM 剪枝方法
像 LLaMA 和 GPT-4 这样的大语言模型 (LLM) 已经彻底改变了自然语言处理领域,但其强大的能力也伴随着高昂的代价。这些模型拥有数十亿个参数,导致它们在运行时计算成本高、内存消耗大,并且对环境要求苛刻。这引发了一场竞赛,旨在让这些模型变得更小、更快、更高效,同时又不牺牲其卓越的性能。 ...
](https://deep-paper.org/en/paper/2306.11695/images/cover.png)
像 LLaMA 和 GPT-4 这样的大语言模型 (LLM) 已经彻底改变了自然语言处理领域,但其强大的能力也伴随着高昂的代价。这些模型拥有数十亿个参数,导致它们在运行时计算成本高、内存消耗大,并且对环境要求苛刻。这引发了一场竞赛,旨在让这些模型变得更小、更快、更高效,同时又不牺牲其卓越的性能。 ...
](https://deep-paper.org/en/paper/2301.00774/images/cover.png)
像 GPT 系列这样的大语言模型 (LLM) 已经彻底改变了人工智能,在从编写代码到总结文档和生成创意文本等各种任务中展现出卓越的智能。但这种强大的能力伴随着惊人的计算成本。最大的开源模型,如 OPT‑175B 和 BLOOM‑176B,包含超过 1750 亿个参数 , 需要庞大的存储和内存容量。运行此类模型进行推理可能需要多块高端 GPU——例如,五块各带 80 GB 显存的 NVIDIA A100——这使得大多数开发者和研究人员望而却步。 ...
](https://deep-paper.org/en/paper/1803.03635/images/cover.png)
现代神经网络堪称庞然大物。像 GPT-3 这样的模型包含数千亿个参数,需要海量数据和惊人的计算资源。深度学习领域普遍认为,这些网络是过度参数化的——它们拥有远超完成任务所需的连接数量。 ...
](https://deep-paper.org/en/paper/2406.16778/images/cover.png)
为 Transformer 瘦身: 通过边剪枝揭示隐藏电路 像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 功能强大,但同样神秘莫测。我们可以用它们写文章、生成代码、解决谜题,却很少知道它们是如何得出结论的。这种“黑箱”特性使得构建更安全、更可靠的 AI 系统变得艰难。 ...
](https://deep-paper.org/en/paper/2104.03514/images/cover.png)
像 BERT 这样的大型语言模型是现代自然语言处理 (NLP) 的强大引擎。它们可以以惊人的流畅度撰写文章、翻译语言并回答问题。然而,尽管它们功能强大,却依旧神秘。我们知道它们从海量文本中学习,但它们究竟学到了哪些关于语言的知识?它们是否真的以我们能够识别的方式理解了句法、语义和语法? ...
](https://deep-paper.org/en/paper/2003.03033/images/cover.png)
引言 现代深度学习是一场关于“规模”的故事。像 GPT-3、DALL·E 2 以及最前沿的视觉 Transformer 等模型,极大地推动了深度学习的边界——在自然语言、图像和推理任务上都取得了惊人的成果。然而,这些成功是以巨大代价换来的: 模型规模庞大,消耗海量的计算资源、内存和能源。训练它们需要高昂的成本,而将它们部署到智能手机或物联网设备上往往不切实际。 ...
](https://deep-paper.org/en/paper/2406.11944/images/cover.png)
像 GPT‑4 这样的大语言模型 (LLM) 可以写诗、调试代码、解释复杂的科学概念。但如果你问它们是如何做到这些的,答案往往是耸耸肩。这些模型是著名的“黑箱”——由数十亿参数构成的庞大网络,其中的复杂计算超出了人类的理解范围。 ...
](https://deep-paper.org/en/paper/2403.19647/images/cover.png)
像 GPT-4 这样的语言模型可以写诗、编程和撰写有说服力的文章。但它们究竟是如何做到的呢?如果你问一位人工智能研究员,你可能会看到一张充满“神经元”和“注意力头”的复杂图表。这就像试图通过检查字母来理解小说的情节——它能告诉你一些信息,但对故事内容却几乎不了解。每个神经元都是多义的 (polysemantic) , 同时扮演着多种角色。这使得我们难以将模型的行为与其内部机制对应起来,从而在安全性、可靠性和偏见控制方面面临重大挑战。 ...
](https://deep-paper.org/en/paper/2407.14435/images/cover.png)
引言: 稀疏性与保真度的两难困境 机理可解释性 (Mechanistic interpretability) 研究人员长期以来一直致力于揭示大型语言模型 (LM) ,如 Gemma 或 GPT-4,是如何组织其内部表征的。在这项探索中,一个强大的工具是 稀疏自编码器 (Sparse Autoencoder, SAE) ——一种将密集的激活向量分解为称为 特征 的更简单构建块的模型。想象一下,一个语言模型的激活代表其“思维”,由数千个数值组成。SAE 将这种复杂性简化为几个成分,例如 70% “语法” 、40% “计算机代码” 、10% “正式写作” 。 ...
](https://deep-paper.org/en/paper/2406.04093/images/cover.png)
像 GPT‑4 这样的大语言模型 (LLM) 功能极其强大,但仍然高度不透明。我们可以观察它们的输入和输出,但隐藏层中复杂的内部计算——模型的“思维过程”——在很大程度上仍是谜团。我们如何才能开始理解模型学到的概念,从蓝色这样的简单想法,到法律推理或风险评估等抽象概念? ...
](https://deep-paper.org/en/paper/2406.17969/images/cover.png)
像 GPT‑4 和 Llama 3 这样的大语言模型 (LLMs) 正在改变我们的世界,但一个根本的谜团仍然存在: 它们究竟是如何思考的? 我们知道它们由数十亿个人工神经元组成,但当我们窥探这个数字大脑的内部时,往往只看到一团乱麻。许多神经元是多义性的 (polysemantic) ,也就是说,一个神经元可能会同时响应一系列奇怪且无关的概念——比如红色、棒球运动和悲伤的情绪。 ...
](https://deep-paper.org/en/paper/2312.11560/images/cover.png)
在人工智能领域,近年来最引人入胜的发现之一是涌现 (emergence) ——当模型的规模扩大时,它不仅仅是性能略有提升,而是会产生全新的能力。当一个神经网络变得更大,拥有更多数据、参数和更长的训练时间时,它可以突然掌握小型网络无法企及的复杂推理或多语言能力。这是像 GPT-4 这样的大型模型以惊人能力震撼世界的关键原因之一。 ...
](https://deep-paper.org/en/paper/2407.02646/images/cover.png)
为什么语言模型有时表现得像天才,有时又像神秘的黑箱?可解释性机理 (Mechanistic Interpretability,MI) 试图通过逆向工程来回答这个问题,探究这些模型实际计算的内容——深入到神经元、注意力头以及连接它们的回路。本文将近期的一篇综述《基于 Transformer 的语言模型的可解释性机理实用综述》 (A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models) 提炼为一份以任务为中心的实践指南,旨在帮助希望从好奇心出发,迈向可复现研究的学生和从业者。 ...
](https://deep-paper.org/en/paper/2304.14997/images/cover.png)
现代 AI 模型——尤其是像 GPT-4 这样的大型语言模型——拥有惊人的能力。它们能够编写代码、总结研究论文、解释复杂的概念。然而,尽管这些成就令人瞩目,我们并不真正知道它们是如何做到的。每个模型内部都藏着一个由数十亿参数组成的迷宫,形成了一个极其复杂的网络,其逻辑几乎完全不透明。这使得 AI 系统常被称为“黑箱”。 ...
](https://deep-paper.org/en/paper/2503.01824/images/cover.png)
人工智能,尤其是我们每天与之互动的大型语言模型 (LLM) ,常常让人感觉像一个黑箱。我们看到的是它引人注目的输出——连贯的文本、惊艳的图像、深刻的分析——但其内部运作机制仍被神秘笼罩。一个人工神经网络究竟是如何表征“大象”、“正义”或“粉色”这类概念的呢?这不仅仅是一个学术谜题。随着人工智能日益深入医疗、金融和政策等关键领域,理解它如何表征信息,对于确保可信、安全和可靠至关重要。 ...
](https://deep-paper.org/en/paper/2409.15318/images/cover.png)
像 Claude 3 Sonnet 这样的现代 AI 模型是语言奇才——但在其表象之下隐藏着一个引人入胜的谜团。Anthropic 的研究人员最近在该模型中发现了大约一千二百万个独特的、人类可解释的“特征”。一个特征可以是具体的概念,如“金门大桥”,也可以是抽象的概念,如“用 Python 编写的代码”。令人困惑的是,该模型的神经元数量远少于特征数量。 ...
](https://deep-paper.org/en/paper/2309.08600/images/cover.png)
像 GPT-4 这样的大语言模型 (LLM) 展现了惊人的能力,但一个根本性问题依然存在——它们究竟是如何工作的? 我们可以看到它们的输入和输出,但其预测背后的内部推理过程却深埋在数十亿个参数之中。这种不透明性是构建安全、公平和可信系统的主要障碍。如果我们不理解模型为什么会做出某个决定,又如何纠正或防止有害行为呢? ...
](https://deep-paper.org/en/paper/2408.05451/images/cover.png)
引言: 神经网络拥挤的思维 如果你曾试图理解神经网络在“想”什么,你很可能遇到过一个令人困惑的现象,称为多义性 (polysemanticity) ——即单个神经元会对多个看似无关的概念产生激活。一个神经元可能同时对“猫”、“速度”和颜色“红色”做出响应。对于研究机制可解释性 (mechanistic interpretability) 的学者来说,这使得逆向工程网络变得极具挑战性。 ...
](https://deep-paper.org/en/paper/2508.17456/images/cover.png)
近十年来,一个幽灵一直萦绕在深度学习的殿堂: 对抗样本 。 这些输入 (通常是图像) 经过微小、人类难以察觉的扰动修改,却能完全欺骗最先进的神经网络。一张熊猫的照片,加上一点精心调整的噪声,在机器眼中就突然变成了一只长臂猿。 ...
](https://deep-paper.org/en/paper/2209.10652/images/cover.png)
如果你曾尝试逆向工程一个神经网络的行为,你很可能注意到一个让人沮丧的事实: 神经元很“乱”。一些神经元表现得像干净的检测器——“这里是曲线”、“那里是狗鼻子”——而许多其他神经元则是多语义的 (polysemantic) : 它们会对看似毫无关联的事物作出响应。为什么会这样?Anthropic 于 2022 年发表的论文《叠加的玩具模型》 (Toy Models of Superposition) 给出了一个简明的解释: 在许多情况下,网络试图表示的稀疏特征远超其神经元数量,因此它们将多个特征“打包” (或“叠加”) 到重叠的激活模式中。这种打包带来了多语义神经元、结构化的干扰,以及 (令人意外的) 美丽几何结构。 ...