Deep Paper

[LEARNING FROM FEW EXAMPLES: A SUMMARY OF APPROACHES TO FEW-SHOT LEARNING 🔗](https://arxiv.org/abs/2203.04291)

超越大数据：深入探索小样本学习

现代深度学习模型拥有惊人的能力，在从图像识别到语言翻译等任务中都取得了超越人类的表现。然而，它们都有一个共同的主要弱点: 对数据的无尽渴求。训练这些系统需要海量、精心整理的数据集，而这些数据集的获取往往成本高昂、耗时费力，有时甚至是不可能的。如果你希望为一种罕见疾病、一款小众产品或专门的法律文书开发模型，该怎么办？收集数千个标注样本显然不切实际。 ...

[Learning to Compare: Relation Network for Few-Shot Learning 🔗](https://arxiv.org/abs/1711.06025)

关系网络如何通过学习比较掌握小样本学习

一个孩子如何能在只看过一张斑马的插图后，将来就能毫不费力地认出这种动物？这种从一个或少数几个例子中进行泛化的能力——被称为小样本学习 (few-shot learning)——对人类来说是与生俱来的。然而，对于深度学习模型来说，这仍然是一个巨大的挑战。 ...

[FEATURE ALIGNING FEW SHOT LEARNING METHOD USING LOCAL DESCRIPTORS WEIGHTED RULES 🔗](https://arxiv.org/abs/2408.14192)

滤除噪声：深入探究用于小样本学习的特征对齐技术

深度学习已经改变了计算机视觉领域，但其成功通常依赖于大量的标注数据。在 ImageNet 这样的大规模数据集上训练的模型可以准确分类数千种物体——但当我们想用少量样本来教模型一个新概念时，会发生什么呢？例如，仅凭五张照片来识别一种稀有鸟类。这个挑战定义了小样本学习 (FSL) 。 ...

[Prototypical Networks for Few-shot Learning 🔗](https://arxiv.org/abs/1703.05175)

用原型学习“如何学习”：深入解析原型网络

引言: 从少量样本中学习的挑战现代机器学习模型——尤其是在计算机视觉领域——能够以惊人的准确度识别物体、人脸和场景。然而，它们极度依赖数据。训练一个最先进的图像分类器通常需要数百万个带标签的样本。相比之下，人类仅凭一两个例子就能学会: 一个孩子只要见过一次斑马，就能毫不费力地再次认出它。 ...

[Matching Networks for One Shot Learning 🔗](https://arxiv.org/abs/1606.04080)

一击定乾坤——匹配网络如何从单个样本中学习

一个孩子在书中看到一张长颈鹿的图片，基本上就能在野外、动物园或另一本书中正确地认出长颈鹿。这种仅凭一两个例子就能学习一个新概念的非凡能力，是人类轻而易举就能做到的。然而，对于我们最先进的机器学习模型来说，这仍然是一个巨大的挑战。 ...

[Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks 🔗](https://arxiv.org/abs/1703.03400)

MAML：如何学会学习（无需天才）

人类拥有一种非凡的能力，可以快速学习新事物。给一个孩子看一张斑马的图片，他们可能这辈子都能认出斑马。给某人一款新的棋盘游戏，几轮过后，他们就能掌握基本策略。这种快速的适应能力是智慧的标志。 ...

[A COMPREHENSIVE OVERVIEW AND SURVEY OF RECENT ADVANCES IN META-LEARNING 🔗](https://arxiv.org/abs/2004.11149)

机器如何学会学习：元学习深度指南

你是否曾通过一个例子就学会一个新概念——比如只看过一次巨嘴鸟的图片，从此便能认出它？现代深度学习模型很少能享受到这种奢侈: 它们通常需要成千上万甚至数百万个带标签的样本。元学习，通常被称为“学会学习”，正试图弥合这一差距。与其训练一个模型来解决单一任务，元学习致力于训练系统，使它们能够在众多不同任务间快速而稳健地适应，从而能在有限数据下实现迅速且准确的学习。 ...

[Meta-learning in natural and artificial intelligence 🔗](https://arxiv.org/abs/2011.13464)

学会学习：人工智能能教给我们关于大脑的什么（以及反之亦然）

如果你曾观察过一个蹒跚学步的孩子学习，你就见证了智能的奇迹。在短短几年内，他们从无助的婴儿成长为小小的科学家——掌握语言，理解“物体存在”这一抽象概念，并迅速学会新游戏。现在，将此与我们最先进的人工智能 (AI) 相比。尽管人工智能能征服围棋或创作出令人惊叹的艺术，但它往往需要天文数字般的数据量——远超人类所需。一个深度学习模型可能需要数百万张猫的照片才能稳定识别出“猫”，而孩子通常只需看几张。 ...

[Meta-Learning in Neural Networks: A Survey 🔗](https://arxiv.org/abs/2004.05439)

学会学习：深入探索元学习的全景

深度学习模型在一系列令人惊叹的任务上取得了超人般的表现，从识别照片中的物体到掌握复杂的策略游戏。但它们有一个不为人知的秘密: 它们极其依赖数据，并且在许多方面缺乏灵活性。一个在百万张图片上训练的最先进图像分类器，可能仅仅为了识别一种新的视觉类别就需要从头重新训练。它学会了任务——但没有学会如何学习。 ...

[META-LEARNING AND REPRESENTATION LEARNER: A SHORT THEORETICAL NOTE 🔗](https://arxiv.org/abs/2407.04189)

学会学习：深入探索元学习与表示学习的理论基础

在机器学习中，我们习惯于一种熟悉的模式: 收集一个大型数据集，训练一个庞大的模型，然后对其进行微调，直到它在某个特定任务上表现良好。这种方法推动了从图像识别到自然语言处理的诸多突破。但它也存在局限——数据需求量大且缺乏灵活性。当面对一个新问题且只有少量样本时，为单一领域训练的模型往往难以适应。一个再先进的猫分类器，当你突然需要仅凭几张图片去分类鸟类时，也帮不上太多忙。 ...

学会学习：LSTM 如何优化神经网络

深度学习模型以数据需求量大而闻名。训练一个最先进的图像分类器通常需要数百万个带标签的示例。而人类——甚至是幼儿——只需看到一两个例子就能识别出新事物。这种从极少数据中进行泛化的非凡能力，是人工智能领域最大的挑战之一: 小样本学习 (few-shot learning) 。 ...

[On the Predictability of Pruning Across Scales 🔗](https://arxiv.org/abs/2006.10621)

神经网络剪枝的隐藏规则：深入探究缩放定律

缩小“巨人”: 我们能预测神经网络剪枝的行为吗？现代神经网络是庞然大物。像 GPT‑3 和 Stable Diffusion 这样的模型彻底改变了人工智能的可能性——但它们巨大的规模也带来了代价。这些模型需要大量计算能力来训练和部署，使它们在许多应用中难以使用，且对环境成本高昂。 ...

[LEARNED THRESHOLD PRUNING 🔗](https://arxiv.org/abs/2003.00075)

聪明剪枝，而非蛮力：深入解析学习阈值剪枝

深度神经网络是众多人工智能重大成果背后的核心力量——从人脸识别到实时语言翻译，皆依赖于它们的强大能力。但这种强大能力也带来了代价: 这些模型体积庞大，消耗巨大的内存和计算资源。在智能手机、可穿戴设备和物联网传感器等日常设备上高效运行它们是一项巨大的挑战。 ...

[A SIMPLE AND EFFECTIVE PRUNING APPROACH FOR LARGE LANGUAGE MODELS 🔗](https://arxiv.org/abs/2306.11695)

Wanda：一种同时关注权重和激活值的 LLM 剪枝方法

像 LLaMA 和 GPT-4 这样的大语言模型 (LLM) 已经彻底改变了自然语言处理领域，但其强大的能力也伴随着高昂的代价。这些模型拥有数十亿个参数，导致它们在运行时计算成本高、内存消耗大，并且对环境要求苛刻。这引发了一场竞赛，旨在让这些模型变得更小、更快、更高效，同时又不牺牲其卓越的性能。 ...

[SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot 🔗](https://arxiv.org/abs/2301.00774)

SparseGPT：如何在无需再训练的情况下从 LLM 中删除 1000 亿参数

像 GPT 系列这样的大语言模型 (LLM) 已经彻底改变了人工智能，在从编写代码到总结文档和生成创意文本等各种任务中展现出卓越的智能。但这种强大的能力伴随着惊人的计算成本。最大的开源模型，如 OPT‑175B 和 BLOOM‑176B，包含超过 1750 亿个参数 , 需要庞大的存储和内存容量。运行此类模型进行推理可能需要多块高端 GPU——例如，五块各带 80 GB 显存的 NVIDIA A100——这使得大多数开发者和研究人员望而却步。 ...

[THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS 🔗](https://arxiv.org/abs/1803.03635)

你的神经网络中彩票了吗？解析“彩票假说”

现代神经网络堪称庞然大物。像 GPT-3 这样的模型包含数千亿个参数，需要海量数据和惊人的计算资源。深度学习领域普遍认为，这些网络是过度参数化的——它们拥有远超完成任务所需的连接数量。 ...

[Finding Transformer Circuits with Edge Pruning 🔗](https://arxiv.org/abs/2406.16778)

为 Transformer 瘦身：通过边剪枝揭示隐藏电路

为 Transformer 瘦身: 通过边剪枝揭示隐藏电路像 GPT-4 和 Llama 这样的大型语言模型 (LLM) 功能强大，但同样神秘莫测。我们可以用它们写文章、生成代码、解决谜题，却很少知道它们是如何得出结论的。这种“黑箱”特性使得构建更安全、更可靠的 AI 系统变得艰难。 ...

[Low-Complexity Probing via Finding Subnetworks 🔗](https://arxiv.org/abs/2104.03514)

用手术刀探测：发现语言模型已知的内容

像 BERT 这样的大型语言模型是现代自然语言处理 (NLP) 的强大引擎。它们可以以惊人的流畅度撰写文章、翻译语言并回答问题。然而，尽管它们功能强大，却依旧神秘。我们知道它们从海量文本中学习，但它们究竟学到了哪些关于语言的知识？它们是否真的以我们能够识别的方式理解了句法、语义和语法？ ...

[WHAT IS THE STATE OF NEURAL NETWORK PRUNING? 🔗](https://arxiv.org/abs/2003.03033)

剪枝悖论：为何我们无法判断哪种神经网络剪枝方法是最好的

引言现代深度学习是一场关于“规模”的故事。像 GPT-3、DALL·E 2 以及最前沿的视觉 Transformer 等模型，极大地推动了深度学习的边界——在自然语言、图像和推理任务上都取得了惊人的成果。然而，这些成功是以巨大代价换来的: 模型规模庞大，消耗海量的计算资源、内存和能源。训练它们需要高昂的成本，而将它们部署到智能手机或物联网设备上往往不切实际。 ...

[Transcoders Find Interpretable LLM Feature Circuits 🔗](https://arxiv.org/abs/2406.11944)

超越神经元：使用 Transcoder 在大语言模型中寻找可解释回路

像 GPT‑4 这样的大语言模型 (LLM) 可以写诗、调试代码、解释复杂的科学概念。但如果你问它们是如何做到这些的，答案往往是耸耸肩。这些模型是著名的“黑箱”——由数十亿参数构成的庞大网络，其中的复杂计算超出了人类的理解范围。 ...