[Metalearning Continual Learning Algorithms 🔗](https://arxiv.org/abs/2312.00276)

教神经网络记忆:一种能学习自身学习算法的人工智能

“记忆的敌人是其他的记忆。”——大卫·伊格曼 神经科学家大卫·伊格曼的这句观察精准地揭示了人工智能领域最顽固的挑战之一: 灾难性遗忘 。 想象一下,你教一个神经网络识别猫。它学得很好,准确率很高。现在,你教同一个网络识别狗。它掌握了新任务——但当你再次给它看猫的图片时,它却一无所知。“狗”的知识覆盖了“猫”的知识。 ...

2023-12 · 8 分钟 · 3551 字
[Mnemosyne: Learning to Train Transformers with Transformers 🔗](https://arxiv.org/abs/2302.01128)

Mnemosyne:学习优化其他神经网络的 Transformer

训练像 Transformer 这样的大规模神经网络是现代人工智能的基石,但这也是整个过程中最困难的部分之一。这一挑战的核心在于优化器——诸如 Adam 或 SGD 这样的算法,它们通过逐步微调模型参数来最小化损失函数。要达到顶级性能,通常需要一个耗时且资源密集的试错循环,为每个新架构或任务进行无休止的超参数调整。 ...

2023-02 · 7 分钟 · 3091 字
[A Generalizable Approach to Learning Optimizers 🔗](https://arxiv.org/abs/2106.00958)

超越 Adam:AI 如何学会优化神经网络

训练深度神经网络依然是现代机器学习中最令人沮丧的手动环节之一。研究人员费尽心思地调整数十个优化器超参数——学习率、动量、权重衰减——希望能找到让模型平稳学习的“甜点区”。只要一个参数没调好,训练就可能发散或停滞。 ...

2021-06 · 7 分钟 · 3492 字
[Learning to Optimize for High-Dimensional Stochastic Problems 🔗](https://arxiv.org/abs/1703.00441)

超越 Adam:我们能为神经网络学习一个更好的优化器吗?

在机器学习领域,优化无处不在。从简单的回归模型到庞大的深度网络, 随机梯度下降 (SGD)、Adam 和 RMSprop 等算法是驱动模型训练的引擎。我们花费无数时间微调它们的超参数——学习率、动量、衰减因子——把它们当作精巧但终究固定的工具。 ...

2017-03 · 7 分钟 · 3502 字
[Learned Optimizers that Scale and Generalize 🔗](https://arxiv.org/abs/1703.04813)

教 AI 学会优化:学习型优化器如何实现扩展与泛化

在机器学习中,优化就是一切。无论你是在训练语言模型、为自动驾驶汽车微调视觉网络,还是拟合一个简单的逻辑回归,你总是在使用优化器——一个推动模型参数迈向更好性能的数学引擎。 ...

2017-03 · 7 分钟 · 3366 字
[Global Convergence of MAML and Theory-Inspired Neural Architecture Search for Few-Shot Learning 🔗](https://arxiv.org/abs/2203.09137)

解码 MAML:一种用于超快速神经架构搜索的新核函数

想象一下,你试图教一台机器识别一种新的鸟类——但你只有一张照片。欢迎来到少样本学习的世界,这是现代人工智能的一个前沿领域,模型必须仅从少量样本中学习新任务。人类对此驾轻就熟,而传统的深度学习系统通常需要成千上万的带标签样本。 ...

2022-03 · 6 分钟 · 2900 字
[EvoGrad: Efficient Gradient-Based Meta-Learning and Hyperparameter Optimization 🔗](https://arxiv.org/abs/2106.10575)

元学习的进化提速:深入解析 EvoGrad

训练一个大型神经网络有时感觉像是在炼金术。除了设计网络架构本身,你还要面对一大堆超参数——学习率、正则化强度、优化器动量等等,数不胜数。找到合适的平衡点通常是一个痛苦的反复试验过程。 ...

2021-06 · 7 分钟 · 3279 字
[Meta-learning the Learning Trends Shared Across Tasks 🔗](https://arxiv.org/abs/2010.09291)

超越良好起点:PAMELA 如何学习快速适应的路径

人类拥有一种非凡的能力,可以仅通过少量样本就学会新概念。给孩子看一次斑马的图片,他们很可能就能在野外、动画片或其他照片中认出斑马。这就是少样本学习的精髓——一种我们与生俱来但对机器而言历来是巨大挑战的能力。 ...

2020-10 · 7 分钟 · 3251 字
[Deep Meta-Learning: Learning to Learn in the Concept Space 🔗](https://arxiv.org/abs/1802.03596)

超越原始像素:深度元学习如何教AI学习概念

人类具有非凡的能力,仅凭一两个例子就能学习新事物。看一张巨嘴鸟的图片,你往往就能识别其他巨嘴鸟,即使它们的姿势、光照或背景各不相同。对于机器学习模型——尤其是深度神经网络——来说,这却是一个巨大的挑战。它们以“数据饥渴”而闻名,通常需要数千个带标签的样本才能达到类似的效果。人类与机器学习之间的这种差距,正是小样本学习 (few-shot learning) 研究的核心战场。 ...

2018-02 · 6 分钟 · 2966 字
[Meta-Transfer Learning for Few-Shot Learning 🔗](https://arxiv.org/abs/1812.02391)

超越微调:元迁移学习如何掌握小样本识别

你是否曾看过一张陌生动物 (比如水豚) 的图片,之后就能在不同的照片中认出它?人类拥有一种惊人的能力,仅凭一个或少数几个例子就能学会新概念。这正是小样本学习的精髓,而这一能力长期以来一直是人工智能领域的重大挑战。 ...

2018-12 · 7 分钟 · 3082 字
[Adaptive Gradient-Based Meta-Learning Methods 🔗](https://arxiv.org/abs/1906.02717)

自适应地学习如何学习:深入解读 ARUBA 框架

想象一下,你试图教一个机器学习模型仅凭一张照片就识别一种新的鸟类。一个在数千张猫狗图片上训练出来的标准模型很可能会失败。但如果这个模型不仅学会了识别特定的动物,还学会了如何学习来自有限数据的新动物呢?这正是元学习 (meta-learning) ,或称作*“学会学习”* (learning-to-learn) 的核心理念。 ...

2019-06 · 6 分钟 · 2951 字
[Toward Multimodal Model-Agnostic Meta-Learning 🔗](https://arxiv.org/abs/1812.07172)

超越单一起点:面向多样化和不相交任务的元学习

想象一下,你是一位才华横溢的学徒,正在向一位大师学习多种截然不同的技能。今天你画着精致的水彩画,明天又在锻造钢铁。一位好的导师不会用完全相同的基础原则教授这两种技艺。对于水彩画,你会从轻柔的笔触和色彩融合开始;对于锻造,你会从力量与热量控制入手。初始心态——即“先验”——必须与当前的任务相匹配。 ...

2018-12 · 6 分钟 · 2878 字

学会快速学习:深入解析 SNAIL 元学习器

人类拥有令人赞叹的能力——可以快速学习新事物。给一个孩子看一张长颈鹿的图片,他们可能终生都能认出长颈鹿。让一位经验丰富的程序员学习一门新语言,他们常常能在几天内就熟练使用,借助的是已有的知识体系。这种快速适应能力正是人类智能的显著特征。 ...

7 分钟 · 3090 字
[On First-Order Meta-Learning Algorithms 🔗](https://arxiv.org/abs/1803.02999)

Reptile:一个简单而强大的元学习技巧

人类是天生的快速学习者。我们通常只需几个例子就能掌握一个新概念——比如给孩子看一张斑马的图片,他们以后即使在完全不同的场景中也能认出斑马。相比之下,深度学习模型虽然在许多基准测试中表现超越人类,却出了名地 “数据饥渴” 。 它们通常需要成千上万甚至数百万个样本才能达到相似的准确率水平。这一差距揭示了人工智能的一个基本挑战: 我们怎样才能构建能够从有限数据中快速高效学习的模型? ...

2018-03 · 8 分钟 · 3549 字
[Meta-SGD: Learning to Learn Quickly for Few-Shot Learning 🔗](https://arxiv.org/abs/1707.09835)

快速学会学习:深入解析 Meta-SGD

引言: 对数据的渴求 现代深度学习是一个奇迹——但它同时也是一个数据“吞噬者”。像大规模视觉和语言模型这样的系统依赖庞大的数据集,有时需要耗费数周的计算才能完成训练。当数据充足时,这种方法行之有效,但若数据稀缺,又该怎么办?例如,我们如何训练一个系统,仅凭几张照片就能识别稀有动物物种?又如何让机器人在只看过一次新物体后就能学会操作它? ...

2017-07 · 6 分钟 · 2883 字
[LEARNING FROM FEW EXAMPLES: A SUMMARY OF APPROACHES TO FEW-SHOT LEARNING 🔗](https://arxiv.org/abs/2203.04291)

超越大数据:深入探索小样本学习

现代深度学习模型拥有惊人的能力,在从图像识别到语言翻译等任务中都取得了超越人类的表现。然而,它们都有一个共同的主要弱点: 对数据的无尽渴求。训练这些系统需要海量、精心整理的数据集,而这些数据集的获取往往成本高昂、耗时费力,有时甚至是不可能的。如果你希望为一种罕见疾病、一款小众产品或专门的法律文书开发模型,该怎么办?收集数千个标注样本显然不切实际。 ...

2022-03 · 8 分钟 · 3735 字
[Learning to Compare: Relation Network for Few-Shot Learning 🔗](https://arxiv.org/abs/1711.06025)

关系网络如何通过学习比较掌握小样本学习

一个孩子如何能在只看过一张斑马的插图后,将来就能毫不费力地认出这种动物?这种从一个或少数几个例子中进行泛化的能力——被称为小样本学习 (few-shot learning)——对人类来说是与生俱来的。然而,对于深度学习模型来说,这仍然是一个巨大的挑战。 ...

2017-11 · 7 分钟 · 3159 字
[FEATURE ALIGNING FEW SHOT LEARNING METHOD USING LOCAL DESCRIPTORS WEIGHTED RULES 🔗](https://arxiv.org/abs/2408.14192)

滤除噪声:深入探究用于小样本学习的特征对齐技术

深度学习已经改变了计算机视觉领域,但其成功通常依赖于大量的标注数据。在 ImageNet 这样的大规模数据集上训练的模型可以准确分类数千种物体——但当我们想用少量样本来教模型一个新概念时,会发生什么呢?例如,仅凭五张照片来识别一种稀有鸟类。这个挑战定义了小样本学习 (FSL) 。 ...

2024-08 · 6 分钟 · 2663 字
[Prototypical Networks for Few-shot Learning 🔗](https://arxiv.org/abs/1703.05175)

用原型学习“如何学习”:深入解析原型网络

引言: 从少量样本中学习的挑战 现代机器学习模型——尤其是在计算机视觉领域——能够以惊人的准确度识别物体、人脸和场景。然而,它们极度依赖数据。训练一个最先进的图像分类器通常需要数百万个带标签的样本。相比之下,人类仅凭一两个例子就能学会: 一个孩子只要见过一次斑马,就能毫不费力地再次认出它。 ...

2017-03 · 7 分钟 · 3045 字
[Matching Networks for One Shot Learning 🔗](https://arxiv.org/abs/1606.04080)

一击定乾坤——匹配网络如何从单个样本中学习

一个孩子在书中看到一张长颈鹿的图片,基本上就能在野外、动物园或另一本书中正确地认出长颈鹿。这种仅凭一两个例子就能学习一个新概念的非凡能力,是人类轻而易举就能做到的。然而,对于我们最先进的机器学习模型来说,这仍然是一个巨大的挑战。 ...

2016-06 · 7 分钟 · 3303 字